Apache Drill

Treinamento Apache Drill - Fundamental

O treinamento fundamental em Apache Drill prepara profissionais para o mercado de analise e ciência de dados, usando um mecanismos de exploração de dados de grande volume com uma diversidade de fontes de dados, e uma abstração da complexidade de suas fontes de dados de origem. O Apache Drill fornece consulta SQL colunar, distribuída e sem esquema, para Hadoop, NoSQL e outros sistemas de armazenamento tais como HBase, MongoDB, MapRDB, HDFS, MapRFS, Amazon S3, etc. Sua saída de dados pode ser consumida por conectores JDBC, Linguagens de programação ou ainda ferramentas de Business Intelligence como Pentaho Business Intelligence e outras.


Objetivo

Ministrar as principais funcionalidades e técnicas do Apache Drill para exploração de dados.

Público Alvo

Cientistas de dados, Analistas de Business Intelligence, DBAs, Engenheiro de dados, Desenvolvedores.

Conteúdo Programático.

Conceitual Apache Drill.

  • Introdução ao Apache Drill.
  • Introdução a Ciência de dados.
  • Introdução a Big Data.
  • Apache Drill no Ecossistema de Big Data.
  • A Apache Software Foundation.
  • Cases de Uso do Apache Apache Drill.
  • Empresas usando Apache Apache Drill.
  • Dremel/Google BigQuery X Drill.
  • Open Source X Free Software.

Instalação do Apache Drill.

  • Requisitos para instalação do Apache Drill.
  • Instalando o Apache Drill (Embeeded Mode).
  • Preparando o Cluster.
  • Instalando o Apache Drill (Distributed Mode).
  • Configurando o Apache Drill.
  • Configuramdo ZooKeeper.
  • Configurando o Storage.

Querys com Apache Drill.

  • Querys com dados delimitados.
  • Drill SQL Query Format.
  • Criando fonte de dados.
  • Definindo o ambiente de trabalho.
  • Acessando colunas em querys.
  • Cabeçalhos de Dados Delimitados.
  • Função Table.
  • Drill Data Types.
  • Trabalhando com formatos de datas.
  • Criando Views.
  • Analisando dados com Apache Drill.
  • Palavras reservadas.

Analise de Dados Complexos

  • Arrays e Maps.
  • Analisando logs com Drill.
  • Query com Nested Data.

Data Sources com Drill.

  • Múltiplos data Sources.
  • Base de dados Relacionais.
  • Query em Hadoop para Drill.
  • Query em HBase para Drill.
  • Streaming de Dados com Apache Drill e Kafka.
  • Query MongoDB com Drill.
  • Drill com Cloud Storage.

Conectando ao Apache Drill.

  • Conectando com JDBC.
  • Conectando com Python.
  • Conectando com R.
  • Conectando com Java.
  • Conectando co Ferramentas de BI.

Engenharia de dados com Apache Drill.

  • Schema-on-Read.
  • SQL Relational Model.
  • Data Source Inference.
  • File Type Inference.
  • Distributed File Scans.
  • JSON Objects.
  • Usando Drill com Parquet.

Funções do Apache Drill.

  • User-Defined Functions.
  • Drill com arquivos do Planilhas Eletrônicas (LibreOffice Calc, MS Excel, etc).
  • Geospatial Functions.
  • Networking Functions.

Carga Horária:

  • 24 Horas de duração.

Modalidades do Treinamento:

  • Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais Brasileiras.
  • On Line Ao Vivo - Fazemos a transmissão Online do Treinamento.
  • In Company (Presencial ou Online) - Turmas Fechadas para empresas a custo único para até 15 Alunos.

Pré-Requisitos:

  • Conhecimento de comandos e servidores Linux.
  • Conhecimento básico em SQL.

Requisitos:

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para Online ter uma boa conectividade com a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware

  • Memória RAM: 8GB
  • Espaço em Disco: 20GB
  • Processador: Dual-core AMD 64, EM64T
  • Sistemas Operacionais: GNU/Linux, Windows, MacOS.
  • VirtualBox.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache Drill e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
  • Caneta, Pasta e Bloco de Anotações.

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Apache Drill e cursos Apache Drill. Caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

 

Inscrições, Informações e Valores.

https://www.ambientelivre.com.br/contato.html

Instrutor

Marcio Junior Vieira

  • 20 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
  • CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
  • Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
  • Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
  • Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
  • Professor da Pós-Graduação em Big Data e Data Science da UniBrasil.
  • Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
  • Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
  • Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
  • Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
  • Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
  • Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
  • Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer entre outras.
  • Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
  • Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, LimeSurveySuiteCRM e Camunda.
  • Especialista em implantação e customização de ECM com Alfresco e BPM com ActivitiFlowable e Camunda.
  • Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
  • Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)