pig - Ambiente Livre

Treinamento Analise de Dados com Apache Hive, Impala e Pig

Publicado em Data Science

Sobre o treinamento

O treinamento é voltado para analistas de dados que querem acessar, manipular, transformar e analisar conjuntos de dados complexos no ecossistemas de Big Data como Hadoop usando as ferramentas Apache Hive, Apache Impala e Apache Pig. O curso foca no uso das ferramentas, suas funcionalidades e características, e não na instalação da infraestrutura que é apresentado um overview, todo ambiente será entregue em VMs previamente instalada em GNU-Linux/Debian e versões Apache ou Cloudera do Hadoop HDFS, Spark, Hive, Impala e Pig. Nosso conteúdo programático que foi construído para formação de especialistas em analise de dados com Hive, Impala e Hive, O mesmo mescla conhecimentos conceituais de analise e ciência de dados, conhecimentos de negócio, assim como integração e programação.

Modalidade do Treinamento.

Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais Brasileiras.
On Line Ao Vivo - Fazemos a transmissão Online do Treinamento.
In Company (Presencial ou Online) - Turmas Fechadas para empresas a custo único para até 15 Alunos.

Conteúdo Programático

Conceitual do Ecossistema Hadoop.

O que é Big Data?
Os 4 V's principais do Big Data.
Os Profissionais Cientista de Dados (Data Scientist) e Engenheiro de Dados (Data Engineer).
Data Lake.
IoT - Internet das Coisa e Big Data.
Principais Ferramentas de Big Data.
Licenciamento (Free Software X Open Source).

Introdução ao Hive, Impala e Pig.

Apache Hive.
Apache Impala.
Apache Pig.
Schema e Datastore.
Arquitetura.
Comparando Hive X Impala X Pig.
Hive X Presto.
Comparação do Hive,Impala e banco de dados tradicionais.
Empresas usando Hive, Impala e Pig no Brasil e no Mundo.
Casos de uso do Hive, Impala e Pig.
Comunidades Hive, Impala e Pig.
Versões do Hive, Impala e Pig.

Overview de instalação do Hive, Impala e Pig.

Pré-requisitos de instalação.
variáveis de ambiente.
Principais arquivos de configuração.

Analisando Dados com Apache Hive e Apache Impala.

Banco de Dados e Tabelas.
Tipos de dados.
HCatalog.
Hive QL.
Hive e Impala Query Language Syntax.
Usando o HUE para executar Querys.
Beeline e Hive Shell.
Impala Shell.
Impala Metadata Caching.
Operadores.
Funções escalares.
Funções de Agregação.
Union e Join.
Trabalhando com NULL.
Alias.
Filtros, Ordenações e Limites de Resultados.
Expressões regulares.
Analise de Texto.

Gerenciamento de Dados.

Datatorage.
Criando tabelas e bancos de dados.
Carregando dados.
Alterando tabelas e bancos de dados.
Criando e usando Views.
Armazenando resultados de Consultas.

Formato de Dados.

Os principais formatos de dados.
Apache Avro.
Apache Parquet.
Apache ORC.
Escolhendo o formato de dados ideal.

Particionamento.

Introdução a Particionamento.
Alta performance.
Particionamento de tabelas.
Carregando dados em tabelas particionadas.

Otimização do Apache Hive e Apache Impala.

Query Performance.
Bucketing.
Hive com Spark.
Impala Performance.

Extendendo o Hive e o Impala.

UDFs.
SerDes.

Melhorias e Futuro.

Hive Mall.
Hive LLAP.
TEZ.

Analisando dados com Pig

Tipo de Dados.
Pig e MapReduce.
Componentes.
Modos de Execução.
PigLatin.
Scripts Pig.
Executando scripts pig.
Integrando Pig e Hive.
Integrando Pig e Impala.

Carga Horária.

32 Horas.

Público Alvo.

Analistas de Dados.
Engenheiros de Dados.
DBAs
Desenvolvedores.
Cientistas de Dados.

Pré-requisitos.

Conhecimento básico em algum sistema operacional (Windows, Linux ou MAC)
Conhecimento básico de banco de dado e SQL.
Conhecimento básico de programação (Scripts SQL).

Requisitos:

Todos os participantes devem trazer um notebook para realizar as atividades práticas.
O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 15 alunos para um melhor desempenho.

Requisitos Recomendados de Hardware e Software.

Memória RAM: 8GB.
Espaço em Disco: 20GB.
Processador: 64 bits (chipsts de x64).
CPU: 2 núcleos.
Sistemas Operacionais: GNU/Linux, Windows ou MacOS.
VirtualBox.

Material.

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

Todos os softwares Hive, Impala e Pig e acessórios na sua última versão estável.
Material próprio em Português do Brasil.
Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
Apostilas com exercícios práticos desenvolvidos no treinamento.
Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Brindes: Caneta, Pasta e Bloco de Anotações. (Somente em presenciais)

Metodologia.

O treinamento apresenta uma empresa fictícia onde será implantado as ferramentas de analise e todas as fases da implantação para analise usando Hive, Impala e Pig.
Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Hive, Impala e Pig e cursos Hive, Impala e Pig. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Inscrições, Informações e Valores

[No form id or name provided!]

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 19 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

3.535 profissionais capacitados em 325 turmas ministradas.

Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Hadoop Fundamental

Sobre o Treinamento

Calendário de turmas abertas

Conteúdo Programático

Conceitual Big Data

Conceitual Apache Hadoop

Instalação do Apache Hadoop

HDFS

MapReduce

CDH - Cloudera Hadoop

Introdução a outras ferramentas de trabalho

Carga Horária:

Pré-Requisitos:

Inscrições, Informações e Valores

Instrutor

Sobre o treinamento

Modalidade do Treinamento.

Conteúdo Programático

Conceitual do Ecossistema Hadoop.

Introdução ao Hive, Impala e Pig.

Overview de instalação do Hive, Impala e Pig.

Analisando Dados com Apache Hive e Apache Impala.

Gerenciamento de Dados.

Formato de Dados.

Particionamento.

Otimização do Apache Hive e Apache Impala.

Extendendo o Hive e o Impala.

Melhorias e Futuro.

Analisando dados com Pig

Carga Horária.

Público Alvo.

Pré-requisitos.

Requisitos:

Requisitos Recomendados de Hardware e Software.

Material.

Metodologia.

Inscrições, Informações e Valores

Diferenciais da Ambiente Livre.

Instrutor

Log in