Hadoop Fundamental

Treinamento Apache Spark com Python para Desenvolvedores

Sobre o Treinamento - Curso

O curso ou treinamento Apache Spark com Python para desenvolvedores foi desenvolvido para que os alunos possam após o treinamento ser capaz de construir aplicações de Big Data usando uma das tecnologias mais modernas para processamento massivo o Spark, são abordados conhecimentos de arquitetura e ecossistemas fundamentais para a programação com a linguagem Python e o Framework de código aberto Apache Spark. Entender os principais conceitos e fluxo de trabalho de implementação, dominar tópicos avançados de manipulação de RDDs, saber escrever scripts Spark com acesso a HDFS, Hive, HBase e interações com outros projetos do ecossistema Hadoop necessários para a análise de dados. Saber fazer uso de motores de processamento e desenvolver soluções que utilizam componentes em todo hub de dados da empresa. Ser capaz de construir aplicativos usando Apache Spark para processamento de stream combinando dados históricos com dados de streaming, através de análises interativas em tempo real.


Turmas Somente inCompany

 

Conteúdo Programático

Conceitual Big Data e Spark

  • Visão geral sobre Hadoop.
  • Características do Hadoop.
  • Sistema distribuído de arquivos.
  • Ecossistema Hadoop.
  • Quem usa o Hadoop.
  • Cases do uso Hadoop.
  • Uso de Hadware comum.
  • Distribuições do Hadoop (Cloudera X Hortonworks X Apache).
  • Free Software(GLP) X Open Source(BSD e Apache)

Introdução a Linguagem Python

  • O que é Python?
  • Apresentando Python.
  • Instalando Python.
  • Escrevendo scripts Python
  • Basico em Python.
  • Tipos Básicos Python.
  • Definindo Funções.
  • IDE para Python.

Programando em Python e Jython

  • Declaração método.
  • Literais.
  • Listas.
  • Tuplas.
  • Opções.
  • Maps.
  • Palavras reservadas.
  • Operadores.
  • Regras de precedência.
  • If, While Loops, Do-While Loops.
  • Operadores condicionais.
  • Pattern Matching.
  • Enumerações.

Programação Funcional em Python

  • O que é programação funcional?
  • Literais funcionais e Closures.
  • Recursão.
  • Tail Calls.
  • Estruturas de Dados Funcionais.
  • Parâmetros das Funções implícitas.
  • Chamada por nome.
  • Chamada por Valor.

Instalação do Apache Spark

  • Instalando o Spark.
  • Modos do Spark.
  • Standalone Cluster.

Primeiros passos em Apache Spark

  • Invocando Spark Shell.
  • Criando o Contexto Spark.
  • Carregando um arquivo no Shell.
  • Realizando algumas operações básicas em arquivos em Spark Shell.
  • Construindo um Projeto com sbt.
  • Executando o Projecto Spark com sbt.
  • Caching Overview, Persistência Distribuído.
  • Spark  Streaming Overview.
  • Exemplo: Streaming Word Count.

RDD - Resilient Distributed Dataset

  • Transformações no RDD.
  • Ações em RDD.
  • Carregando dados em RDD.
  • Salvando dados através RDD.
  • Key-Value Pair RDD.
  • MapReduce e Operações RDD Pair.
  • Integração Python e Hadoop.
  • Arquivos de seqüência.
  • Usando Partitioner e seu impacto na melhoria do desempenho.

Formatos de Armazenamento

  • Trabalhando arquivos CSV com Spark.
  • Trabalhando arquivos JSON com Spark.
  • Trabalhando arquivos XML com Spark.
  • Parsing XML com Spark RDD.
  • Introdução ao Apache Kudu.
  • Trabalhando com arquivos Kudu.
  • Introdução ao Apache ORC.
  • Trabalhando com arquivos ORC.
  • Introdução ao Apache Parquet.
  • Trabalhando com arquivos Parquet.

Apache Spark com SQL e Hadoop Hive

  • Arquitetura Analyze Hive.
  • Arquitetura Spark SQL.
  • Analyze Spark SQL.
  • Context em Spark SQL.
  • Integrando Hive e Spark SQL.

Apache Spark com HBase

  • Arquitetura HBase.
  • Integrando Hive com HBase.
  • Spark-HBase Connector.
  • HBase com Spark Dataframe.
  • Integrando HBase e Spark SQL.
  • Lendo tabelas HBase com Spark.
  • Gravando em tabelas HBase com Spark.

Apache Spark e Pentaho

Carga Horária:

  • 32 Horas.

Pré-requisitos dos Participantes:

  • Conhecimento em Programação Java ou alguma linguagem com Orientação Objeto.
  • Noções de Big Data.
  • Conhecimento de Banco de Dados e SQL.
  • Conhecimento Básico de Linux.
  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

  • Memória RAM : 8GB.
  • Espaço em Disco: 10GB.
  • Processador: Dual-core AMD 64, EM64T
  • deve estar ativo a Virtualização na BIOS do equipamento.
  • Sistemas Operacionais:Qualquer um com suporte e Virtualização com VirtualBox.
  • Oracle VM VirtualBox ( https://www.virtualbox.org/ ).
  • Obs. Equipamentos com menos que 8GB de Memória RAM ( Entre 5GB e 8GB) podem passar por lentidão nas atividades de uso de maquinas virtuais simultâneas no treinamento. Equipamentos com 4GB ou inferior não funcionarão para o treinamento.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache Spark e Python e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações ( slides do treinamento ) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
  • Caneta, Pasta e Bloco de Anotações.

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

 

 

Instrutor

Leia mais...

Treinamento Apache Spark com Scala para Desenvolvedores

Sobre o Treinamento - Curso

O curso ou treinamento Apache Spark para desenvolvedores foi desenvolvido para que os alunos possam após o treinamento ser capaz de construir aplicações de Big Data usando uma das tecnologias mais modernas para processamento massivo o Spark, são abordados conhecimentos de arquitetura e ecossistemas fundamentais para a programação com a linguagem Scala e o Framework de código aberto Apache Spark. Entender os principais conceitos e fluxo de trabalho de implementação, dominar tópicos avançados de manipulação de RDDs, saber escrever scripts Spark com acesso a HDFS, Hive, HBase e interações com outros projetos do ecossistema Hadoop necessários para a análise de dados. Saber fazer uso de motores de processamento e desenvolver soluções que utilizam componentes em todo hub de dados da empresa. Ser capaz de construir aplicativos usando Apache Spark para processamento de stream combinando dados históricos com dados de streaming, através de análises interativas em tempo real.


Turmas Somente inCompany

 

Conteúdo Programático

Conceitual Big Data e Spark

  • Visão geral sobre Hadoop.
  • Características do Hadoop.
  • Sistema distribuído de arquivos.
  • Ecossistema Hadoop.
  • Quem usa o Hadoop.
  • Cases do uso Hadoop.
  • Uso de Hadware comum.
  • Distribuições do Hadoop (Cloudera X Hortonworks X Apache).
  • Free Software(GLP) X Open Source(BSD e Apache)

Introdução a Linguagem Scala

  • O que é Scala?
  • Apresentando Scala.
  • Instalando Scala.
  • Journey - Java para Scala
  • First Dive -  Interactive Scala.
  • Escrevendo scripts Scala - Compilando Programas Scala.
  • Basico em Scala.
  • Tipos Básicos Scala.
  • Definindo Funções.
  • IDE para Scala.
  • Scala Community.

Essencial em Scala

  • Imutabilidade em Scala - Semicolons.
  • Declaração método.
  • Literais.
  • Listas.
  • Tuplas.
  • Opções.
  • Maps.
  • Palavras reservadas.
  • Operadores.
  • Regras de precedência.
  • If Statements.
  • Scala Para Compreensão.
  • While Loops, Do-While Loops.
  • Operadores condicionais.
  • Pattern Matching.
  • Enumerações.

Traits e OOPs em Scala

  • Traits Intro - Traits as Mixins.
  • Stackable Traits.
  • Criando Traits e OOPS - Classes and Objetos Básicos.
  • Construtores Scala.
  • Nested Classes.
  • Visibility Rules.

Programação Funcional em Scala

  • O que é programação funcional?
  • Literais funcionais e Closures.
  • Recursão.
  • Tail Calls.
  • Estruturas de Dados Funcionais.
  • Parâmetros das Funções implícitas.
  • Chamada por nome.
  • Chamada por Valor.

Instalação do Apache Spark

  • Instalando o Spark.
  • Modos do Spark.
  • Standalone Cluster.

Primeiros passos em Apache Spark

  • Invocando Spark Shell.
  • Criando o Contexto Spark.
  • Carregando um arquivo no Shell.
  • Realizando algumas operações básicas em arquivos em Spark Shell.
  • Construindo um Projeto com sbt.
  • Executando o Projecto Spark com sbt.
  • Caching Overview, Persistência Distribuído.
  • Spark  Streaming Overview.
  • Exemplo: Streaming Word Count.

RDD - Resilient Distributed Dataset

  • Transformações no RDD.
  • Ações em RDD.
  • Carregando dados em RDD.
  • Salvando dados através RDD.
  • Key-Value Pair RDD.
  • MapReduce e Operações RDD Pair.
  • Integração Scala e Hadoop.
  • Arquivos de seqüência.
  • Usando Partitioner e seu impacto na melhoria do desempenho.

Formatos de Armazenamento

  • Trabalhando arquivos CSV com Spark.
  • Trabalhando arquivos JSON com Spark.
  • Trabalhando arquivos XML com Spark.
  • Parsing XML com Spark RDD.
  • Introdução ao Apache Kudu.
  • Trabalhando com arquivos Kudu.
  • Introdução ao Apache ORC.
  • Trabalhando com arquivos ORC.
  • Introdução ao Apache Parquet.
  • Trabalhando com arquivos Parquet.

Apache Spark com SQL e Hadoop Hive

  • Arquitetura Analyze Hive.
  • Arquitetura Spark SQL.
  • Analyze Spark SQL.
  • Context em Spark SQL.
  • Integrando Hive e Spark SQL.

Apache Spark com HBase

  • Arquitetura HBase.
  • Integrando Hive com HBase.
  • Spark-HBase Connector.
  • HBase com Spark Dataframe.
  • Integrando HBase e Spark SQL.
  • Lendo tabelas HBase com Spark.
  • Gravando em tabelas HBase com Spark.

Apache Spark e Pentaho

Carga Horária:

  • 32 Horas.

Pré-requisitos dos Participantes:

  • Conhecimento em Programação Java ou alguma linguagem com Orientação Objeto.
  • Noções de Big Data.
  • Conhecimento de Banco de Dados e SQL.
  • Conhecimento Básico de Linux.
  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

  • Memória RAM : 8GB.
  • Espaço em Disco: 10GB.
  • Processador: Dual-core AMD 64, EM64T
  • deve estar ativo a Virtualização na BIOS do equipamento.
  • Sistemas Operacionais:Qualquer um com suporte e Virtualização com VirtualBox.
  • Oracle VM VirtualBox ( https://www.virtualbox.org/ ).
  • Obs. Equipamentos com menos que 8GB de Memória RAM ( Entre 5GB e 8GB) podem passar por lentidão nas atividades de uso de maquinas virtuais simultâneas no treinamento. Equipamentos com 4GB ou inferior não funcionarão para o treinamento.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache Spark e Scala e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações ( slides do treinamento ) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
  • Caneta, Pasta e Bloco de Anotações.

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

 

 

Instrutor

Leia mais...

Treinamento Apache Hadoop - Big Data Open Source - Fundamental

 

Sobre o Treinamento

O treinamento fundamental em Apache Hadoop prepara profissionais para o mercado de trabalho com Hadoop. Seu conteúdo programático foi desenvolvido para que profissionais possam implementar soluções de Big Data em suas corporações. O mesmo abrange, conceitos , conhecimentos de uso dos softwares, interação programática e atividades práticas.


Calendário de turmas abertas

  1. Curitiba
  • Data: - -
  • Local: Sede da Ambiente Livre
  • Contato
next
prev

Conteúdo Programático

Conceitual Big Data

  • O que é Big Data?
  • Os 4 V's principais do Big Data.
  • O Profissional Cientista de Dados / Data Scientist.
  • Data Lake.
  • IoT - Internet das Coisa e Big Data.
  • Ferramentas de Big Data.
  • Software Livre X Open Source.
  • GPL X BSD/Apache.

Conceitual Apache Hadoop

  • Visão geral sobre Hadoop
  • Características do Hadoop
  • Sistema distribuído de arquivos.
  • Ecossistema Hadoop
  • Quem usa o Hadoop
  • Cases do uso Hadoop
  • Uso de Hadware comum.
  • Distribuições do Hadoop

Instalação do Apache Hadoop

  • Requisitos de Instalação
  • Adquirindo os pacotes de Instalação
  • Modo de Instalação ( SingleCluster, Distribuid Mode )
  • Configuração do Ambiente de Rede
  • Configurando Yarn.
  • Criando diretórios físicos para o Filesystem
  • Formatação do FileSystem
  • Inicializando Serviços
  • Iniciando o cluster com seus nós
  • Testando Processos ativos

HDFS

  • Conceitual HDFS.
  • HDFS - Hadoop FileSystem.
  • HDFS - MapReduce Data Flow.
  • HDFS - Arquitetura.
  • Comandos de manipulação do FileSystem.
  • Copiando arquivos para o FileSystem.
  • Listando arquivos no HDFS.
  • Criando e Removendo Diretórios.
  • Interface Web do HDFS.

MapReduce

  • Conceitual Map Reduce.
  • MapReduce X Hadoop.
  • MapReduce - Função Map.
  • MapReduce - Função Reduce.
  • Fluxo de Trabalho.
  • Executando um MapReduce.
  • MapReduce no cluster.
  • Configurando a IDE Eclipse para MapReduce.
  • Criando um novo MapReduce.

CDH - Cloudera Hadoop

  • Usando a Distribuição Cloudera.
  • Componentes do CDH.
  • Cloudera Hadoop X Apache Hadoop.
  • Interface de gerenciamento Web (HUE).

Introdução a outras ferramentas de trabalho

  • Hortonworks.
  • Apache Mahout.
  • Hbase - Banco de dados distribuído orientado a coluna.
  • Pig - Plataforma de alto nível para a criação de programas MapReduce.
  • Hive - uma infraestrutura de data warehouse sobre o Hadoop.
  • Apache Cassandra - Banco de dados distribuído altamente escalável.
  • Apache Sqoop.
  • Pentaho Data Integration e Hadoop.

 

Carga Horária:

  • 24 Horas.

 

Pré-Requisitos:

  • Conhecimento básico em programação Java.
  • Noções de Big Data.
  • Conhecimento de banco de dados e SQL
  • Conhecimento básico de Linux

 

Próxima turma prevista, veja também acima no calendário outras cidades.

  • Data: - -
  • Local: Sede da Ambiente Livre
  • Contato
 

Instrutor

Leia mais...

Treinamento Apache HBase - Fundamental

Sobre o Treinamento

Este treinamento é recomendado a técnicos que já conheçam os conceitos e o básicos do Hadoop e queiram ampliar seus conhecimento sobre o Hadoop Database ou HBase que é um banco de dados do ecossistema Hadoop distribuído e colunar. O treinamento pode ser ministrado nas versão open source da Apache ou nas comerciais Cloudera e Hortonworks.

Calendário de turmas abertas

Treinamento somente no formato in-company.

Objetivo

Ministrar os conceitos e técnicas de administração do banco de dados Hbase.

Público Alvo

O Treinamento Hbase destina-se a profissionais analistas de BI, DBAs, Gestores de TI, desenvolvedores de sistemas, Cientistas de dados e Engenheiros de dados.

Conteúdo Programático:

Introdução ao Hadoop

  • Introdução ao Hadoop.
  • Histórico do projeto Apache Hadoop.
  • Características do Hadoop.
  • Conceitos fundamentais.
  • Componentes do núcleo do Hadoop.
  • Ecossistema Hadoop.
  • Exemplos de casos de uso.
  • Principais empresas que usam Hadoop no Mundo.
  • Principais empresas que usam Hadoop no Brasil.
  • Apache Software Foundation.

Fundamentos do HBase

  • Introdução a NoSQL.
  • Introdução a Bancos de Dados Colunares.
  • Histórico do HBase.
  • Características do HBase.
  • HBase e RDBMS.
  • SQL X NoSQL.
  • Arquitetura do HBase.
  • HBase Shell.
  • HBase DDL e DML.
  • Table, RowKey, Family, Column e Timestamp.
  • Hbase Regions.
  • Data Storage.
  • Zookepper.
  • Criando e Manipulando um Banco de Dados HBase.
  • HBase Schema.
  • HBase Data Model.
  • HBase schemas.
  • Hbase timestamp.
  • HBase cell.
  • HBase Familias.
  • Armazenamento de dados eficiente e recuperação
  • Melhores práticas para desempenho
  • Comandos de manipulação

HBase Shell

  • Criando tabelas com HBase Shell.
  • Trabalhando com tabelas.
  • Trabalhando com dados da tabela.

HBase API.

  • Opções para acessar os dados do HBase.
  • Criando e deletando tabelas no HBase.
  • Get e Scan.
  • Inserindo e atualizando dados.
  • Excluindo dados.
  • Filtros scan.
  • Melhores práticas.
  • HBase e Java
  • Conectando ao HBase com Java
  • Java API.

HBase no cluster

  • O uso do HDFS.
  • Compactações e splits.
  • Mapreduce e Cluster HBase.
  • Instalação do HBase.
  • Configurar um cluster HBase.
  • Administrar um cluster HBase.
  • HBase daemons.

HBase Cluster

  • Family.
  • Schema.
  • Caching.
  • Times Series.
  • Sequencial.
  • Pre-Splitting Regions.

HBase Avançado

  • Replicação no HBase.
  • HBase backup.
  • Segurança no HBase.
  • Serviços HBase.
  • Corrigindo tabelas com Hbck.
  • Hive e Impala com Hbase.
  • Thrift.
  • Outras Bibliotecas de acesso.
  • HBase Rest Server.
  • Backup

Pré-requisitos de Conhecimento

  • Conhecimento básico banco de dados.
  • Conhecimento em SQL ANSI.

Requisitos dos Alunos

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware

  • Memória RAM: 8GB (Caso queira o treinamento em Hortonworks deve ter 16GB de RAM)
  • Espaço em Disco: 20GB.
  • Processador: i5 ou i7 a partir da segunda geração ou similar.
  • Sistemas Operacionais: GNU/Linux, Windows ou Mac OS.
  • Todos equipamentos devem ter algum software de virtualização Oracle Virtual Box.

Carga Horária

  • 32 Horas de Duração.
  • 100% Presencial

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache HBase e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
  • Caneta, Pasta e Bloco de Anotações.

 

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

 

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos HBase, e cursos sobre HBase. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Instrutor

Leia mais...

Treinamento Administrador Apache Hadoop

Sobre o Treinamento

Este treinamento é recomendado a técnicos que já conheçam os conceitos e o básicos do Hadoop e queiram ampliar seus conhecimento sobre o Hadoop Database ou HBase que é um banco de dados do ecossistema Hadoop distribuído e colunar. O treinamento pode ser ministrado nas versão open source da Apache ou nas comerciais Cloudera e Hortonworks.

Calendário de turmas

Treinamento somente no formato in-company.

Objetivo

Ministrar os conceitos e técnicas de administração de um cluster Hadoop.

Público Alvo

O Treinamento Administrador Hadoop destina-se a profissionais Administradores de sistemas, Cientistas de dados e Engenheiros de dados.

Conteúdo Programático:

Introdução ao Hadoop

  • Introdução ao Hadoop.
  • Histórico do projeto Apache Hadoop.
  • Características do Hadoop.
  • Conceitos fundamentais.
  • Componentes do núcleo do Hadoop.
  • Ecossistema Hadoop.
  • Exemplos de casos de uso.
  • Principais empresas que usam Hadoop no Mundo.
  • Principais empresas que usam Hadoop no Brasil.
  • Apache Software Foundation.

HDFS – Hadoop File System.

  • Arquitetura do HDFS.
  • Características do HDFS.
  • Escrevendo e lendo arquivos.
  • Considerações ao NameNode.
  • Segurança no HDFS.
  • Usando Interface Web do NameNode.
  • Usando o Shell Hadoop.
  • Inserindo dados de fontes externas com flume.
  • Inserindo dados de banco de dados relacionais com Sqoop.
  • Interfaces REST.
  • Melhores praticas de Importação de dados.

YARN e MapReduce.

  • Conceitual sobre YARN e MapReduce.
  • Conceitos Básicos de MapReduce.
  • Cluster YARN.
  • Recuperação de falha.
  • Usando Interface Web YARN.

Planejando o Cluster Hadoop.

  • Considerações gerais.
  • Seleção de Hardware.
  • Considerações de Rede.
  • Configuração de Nodes.
  • Planejando o gerenciamento do Cluster.

Instalação e configurações Hadoop.

  • Requisitos de instalação.
  • Pacotes de instalação.
  • Modo de Instalação (SingleCluster, DistribuidMode).
  • Configuração do ambiente de rede.
  • Clusterizando o Hadoop.
  • Configuração inicial de Performance do HDFS.
  • Configuração inicial de Performance do YARN.
  • Logs no Hadoop.

Instalação e Configurando o Ecossistema.

  • Instalando o Apache Hive.
  • Instalando Impala (Somente em Cloudera).
  • Instalando Apache Pig.
  • Instalando Apache HBase.
  • Instalando Apache Spark.

Aplicações Clientes Hadoop.

  • Introdução a aplicações Clientes Hadoop.
  • Introdução ao HUE.
  • Instalação e Configuração do Hue.
  • Instalando e Configurando HUE.
  • HUE autenticação e autorização

Segurança Hadoop.

  • Conceitos de Segurança no Hadoop.
  • Introdução ao Kerberos.
  • Segurança no Cluster Hadoop com Kerberos.

Gerenciando com Hadoop Ambari (Apache e Hortonworks).

  • Introdução ao Ambari.
  • Características do Ambari.
  • Gerenciando um Cluster Hadoop.
  • Monitorando um Cluster Hadoop.

Gerenciando com Cloudera Manager (Somente Cloudera).

  • Introdução ao Cloudera Manager.
  • Características do Cloudera Managament.
  • Gerenciando um Cluster Hadoop.
  • Monitorando um Cluster Hadoop.

Hadoop Cluster.

  • Parâmetros de Configuração.
  • Configurando as Portas do Hadoop.
  • Configurando o HDFS para alta disponibilidade.

Gerenciando e Agendando Jobs.

  • Gerenciando e Rodando Jobs.
  • Agendando Jobs Hadoop.
  • Impala Query Schedule.

Manutenção do Cluster.

  • HDFS Status.
  • Copiando dados entre Clusters.
  • Balanceamento de Clusters.
  • Tunning
  • Atualização do Cluster

Pré-requisitos de Conhecimento

  • Conhecimento básico Linux.
  • Conhecimento básico de redes (proxy, gateway,etc)

Requisitos dos Alunos

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware

  • Memória RAM: 12GB (Caso queira o treinamento em Hortonworks deve ter 16GB de RAM)
  • Espaço em Disco: 20GB.
  • Processador: i5 ou i7 a partir da segunda geração ou similar.
  • Sistemas Operacionais: GNU/Linux, Windows ou Mac OS.
  • Todos equipamentos devem ter algum software de virtualização Oracle Virtual Box.

Carga Horária

  • 32 Horas de Duração.
  • 100% Presencial

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache Hadoop e acessórios na sua última versão estável (no caso de Cloudera os alunos devem baixar o Cloudera QuickStart VMs).
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
  • Caneta, Pasta e Bloco de Anotações.

 

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

 

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Administrador Hadoop, e cursos sobre Administrador Hadoop. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Instrutor

Leia mais...

Treinamento Apache NiFi Dataflow

Sobre o Treinamento

Este treinamento é recomendado a técnicos que já conheçam os conceitos e o básicos do Hadoop e queiram ampliar seus conhecimento sobre Dataflow. A distribuição da Hortonworks será utilizada como base deste treinamento apesar do NiFi poder ser instalado em qualquer distribuição.O NiFi foi projetado para automatiza fluxo de dados entre sistemas de software, integração de dados de diversas origens com diversos tipos de destinos, usando bancos de dados, Hadoop (HDFS), Kafka, Apache Spark, entre outras fontes de dados. O Apache NiFi é um projeto de software da Apache Software Foundation e baseado no software "NiagaraFiles" desenvolvido pela NSA.

Calendário de turmas

Treinamento somente no formato in-company.

Objetivo

Ministrar os conceitos e técnicas de DataFlow com o Apache NiFi.

Público Alvo

O Treinamento Apache NiFi destina-se a profissionais analistas de BI, Desenvolvedores de ETL, Gestores de TI, desenvolvedores de sistemas, Cientistas de dados e Engenheiros de dados.

Conteúdo Programático:

Introdução ao Hadoop

  • Introdução ao Hadoop.
  • Histórico do projeto Apache Hadoop.
  • Características do Hadoop.
  • Conceitos fundamentais.
  • Componentes do núcleo do Hadoop.
  • Ecossistema Hadoop.
  • Exemplos de casos de uso.
  • Principais empresas que usam Hadoop no Mundo.
  • Principais empresas que usam Hadoop no Brasil.
  • Apache Software Foundation.
  • Sqoop X Pentaho Data Integration X NiFi X Talend.

Introdução ao Nifi.

  • Dados em repouso X dados em movimento.
  • Arquitetura do NiFi.

Configurando e executando um cluster NiFi.

  • Cluster Integration.
  • Load Balancing/Redundancy.
  • Orquestração em massa de NiFi.

Operações NiFi.

  • Database Aggregating, Splitting and Transforming.
  • Extração de dados, logs, etc.
  • Trabalhando com dados via FTP e SSH.
  • Trabalhando com dados de Bases de Dados (NoSQL e SQL).
  • Conexões com Webservices ( REST ou SOAP).
  • Integração com Splunk.

Monitoramento e Recovery.

  • Recuperando sem perda de dados.
  • Recuperação autônoma.

Otimizando o Apache NiFi.

  • Performance e Tunning.
  • Nifi Setup.

Desenvolvimento.

  • Ferramentas de desenvolvimento de aplicativos.
  • Ferramentas de ETL.
  • Componentes, eventos e padrões de processador.
  • Streaming de feeds de dados no HDFS.
  • Error Handling.
  • Controller Services.
  • Ingestão de dados de dispositivos IoT usando APIs baseadas na Web.
  • Desenvolvendo um processador Apache Nifi personalizado usando JSON.

Melhores Pŕaticas

  • Troubleshooting.
  • Teste e solução de problemas

Pré-requisitos de Conhecimento

  • Conhecimento básico Linux.
  • Conhecimento básico de redes (proxy, gateway,etc).

Requisitos dos Alunos

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware

  • Memória RAM: 16GB
  • Espaço em Disco: 20GB.
  • Processador: i5 ou i7 a partir da segunda geração ou similar.
  • Sistemas Operacionais: GNU/Linux, Windows ou Mac OS.
  • Todos equipamentos devem ter algum software de virtualização Oracle Virtual Box.

Carga Horária

  • 24 Horas de Duração.
  • 100% Presencial

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache NiFi e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
  • Caneta, Pasta e Bloco de Anotações.

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Apache NiFi, e cursos sobre Apache NiFi. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Instrutor

Leia mais...

Consultoria em Big Data e Data Science

Administrar os dados de sua empresa com metodologias, técnicas e ferramentas ideais pode colocar sua empresa em outro patamar. Em busca da produtividade dos serviços e produtos atuais, assim como inovação para criação de novos serviços e novos produtos. O Big Data é uma abordagem para armazenamento de um grande volume de dados de tipos variados, para que possam ser processados com alta velocidade mesmo com alto volume. O Data Science ou Ciência dos Dados é a ciência que busca encontrar insights relevantes e úteis para seus negócios. 

Leia mais...

Log in