hadoop - Ambiente Livre

Treinamento Apache Spark com Python para Desenvolvedores

Publicado em Apache Hadoop

Sobre o Treinamento - Curso

O curso ou treinamento Apache Spark com Python para desenvolvedores foi desenvolvido para que os alunos possam após o treinamento ser capaz de construir aplicações de Big Data usando uma das tecnologias mais modernas para processamento massivo o Spark, são abordados conhecimentos de arquitetura e ecossistemas fundamentais para a programação com a linguagem Python e o Framework de código aberto Apache Spark. Entender os principais conceitos e fluxo de trabalho de implementação, dominar tópicos avançados de manipulação de RDDs, saber escrever scripts Spark com acesso a HDFS, Hive, HBase e interações com outros projetos do ecossistema Hadoop necessários para a análise de dados. Saber fazer uso de motores de processamento e desenvolver soluções que utilizam componentes em todo hub de dados da empresa. Ser capaz de construir aplicativos usando Apache Spark para processamento de stream combinando dados históricos com dados de streaming, através de análises interativas em tempo real.

Turmas Somente inCompany

Conteúdo Programático

Conceitual Big Data e Spark

Visão geral sobre Hadoop.
Características do Hadoop.
Sistema distribuído de arquivos.
Ecossistema Hadoop.
Quem usa o Hadoop.
Cases do uso Hadoop.
Uso de Hadware comum.
Distribuições do Hadoop (Cloudera X Hortonworks X Apache).
Free Software(GLP) X Open Source(BSD e Apache)

Introdução a Linguagem Python

O que é Python?
Apresentando Python.
Instalando Python.
Escrevendo scripts Python
Basico em Python.
Tipos Básicos Python.
Definindo Funções.
IDE para Python.

Programando em Python e Jython

Declaração método.
Literais.
Listas.
Tuplas.
Opções.
Maps.
Palavras reservadas.
Operadores.
Regras de precedência.
If, While Loops, Do-While Loops.
Operadores condicionais.
Pattern Matching.
Enumerações.

Programação Funcional em Python

O que é programação funcional?
Literais funcionais e Closures.
Recursão.
Tail Calls.
Estruturas de Dados Funcionais.
Parâmetros das Funções implícitas.
Chamada por nome.
Chamada por Valor.

Instalação do Apache Spark

Instalando o Spark.
Modos do Spark.
Standalone Cluster.

Primeiros passos em Apache Spark

Invocando Spark Shell.
Criando o Contexto Spark.
Carregando um arquivo no Shell.
Realizando algumas operações básicas em arquivos em Spark Shell.
Construindo um Projeto com sbt.
Executando o Projecto Spark com sbt.
Caching Overview, Persistência Distribuído.
Spark Streaming Overview.
Exemplo: Streaming Word Count.

RDD - Resilient Distributed Dataset

Transformações no RDD.
Ações em RDD.
Carregando dados em RDD.
Salvando dados através RDD.
Key-Value Pair RDD.
MapReduce e Operações RDD Pair.
Integração Python e Hadoop.
Arquivos de seqüência.
Usando Partitioner e seu impacto na melhoria do desempenho.

Formatos de Armazenamento

Trabalhando arquivos CSV com Spark.
Trabalhando arquivos JSON com Spark.
Trabalhando arquivos XML com Spark.
Parsing XML com Spark RDD.
Introdução ao Apache Kudu.
Trabalhando com arquivos Kudu.
Introdução ao Apache ORC.
Trabalhando com arquivos ORC.
Introdução ao Apache Parquet.
Trabalhando com arquivos Parquet.

Apache Spark com SQL e Hadoop Hive

Arquitetura Analyze Hive.
Arquitetura Spark SQL.
Analyze Spark SQL.
Context em Spark SQL.
Integrando Hive e Spark SQL.

Apache Spark com HBase

Arquitetura HBase.
Integrando Hive com HBase.
Spark-HBase Connector.
HBase com Spark Dataframe.
Integrando HBase e Spark SQL.
Lendo tabelas HBase com Spark.
Gravando em tabelas HBase com Spark.

Apache Spark e Pentaho

Overview da Pentaho Business Intelligence e Analytics.
Pentaho Data Integration e AEL - Adaptative Execution Layer.
Orquestrando Apache Spark com Pentaho Data Integration.
Data Visualization.

Carga Horária:

32 Horas.

Pré-requisitos dos Participantes:

Conhecimento em Programação Java ou alguma linguagem com Orientação Objeto.
Noções de Big Data.
Conhecimento de Banco de Dados e SQL.
Conhecimento Básico de Linux.
Todos os participantes devem trazer um notebook para realizar as atividades práticas.
O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

Memória RAM : 8GB.
Espaço em Disco: 10GB.
Processador: Dual-core AMD 64, EM64T
deve estar ativo a Virtualização na BIOS do equipamento.
Sistemas Operacionais:Qualquer um com suporte e Virtualização com VirtualBox.
Oracle VM VirtualBox ( https://www.virtualbox.org/ ).
Obs. Equipamentos com menos que 8GB de Memória RAM ( Entre 5GB e 8GB) podem passar por lentidão nas atividades de uso de maquinas virtuais simultâneas no treinamento. Equipamentos com 4GB ou inferior não funcionarão para o treinamento.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

Todos os softwares Apache Spark e Python e acessórios na sua última versão estável.
Material próprio em Português do Brasil.
Apresentações ( slides do treinamento ) desenvolvidas pela equipe Ambiente Livre.
Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
Apostilas com exercícios práticos desenvolvidos no treinamento.
Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Caneta, Pasta e Bloco de Anotações.

Metodologia

Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

Contato

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 19 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

3.535 profissionais capacitados em 325 turmas ministradas.

Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Inscrições, Informações e Valores

Instrutor

Leia mais...

Treinamento Apache Spark com Scala para Desenvolvedores

Publicado em Apache Hadoop

Sobre o Treinamento - Curso

O curso ou treinamento Apache Spark para desenvolvedores foi desenvolvido para que os alunos possam após o treinamento ser capaz de construir aplicações de Big Data usando uma das tecnologias mais modernas para processamento massivo o Spark, são abordados conhecimentos de arquitetura e ecossistemas fundamentais para a programação com a linguagem Scala e o Framework de código aberto Apache Spark. Entender os principais conceitos e fluxo de trabalho de implementação, dominar tópicos avançados de manipulação de RDDs, saber escrever scripts Spark com acesso a HDFS, Hive, HBase e interações com outros projetos do ecossistema Hadoop necessários para a análise de dados. Saber fazer uso de motores de processamento e desenvolver soluções que utilizam componentes em todo hub de dados da empresa. Ser capaz de construir aplicativos usando Apache Spark para processamento de stream combinando dados históricos com dados de streaming, através de análises interativas em tempo real.

Turmas Somente inCompany

Conteúdo Programático

Conceitual Big Data e Spark

Visão geral sobre Hadoop.
Características do Hadoop.
Sistema distribuído de arquivos.
Ecossistema Hadoop.
Quem usa o Hadoop.
Cases do uso Hadoop.
Uso de Hadware comum.
Distribuições do Hadoop (Cloudera X Hortonworks X Apache).
Free Software(GLP) X Open Source(BSD e Apache)

Introdução a Linguagem Scala

O que é Scala?
Apresentando Scala.
Instalando Scala.
Journey - Java para Scala
First Dive - Interactive Scala.
Escrevendo scripts Scala - Compilando Programas Scala.
Basico em Scala.
Tipos Básicos Scala.
Definindo Funções.
IDE para Scala.
Scala Community.

Essencial em Scala

Imutabilidade em Scala - Semicolons.
Declaração método.
Literais.
Listas.
Tuplas.
Opções.
Maps.
Palavras reservadas.
Operadores.
Regras de precedência.
If Statements.
Scala Para Compreensão.
While Loops, Do-While Loops.
Operadores condicionais.
Pattern Matching.
Enumerações.

Traits e OOPs em Scala

Traits Intro - Traits as Mixins.
Stackable Traits.
Criando Traits e OOPS - Classes and Objetos Básicos.
Construtores Scala.
Nested Classes.
Visibility Rules.

Programação Funcional em Scala

O que é programação funcional?
Literais funcionais e Closures.
Recursão.
Tail Calls.
Estruturas de Dados Funcionais.
Parâmetros das Funções implícitas.
Chamada por nome.
Chamada por Valor.

Instalação do Apache Spark

Instalando o Spark.
Modos do Spark.
Standalone Cluster.

Primeiros passos em Apache Spark

Invocando Spark Shell.
Criando o Contexto Spark.
Carregando um arquivo no Shell.
Realizando algumas operações básicas em arquivos em Spark Shell.
Construindo um Projeto com sbt.
Executando o Projecto Spark com sbt.
Caching Overview, Persistência Distribuído.
Spark Streaming Overview.
Exemplo: Streaming Word Count.

RDD - Resilient Distributed Dataset

Transformações no RDD.
Ações em RDD.
Carregando dados em RDD.
Salvando dados através RDD.
Key-Value Pair RDD.
MapReduce e Operações RDD Pair.
Integração Scala e Hadoop.
Arquivos de seqüência.
Usando Partitioner e seu impacto na melhoria do desempenho.

Formatos de Armazenamento

Trabalhando arquivos CSV com Spark.
Trabalhando arquivos JSON com Spark.
Trabalhando arquivos XML com Spark.
Parsing XML com Spark RDD.
Introdução ao Apache Kudu.
Trabalhando com arquivos Kudu.
Introdução ao Apache ORC.
Trabalhando com arquivos ORC.
Introdução ao Apache Parquet.
Trabalhando com arquivos Parquet.

Apache Streaming

Spark Streaming Transformations.
Streaming Windows Transformations.
Create Dataframes.
Save DataFrames.
Tables and DataFrames.
Event Stream Processing (ESP).
Complex Event Processing (CEP).

Apache Spark com SQL e Hadoop Hive.

Arquitetura Analyze Hive.
Arquitetura Spark SQL.
Analyze Spark SQL.
Context em Spark SQL.
Integrando Hive e Spark SQL.

Apache Spark com HBase

Arquitetura HBase.
Integrando Hive com HBase.
Spark-HBase Connector.
HBase com Spark Dataframe.
Integrando HBase e Spark SQL.
Lendo tabelas HBase com Spark.
Gravando em tabelas HBase com Spark.

Apache Spark e Pentaho

Overview da Pentaho Business Intelligence e Analytics.
Pentaho Data Integration e AEL - Adaptative Execution Layer.
Orquestrando Apache Spark com Pentaho Data Integration.
Data Visualization.

Carga Horária:

32 Horas.

Pré-requisitos dos Participantes:

Conhecimento em Programação Java ou alguma linguagem com Orientação Objeto.
Noções de Big Data.
Conhecimento de Banco de Dados e SQL.
Conhecimento Básico de Linux.
Todos os participantes devem trazer um notebook para realizar as atividades práticas.
O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

Memória RAM : 8GB.
Espaço em Disco: 10GB.
Processador: Dual-core AMD 64, EM64T
deve estar ativo a Virtualização na BIOS do equipamento.
Sistemas Operacionais:Qualquer um com suporte e Virtualização com VirtualBox.
Oracle VM VirtualBox ( https://www.virtualbox.org/ ).
Obs. Equipamentos com menos que 8GB de Memória RAM ( Entre 5GB e 8GB) podem passar por lentidão nas atividades de uso de maquinas virtuais simultâneas no treinamento. Equipamentos com 4GB ou inferior não funcionarão para o treinamento.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

Todos os softwares Apache Spark e Scala e acessórios na sua última versão estável.
Material próprio em Português do Brasil.
Apresentações ( slides do treinamento ) desenvolvidas pela equipe Ambiente Livre.
Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
Apostilas com exercícios práticos desenvolvidos no treinamento.
Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Caneta, Pasta e Bloco de Anotações.

Metodologia

Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

Contato

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 19 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

3.535 profissionais capacitados em 325 turmas ministradas.

Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Inscrições, Informações e Valores

[No form id or name provided!]

Instrutor

Leia mais...

Treinamento Apache Hadoop - Big Data Open Source - Fundamental

Publicado em Apache Hadoop

Sobre o Treinamento

O treinamento fundamental em Apache Hadoop prepara profissionais para o mercado de trabalho com Hadoop. Seu conteúdo programático foi desenvolvido para que profissionais possam implementar soluções de Big Data em suas corporações. O mesmo abrange, conceitos , conhecimentos de uso dos softwares, interação programática e atividades práticas.

Calendário de turmas abertas

Curitiba

Data: 28 Abril de 2020 - 30 Abril de 2020 8:30 - 17:30
Local: Sede da Ambiente Livre
Contato

Time left to event

Conteúdo Programático

Conceitual Big Data

O que é Big Data?
Os 4 V's principais do Big Data.
O Profissional Cientista de Dados / Data Scientist.
Data Lake.
IoT - Internet das Coisa e Big Data.
Ferramentas de Big Data.
Software Livre X Open Source.
GPL X BSD/Apache.

Conceitual Apache Hadoop

Visão geral sobre Hadoop
Características do Hadoop
Sistema distribuído de arquivos.
Ecossistema Hadoop
Quem usa o Hadoop
Cases do uso Hadoop
Uso de Hadware comum.
Distribuições do Hadoop

Instalação do Apache Hadoop

Requisitos de Instalação
Adquirindo os pacotes de Instalação
Modo de Instalação ( SingleCluster, Distribuid Mode )
Configuração do Ambiente de Rede
Configurando Yarn.
Criando diretórios físicos para o Filesystem
Formatação do FileSystem
Inicializando Serviços
Iniciando o cluster com seus nós
Testando Processos ativos

HDFS

Conceitual HDFS.
HDFS - Hadoop FileSystem.
HDFS - MapReduce Data Flow.
HDFS - Arquitetura.
Comandos de manipulação do FileSystem.
Copiando arquivos para o FileSystem.
Listando arquivos no HDFS.
Criando e Removendo Diretórios.
Interface Web do HDFS.

MapReduce

Conceitual Map Reduce.
MapReduce X Hadoop.
MapReduce - Função Map.
MapReduce - Função Reduce.
Fluxo de Trabalho.
Executando um MapReduce.
MapReduce no cluster.
Configurando a IDE Eclipse para MapReduce.
Criando um novo MapReduce.

CDH - Cloudera Hadoop

Usando a Distribuição Cloudera.
Componentes do CDH.
Cloudera Hadoop X Apache Hadoop.
Interface de gerenciamento Web (HUE).

Introdução a outras ferramentas de trabalho

Hortonworks.
Apache Mahout.
Hbase - Banco de dados distribuído orientado a coluna.
Pig - Plataforma de alto nível para a criação de programas MapReduce.
Hive - uma infraestrutura de data warehouse sobre o Hadoop.
Apache Cassandra - Banco de dados distribuído altamente escalável.
Apache Sqoop.
Pentaho Data Integration e Hadoop.

Carga Horária:

24 Horas.

Pré-Requisitos:

Conhecimento básico em programação Java.
Noções de Big Data.
Conhecimento de banco de dados e SQL
Conhecimento básico de Linux

Próxima turma prevista, veja também acima no calendário outras cidades.

Data: 28 Abril de 2020 - 30 Abril de 2020 8:30 - 17:30
Local: Sede da Ambiente Livre
Contato

Time left to event

Inscrições, Informações e Valores

[No form id or name provided!]

Instrutor

Leia mais...

Treinamento Apache HBase - Fundamental

Publicado em Apache Hadoop

Sobre o Treinamento

Este treinamento é recomendado a técnicos que já conheçam os conceitos e o básicos do Hadoop e queiram ampliar seus conhecimento sobre o Hadoop Database ou HBase que é um banco de dados do ecossistema Hadoop distribuído e colunar. O treinamento pode ser ministrado nas versão open source da Apache ou nas comerciais Cloudera e Hortonworks.

Calendário de turmas abertas

Treinamento somente no formato in-company.

Objetivo

Ministrar os conceitos e técnicas de administração do banco de dados Hbase.

Público Alvo

O Treinamento Hbase destina-se a profissionais analistas de BI, DBAs, Gestores de TI, desenvolvedores de sistemas, Cientistas de dados e Engenheiros de dados.

Conteúdo Programático:

Introdução ao Hadoop

Introdução ao Hadoop.
Histórico do projeto Apache Hadoop.
Características do Hadoop.
Conceitos fundamentais.
Componentes do núcleo do Hadoop.
Ecossistema Hadoop.
Exemplos de casos de uso.
Principais empresas que usam Hadoop no Mundo.
Principais empresas que usam Hadoop no Brasil.
Apache Software Foundation.

Fundamentos do HBase

Introdução a NoSQL.
Introdução a Bancos de Dados Colunares.
Histórico do HBase.
Características do HBase.
HBase e RDBMS.
SQL X NoSQL.
Arquitetura do HBase.
HBase Shell.
HBase DDL e DML.
Table, RowKey, Family, Column e Timestamp.
Hbase Regions.
Data Storage.
Zookepper.
Criando e Manipulando um Banco de Dados HBase.
HBase Schema.
HBase Data Model.
HBase schemas.
Hbase timestamp.
HBase cell.
HBase Familias.
Armazenamento de dados eficiente e recuperação
Melhores práticas para desempenho
Comandos de manipulação

HBase Shell

Criando tabelas com HBase Shell.
Trabalhando com tabelas.
Trabalhando com dados da tabela.

HBase API.

Opções para acessar os dados do HBase.
Criando e deletando tabelas no HBase.
Get e Scan.
Inserindo e atualizando dados.
Excluindo dados.
Filtros scan.
Melhores práticas.
HBase e Java
Conectando ao HBase com Java
Java API.

HBase no cluster

O uso do HDFS.
Compactações e splits.
Mapreduce e Cluster HBase.
Instalação do HBase.
Configurar um cluster HBase.
Administrar um cluster HBase.
HBase daemons.

HBase Cluster

Family.
Schema.
Caching.
Times Series.
Sequencial.
Pre-Splitting Regions.

HBase Avançado

Replicação no HBase.
HBase backup.
Segurança no HBase.
Serviços HBase.
Corrigindo tabelas com Hbck.
Hive e Impala com Hbase.
Thrift.
Outras Bibliotecas de acesso.
HBase Rest Server.
Backup

Pré-requisitos de Conhecimento

Conhecimento básico banco de dados.
Conhecimento em SQL ANSI.

Requisitos dos Alunos

Todos os participantes devem trazer um notebook para realizar as atividades práticas.
O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware

Memória RAM: 8GB (Caso queira o treinamento em Hortonworks deve ter 16GB de RAM)
Espaço em Disco: 20GB.
Processador: i5 ou i7 a partir da segunda geração ou similar.
Sistemas Operacionais: GNU/Linux, Windows ou Mac OS.
Todos equipamentos devem ter algum software de virtualização Oracle Virtual Box.

Carga Horária

32 Horas de Duração.
100% Presencial

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

Todos os softwares Apache HBase e acessórios na sua última versão estável.
Material próprio em Português do Brasil.
Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
Apostilas com exercícios práticos desenvolvidos no treinamento.
Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Caneta, Pasta e Bloco de Anotações.

Metodologia

Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos HBase, e cursos sobre HBase. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 19 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

3.535 profissionais capacitados em 325 turmas ministradas.

Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Inscrições, Informações e Valores

[No form id or name provided!]

Instrutor

Leia mais...

Treinamento Administrador Apache Hadoop

Publicado em Apache Hadoop

Sobre o Treinamento

Este treinamento é recomendado a técnicos que já conheçam os conceitos e o básicos do Hadoop e queiram ampliar seus conhecimento sobre o Hadoop Database ou HBase que é um banco de dados do ecossistema Hadoop distribuído e colunar. O treinamento pode ser ministrado nas versão open source da Apache ou nas comerciais Cloudera e Hortonworks.

O treinamento Administrador Apache Hadoop prepara o aluno para ser capaz de customizar a utilização, ajustar performance, prestar suporte e resolver problemas relacionados aos produtos, dominando elementos de monitoramento de cluster, governança, segurança e solução de problemas. Compreender a abrangência de todas as medidas necessárias para operar e manter um Cluster Hadoop. Desde a instalação e configuração por meio do balanceamento de carga e tunning, e autorizar usuários a uso de cluster. Saber Dimensionar e implementar vários cluster Hadoop, saber acelerar seu funcionamento e quais ferramentas e técnicas melhoram o desempenho, de forma a ajustar a performance. Estar apto a prestar suporte e resolver problemas relacionados aos produtos, fazer backups e gestão de recuperação de desastres, configurar HDFS de alta disponibilidade, adicionar um novo serviço, além de implementar medidas de segurança e funcionalidade multi-usuário.

Calendário de turmas

Treinamento somente no formato in-company.

Objetivo

Ministrar os conceitos e técnicas de administração de um cluster Hadoop.

Público Alvo

O Treinamento Administrador Hadoop destina-se a profissionais Administradores de sistemas, Cientistas de dados e Engenheiros de dados.

Conteúdo Programático:

Introdução ao Hadoop

Introdução ao Hadoop.
Histórico do projeto Apache Hadoop.
Características do Hadoop.
Conceitos fundamentais.
Componentes do núcleo do Hadoop.
Ecossistema Hadoop.
Exemplos de casos de uso.
Principais empresas que usam Hadoop no Mundo.
Principais empresas que usam Hadoop no Brasil.
Apache Software Foundation.

HDFS – Hadoop File System.

Arquitetura do HDFS.
Características do HDFS.
Escrevendo e lendo arquivos.
Considerações ao NameNode.
Segurança no HDFS.
Usando Interface Web do NameNode.
Usando o Shell Hadoop.
Inserindo dados de fontes externas com flume.
Inserindo dados de banco de dados relacionais com Sqoop.
Interfaces REST.
Melhores praticas de Importação de dados.

YARN e MapReduce.

Conceitual sobre YARN e MapReduce.
Conceitos Básicos de MapReduce.
Cluster YARN.
Recuperação de falha.
Usando Interface Web YARN.

Planejando o Cluster Hadoop.

Considerações gerais.
Seleção de Hardware.
Considerações de Rede.
Configuração de Nodes.
Planejando o gerenciamento do Cluster.

Instalação e configurações Hadoop.

Requisitos de instalação.
Pacotes de instalação.
Modo de Instalação (SingleCluster, DistribuidMode).
Configuração do ambiente de rede.
Clusterizando o Hadoop.
Configuração inicial de Performance do HDFS.
Configuração inicial de Performance do YARN.
Logs no Hadoop.

Instalação e Configurando o Ecossistema.

Instalando o Apache Hive.
Instalando Impala (Somente em Cloudera).
Instalando Apache Pig.
Instalando Apache HBase.
Instalando Apache Spark.

Aplicações Clientes Hadoop.

Introdução a aplicações Clientes Hadoop.
Introdução ao HUE.
Instalação e Configuração do Hue.
Instalando e Configurando HUE.
HUE autenticação e autorização

Segurança Hadoop.

Conceitos de Segurança no Hadoop.
Introdução ao Kerberos.
Segurança no Cluster Hadoop com Kerberos.

Gerenciando com Hadoop Ambari (Apache e Hortonworks).

Introdução ao Ambari.
Características do Ambari.
Gerenciando um Cluster Hadoop.
Monitorando um Cluster Hadoop.

Gerenciando com Cloudera Manager (Somente Cloudera).

Introdução ao Cloudera Manager.
Características do Cloudera Managament.
Gerenciando um Cluster Hadoop.
Monitorando um Cluster Hadoop.

Hadoop Cluster.

Parâmetros de Configuração.
Configurando as Portas do Hadoop.
Configurando o HDFS para alta disponibilidade.

Gerenciando e Agendando Jobs.

Gerenciando e Rodando Jobs.
Agendando Jobs Hadoop.
Impala Query Schedule.

Manutenção do Cluster.

HDFS Status.
Copiando dados entre Clusters.
Balanceamento de Clusters.
Tunning
Atualização do Cluster

Pré-requisitos de Conhecimento

Conhecimento básico Linux.
Conhecimento básico de redes (proxy, gateway,etc)

Requisitos dos Alunos

Todos os participantes devem trazer um notebook para realizar as atividades práticas.
O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware

Memória RAM: 12GB (Caso queira o treinamento em Hortonworks deve ter 16GB de RAM)
Espaço em Disco: 20GB.
Processador: i5 ou i7 a partir da segunda geração ou similar.
Sistemas Operacionais: GNU/Linux, Windows ou Mac OS.
Todos equipamentos devem ter algum software de virtualização Oracle Virtual Box.

Carga Horária

32 Horas de Duração.
100% Presencial

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

Todos os softwares Apache Hadoop e acessórios na sua última versão estável (no caso de Cloudera os alunos devem baixar o Cloudera QuickStart VMs).
Material próprio em Português do Brasil.
Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
Apostilas com exercícios práticos desenvolvidos no treinamento.
Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Caneta, Pasta e Bloco de Anotações.

Metodologia

Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Administrador Hadoop, e cursos sobre Administrador Hadoop. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 19 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

3.535 profissionais capacitados em 325 turmas ministradas.

Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Inscrições, Informações e Valores

[No form id or name provided!]

Instrutor

Leia mais...

Treinamento Apache Nifi

Publicado em Apache Hadoop

Sobre o Treinamento

O treinamento Apache Nifi é recomendado a técnicos que já conheçam os conceitos e o básicos de Big Data e queiram ampliar seus conhecimento sobre DataFlow para gigantescos volumes de dados. A distribuição Hadoop da Apache será a utilizada como base deste treinamento, porém do NiFi poder ser instalado em qualquer distribuição (Cloudera, Hortonworks, Clouds, etc) com os mesmos conceitos aplicados.

O NiFi foi projetado para automatiza fluxo de dados entre sistemas de software, integração de dados de diversas origens com diversos tipos de destinos, usando bancos de dados tradicionais e de Big Data como Hadoop (HDFS), Hive, Cassandra e Streamings do Kafka, Apache Spark, entre outras fontes de dados. O Apache NiFi é um projeto de software da Apache Software Foundation e baseado no software "NiagaraFiles" desenvolvido pela NSA.

Calendário de turmas

Ao Vivo Online

Data: 06 de Maio de 2024 - 09 Maio de 2024 08:30 - 17:30
Local:Google Meet Online ao Vivo
Inscreva-se

Objetivo

Ministrar os conceitos e técnicas de DataFlow com o Apache Nifi.

Público Alvo

O Treinamento Apache Nifi destina-se a profissionais desenvolvedores de ETL, arquitetos de sistemas, desenvolvedores de sistemas, e engenheiros de dados e equipes de DevOps.

Dificuldade.

Intermediário.

Aplicabilidade.

Este treinamento foi desenvolvido usando o Apache NiFi 1.17 e foi modificado pela última vez em 18 de Novembro de 2022.

Conteúdo Programático:

Introdução ao Hadoop.

Introdução ao Hadoop.
Histórico do projeto Apache Hadoop.
Características do Hadoop.
Conceitos fundamentais.
Componentes do núcleo do Hadoop.
Ecossistema Hadoop.
Exemplos de casos de uso.
Principais empresas que usam Hadoop no Mundo.
Principais empresas que usam Hadoop no Brasil.

Introdução ao Apache Nifi.

O projeto Apache NiFi.
Histórico do projeto Apache NiFi.
Versões do Apache NiFi.
Licenciamento (Free Software X Open Source).
Apache Software Foundation.
Patrocinadores da Apache Software Foundation.
Dados em repouso X dados em movimento.
Arquitetura do Apache Nifi.
Ecossistema NiFi.
Terminologias.
Apache NiFi UI.
Sqoop X Pentaho Data Integration X Apache Nifi X Talend X Apache Hop.

Instalação e configuração do Apache Nifi.

Requisitos de instalação.
Instalando o NiFi no modo Standalone.
Portas e protocolos de comunicação.
Principais propriedades.

DataFlow no Apache NiFi.

Conceituando DataFlow.
DataFlow Manager (DFM).
Processors.
Tipos de Processor.
Propriedade do Processor.
Fila de Dados.
Relacionamentos.
Conexões.
Scheduling.
Error Handling.
Labels.
Conditional Processors.
O arquivo flow.xml.gz.

DataFlow Templates.

Dataflow Templates.
Importando DataFlow templates.
Exportando DataFlow templates.

Principais Processor do Apache NiFi.

Processor Group.
Processor GetFiles.
Processor PutFiles.
Processor ConvertRecord.
Processor PutSQL.
Processor QueryDatabaseTableRecord.
Processor LogAttribute.
Processor AttributesToCSV.
Processor AttributesToJSON.
Processor GetFTP.
Processor GetHDFS.

NiFi Data Provenance.

Conceitos do Data Provenance.
NiFi FlowFile.
Provenance Events.
Event Type.
File Lineage.
Provenance Repository.

Apache NiFi Controller Services.

Conceituando Controller Services.
Services.
Tipos de Controller Services.
Grupos de Controller Services.
Configurando Controller Services.
AvroRecordSetWriter.

NiFi Expression Language.

Estrutura do NiFi Expression.
Expression Language Editor.
NiFi Expression Language Functions.
Data Types.
Boolean Logic.
Manipulação de Textos.
Encode/Decode Functions.
Searching.
Operações matemáticas
Manipulação de numéricos.
Manipulação de datas.

NiFi RecordPath.

Conceito do NiFi RecordPath.
Schemas do NiFi RecordPath.
Node Access.
Filter Predicates.
Filter Functions.
Conversão de Tipos.
Manipulando textos.
Formatando datas.
Encode/Decode Functions.

DataFlows na prática.

Lendo e Convertendo formatos de Arquivos (CSV para JSON).
Database Aggregating, Splitting and Transforming.
Extração de dados, logs, etc.
Trabalhando com dados via FTP e SSH.
Trabalhando com dados de Bases de Dados (NoSQL e SQL).
Trabalhando com dados do DataLake Hadoop - HDFS.
Conexões com Webservices (REST ou SOAP).

Apache NiFi Registry.

Conceitual do Nifi Registry.
Instalando o Nifi Registry.
Integrando NiFi ao NiFi. Registry.
Flow Registry.
Versionamento do Flow.
Controle de Acesso no Nifi Registry.

Administração do NiFi.

Autenticações de Usuário.
Controle de Políticas de Acesso.
Criptografia.

NiFi Rest API.

NiFi Rest API.
Autenticação.
Principais endpoints.
Alterando Data Flows por API.
Casos de utilização.

Ferramentas e Projetos acessórios.

Nifi Toolkit.
Apache miniFi e IOT.
Reporting Tasks.

Apache Zookeeper.

Apache Zookeeper.
Recursos.
Arquitetura.
Data Model.
Caso de uso.
Projetos usando Zookeeper.

Configurando e executando um cluster NiFi.

Cluster Integration.
Load Balancing/Redundancy.
Orquestração em massa de NiFi.
Zookeeper embutido no Apache NiFi.
Visão geral do Apache NiFi com Docker e Kubernetes.
Visão geral de Deploy em ambiente gerenciados de Cloud.

Monitoramento e Recovery.

Recuperando sem perda de dados.
Recuperação autônoma.

Otimizando o Apache NiFi.

Performance e Tunning.
Nifi Setup.
Práticas de atualização do Nifi em produção.

Desenvolvimento.

Componentes, eventos e padrões de processador.
Desenvolvendo um processador Apache Nifi personalizado usando JSON.

Melhores Praticas

Troubleshooting.
Teste e solução de problemas.

Pré-requisitos de conhecimento

Conhecimento básico Linux.
Conhecimento básico de redes (proxy, gateway,etc).

Requisitos dos alunos

Todos os participantes devem trazer um notebook para realizar as atividades práticas.
O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware

Memória RAM: 8 GB.
Espaço em Disco: 20GB.
Processador: i5 ou i7 a partir da segunda geração ou similar.
Sistemas Operacionais: GNU/Linux, Windows ou Mac OS.
Todos equipamentos devem ter algum software de virtualização Oracle Virtual Box.

Carga Horária

32 Horas de duração.

Modalidades do Treinamento.

Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais brasileiras.
On Line Ao Vivo - Fazemos a transmissão online/ao vivo do treinamento.
In Company (Presencial ou Online) - Turmas fechadas para empresas a custo único para até 15 alunos.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

Todos os softwares Apache NiFi e acessórios na sua última versão estável.
Material próprio em Português do Brasil.
Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
Apostilas com exercícios práticos desenvolvidos no treinamento.
Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Caneta, Pasta e Bloco de Anotações.

Metodologia

Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Próxima Turma

Data: 06 de Maio de 2024 - 09 de Maio de 2024 08:30 - 17:30
Local: Google Meet Online ao Vivo
Inscreva-se

Inscrições, Informações e Valores

[No form id or name provided!]

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Apache NiFi, e cursos sobre Apache NiFi. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 19 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

3.535 profissionais capacitados em 325 turmas ministradas.

Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Instrutores

Marcio Junior Vieira

20 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
Professor da Pós-Graduação em Big Data e Data Science da UniBrasil.
Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer entre outras.
Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, LimeSurvey, SuiteCRM e Camunda.
Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable e Camunda.
Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)

Leia mais...

Treinamento Real-Time Analytics com Apache Spark Streaming e Python

Publicado em Big Data

O treinamento Real-Time Analytics com Apache Spark Streaming e Python foi desenvolvido para que os alunos possam após o treinamento ser capaz de construir aplicações de Big Data e Analytics em Real-Time, usando as tecnologias mais modernas para processamento massivo o Spark Streaming com apoio de bibliotecas Python como Pandas e Numpy, são abordados conhecimentos de arquitetura e ecossistemas fundamentais para a programação com a linguagem Python e o Framework de Open Source Apache Spark, usando os modulos Apache Spark Streaming e Spark Machine Leaning Lib. Entender os principais conceitos e fluxo de trabalho de implementação, dominar tópicos avançados de manipulação de RDDs e DataFrames, e saber escrever scripts Spark com acesso a HDFS e interações com outros projetos do ecossistema Hadoop necessários para a análise de dados. Saber fazer uso de motores de processamento e desenvolver soluções que utilizam componentes em todo hub de dados da empresa. Ser capaz de construir aplicativos usando Apache Spark para processamento de stream combinando dados históricos com dados de streaming, através de análises interativas em tempo real e finalizar apresentando as informações em componentes de visualização de dados.

Calendário de turmas.

Somente turma corporativas.

Conteúdo Programático

Conceitual Big Data e Streaming.

Streaming de Dados.
Stream X Batch.
Real-time Stream.
Visão geral sobre Hadoop.
Características do Hadoop.
Sistema distribuído de arquivos.
Ecossistema Hadoop.
Quem usa o Hadoop.
Cases do uso Hadoop.
Uso de Hadware comum.
Distribuições do Hadoop (Cloudera x Hortonworks x Apache).
Free Software(GLP) X Open Source(BSD, Apache, etc)
Apache Software Foundation.
Kafka x RabbitMQ x Spark Stream x Flink Stream.

Instalação do Ambiente Python e Spark.

Pré-requisitos.
Instalando o Python.
Instalando uma IDE Python.
Conhecendo o PyPI.
Instalando Pandas.
Instalando Numpy.
Instalando Pyarrow.
Instalando Py4J.
Instalando o Spark.
Modos do Spark.
Standalone Cluster.

Programação Funcional em Python e PySpark.

O que é programação funcional?
Literais funcionais e Closures.
Recursão.
Tail Calls.
Estruturas de Dados Funcionais.
Parâmetros das Funções implícitas.
Chamada por nome.
Chamada por Valor.
PySpark.
Python Package Management.
Virtualenv.
PEX.

Primeiros passos em Apache Spark

Invocando Spark Shell.
Criando o Contexto Spark.
Carregando um arquivo no Shell.
Realizando algumas operações básicas em arquivos em Spark Shell.
Construindo um Projeto com sbt.
Executando o Projecto Spark com sbt.
Caching Overview, Persistência Distribuído.

RDD - Resilient Distributed Dataset

Transformações no RDD.
Ações em RDD.
Carregando dados em RDD.
Salvando dados através RDD.
Key-Value Pair RDD.
MapReduce e Operações RDD Pair.
Integração Python e Hadoop.
Arquivos de seqüência.
Usando Partitioner e seu impacto na melhoria do desempenho.

Formatos de Armazenamento

Trabalhando arquivos CSV com Spark.
Trabalhando arquivos JSON com Spark.
Trabalhando arquivos XML com Spark.
Parsing XML com Spark RDD.
Introdução ao Apache Parquet.
Trabalhando com arquivos Parquet.

Apache Spark SQL e PySpark.

DataFrame API.
Spark SQL.
Arquitetura Spark SQL.
Analyze Spark SQL.
Context em Spark SQL.
UDF.
Spark Session.
Column API.
Data Types.
Row.
Function.
Window.
Grouping.

Apache Spark e Pandas.

Apache Arrow.
Convertendo dados para o Pandas.
Pandas UDF.
Pandas Function.
PyArrow.

Analise de Dados com Python.

NumPy.
Pandas.
Slicing com NumPy.
Reshaping Arrays.
Pandas e Dataframes.
Pandas - Multi Dimension.
Pandas - Group By.
Pandas - Rashape.
Map,Filter e Reduce.
Lambda.
NumPy - Join,Split.
Array Numpy.
SQL Join Tables Pandas.
Pandas, NumPy e PySpark.

Apache Spark Streaming

Spark Streaming.
Query Management.
Fluxo do Streaming de Dados.

Apache Spark MLlib

Machine Learning com Apache Spark.
Aprendizagem Supervisionada.
Aprendizagem Não Supervisionada.
Aprendizagem por Reforço.
MapReduce com PySpark.
DStreams.
Spark MLLib - Regressão Linear.
Spark MLLib - Classificação com Algoritmo Decision Tree.
Spark MLLib - Classificação com Algoritmo Random Forest.
Spark MLLib - Classificação com Algoritmo Naive Bayes.
Spark MLLib - Clusterização com Algoritmo K-Means.
Spark MLLib - Algoritmos de Recomendações.

Data Visualization Tools.

Técnicas de Data Visualization.
Matplotlib.
Seaborn.
ggPlot.

Carga Horária:

32 Horas.

Pré-requisitos dos Participantes:

Conhecimento em Programação e Python.
Conhecimento de Banco de Dados e SQL.
Conhecimento Básico de Linux.
Todos os participantes devem trazer um notebook para realizar as atividades práticas.
O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 15 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

Memória RAM : 8GB.
Espaço em Disco: 10GB.
Processador: Dual-core AMD 64, EM64T
deve estar ativo a Virtualização na BIOS do equipamento.
Sistemas Operacionais:Qualquer um com suporte e Virtualização com VirtualBox.
VirtualBox ( https://www.virtualbox.org/ ).
Obs. Equipamentos com menos que 8GB de Memória RAM (entre 5GB e 8GB) podem passar por lentidão nas atividades de uso de maquinas virtuais simultâneas no treinamento. Equipamentos com 4GB ou inferior não funcionarão para o treinamento.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

Todos os softwares Apache Spark e Python e acessórios na sua última versão estável.
Material próprio em Português do Brasil.
Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
Apostilas com exercícios práticos desenvolvidos no treinamento.
Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Caneta, Pasta e Bloco de Anotações (Quando presencial).

Metodologia

Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

Contato

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 19 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

3.535 profissionais capacitados em 325 turmas ministradas.

Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Inscrições, Informações e Valores

[No form id or name provided!]

Instrutor

Leia mais...

Treinamento Apache Spark com Databricks Plataform

Publicado em Big Data

O curso ou treinamento Apache Spark com Databricks foi desenvolvido para que os alunos possam após o treinamento ser capaz de construir aplicações de Big Data usando uma das tecnologias mais modernas para processamento massivo o Spark da DataBricks na AWS (Amazon Web Services), Microsoft Azure ou Google Cloud, são abordados conhecimentos de arquitetura e ecossistemas fundamentais para a programação com a linguagem Scala e o Framework Apache Spark. Entender as principais conceitos e fluxo de trabalho de implementação, dominar tópicos avançados de manipulação de RDDs, saber escrever scripts Spark e interações com outros projetos do ecossistema DataBricks necessários para a análise de dados. Saber fazer uso de motores de processamento e desenvolver soluções que utilizam componentes em todo hub de dados da empresa. Ser capaz de construir aplicativos usando Apache Spark para processamento de stream combinando dados históricos com dados de streaming, através de análises interativas em tempo real.

Turmas Somente inCompany

Conteúdo Programático

Conceitual Big Data e Databricks

Visão geral sobre Databricks.
Databricks Plataform.
Databricks Community X Databricks Premium.
Ecossistema Databricks.
Quem usa o Databricks.
Cases do uso Databricks.
Free Software(GLP) X Open Source(BSD e Apache).
Delta Lake.
Databricks na AWS.
Databricks na Azure (Azure Databricks).
Databricks Community.
change data capture (CDC).
Data engineering.
Scala X Python.

Cluster na Cloud.

Configurando o Ambiente na Azure.
Databricks Job scheduling.
Deploy Structured Streaming.

Notebooks.

Apache Zeppelin.
Interpreters.
Markdown.
Databricks Notebook.

Introdução a Linguagem Scala

Apresentando o Scala.
Instalando Scala.
Journey - Java para Scala
First Dive - Interactive Scala.
Escrevendo scripts Scala - Compilando Programas Scala.
Basico em Scala.
Tipos Básicos Scala.
Definindo Funções.
IDE para Scala.
Scala Community.

Linguagem Scala.

Imutabilidade em Scala - Semicolons.
Declaração método.
Literais.
Listas.
Tuplas.
Opções.
Maps.
Palavras reservadas.
Operadores.
Regras de precedência.
If Statements.
Scala Para Compreensão.
While Loops, Do-While Loops.
Operadores condicionais.
Pattern Matching.
Enumerações.
Traits Intro - Traits as Mixins.
Stackable Traits.
Criando Traits e OOPS - Classes and Objetos Básicos.
Construtores Scala.
Nested Classes.
Visibility Rules.

Programação Funcional em Scala.

O que é programação funcional?
Literais funcionais e Closures.
Recursão.
Tail Calls.
Estruturas de Dados Funcionais.
Parâmetros das Funções implícitas.
Chamada por nome.
Chamada por Valor.

Apache Spark no DataBricks.

Invocando Spark Shell.
Criando o Contexto Spark.
Carregando um arquivo no Shell.
Realizando algumas operações básicas em arquivos em Spark Shell.
Construindo um Projeto com sbt.
Executando o Projecto Spark com sbt.
Caching Overview, Persistência Distribuído.
Spark Streaming Overview.
Exemplo: Streaming Word Count.

RDD - Resilient Distributed Dataset no Databricks.

Transformações no RDD.
Ações em RDD.
Carregando dados em RDD.
Salvando dados através RDD.
Key-Value Pair RDD.
MapReduce e Operações RDD Pair.
Integração Scala e Hadoop.
Arquivos de seqüência.
Usando Partitioner e seu impacto na melhoria do desempenho.

SparkSQL e Dataframe no Databricks.

Dataframe.
SparkSQL
DataSets.
SparkSQL API.

Armazenamento

Databricks File System - DBFS.
Databricks IO Cache.
Amazon S3.
Trabalhando arquivos CSV com Spark.
Trabalhando arquivos JSON com Spark.
Trabalhando arquivos XML com Spark.
Introdução ao Apache Parquet.
Trabalhando com arquivos Parquet.

Apache Streaming e Delta

Spark Structured Streaming.
Spark Streaming Transformations.
Streaming Windows Transformations.
Create Dataframes.
Save DataFrames.
Tables and DataFrames.
Event Stream Processing (ESP).
Complex Event Processing (CEP).

Gerais

Visualizations.
SparkML.

Carga Horária:

32 Horas.

Pré-requisitos dos Participantes:

Todos alunos devem ter uma conta no Azure.
Conhecimento alguma linguagem de programação.
Noções de Big Data.
Conhecimento de Banco de Dados e SQL.
Conhecimento Básico de Linux.
Todos os participantes devem trazer um notebook para realizar as atividades práticas.
O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

Memória RAM : 8GB.
Espaço em Disco: 10GB.
Processador: Dual-core AMD 64, EM64T
deve estar ativo a Virtualização na BIOS do equipamento.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

Material próprio em Português do Brasil.
Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
Apostilas com exercícios práticos desenvolvidos no treinamento.
Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Caneta, Pasta e Bloco de Anotações.

Metodologia

Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

Inscrições, Informações e Valores

[No form id or name provided!]

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 19 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

3.535 profissionais capacitados em 325 turmas ministradas.

Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Instrutor

Leia mais...

Hadoop Fundamental

Sobre o Treinamento - Curso

Turmas Somente inCompany

Conteúdo Programático

Conceitual Big Data e Spark

Introdução a Linguagem Python

Programando em Python e Jython

Programação Funcional em Python

Instalação do Apache Spark

Primeiros passos em Apache Spark

RDD - Resilient Distributed Dataset

Formatos de Armazenamento

Apache Spark com SQL e Hadoop Hive

Apache Spark com HBase

Apache Spark e Pentaho

Carga Horária:

Pré-requisitos dos Participantes:

Requisitos mínimos de hardware:

Material

Metodologia

Diferenciais da Ambiente Livre.

Inscrições, Informações e Valores

Instrutor

Sobre o Treinamento - Curso

Turmas Somente inCompany

Conteúdo Programático

Conceitual Big Data e Spark

Introdução a Linguagem Scala

Essencial em Scala

Traits e OOPs em Scala

Programação Funcional em Scala

Instalação do Apache Spark

Primeiros passos em Apache Spark

RDD - Resilient Distributed Dataset

Formatos de Armazenamento

Apache Streaming

Apache Spark com SQL e Hadoop Hive.

Apache Spark com HBase

Apache Spark e Pentaho

Carga Horária:

Pré-requisitos dos Participantes:

Requisitos mínimos de hardware:

Material

Metodologia

Diferenciais da Ambiente Livre.

Inscrições, Informações e Valores

Instrutor

Sobre o Treinamento

Calendário de turmas abertas

Conteúdo Programático

Conceitual Big Data

Conceitual Apache Hadoop

Instalação do Apache Hadoop

HDFS

MapReduce

CDH - Cloudera Hadoop

Introdução a outras ferramentas de trabalho

Carga Horária:

Pré-Requisitos:

Inscrições, Informações e Valores

Instrutor

Sobre o Treinamento

Calendário de turmas abertas

Objetivo

Público Alvo

Conteúdo Programático:

Introdução ao Hadoop

Fundamentos do HBase

HBase Shell

HBase API.

HBase no cluster

HBase Cluster

HBase Avançado

Pré-requisitos de Conhecimento

Requisitos dos Alunos

Requisitos mínimos de hardware

Carga Horária

Material

Metodologia

Diferenciais da Ambiente Livre.