Databricks

Treinamento Apache Spark com Databricks

O curso ou treinamento Apache Spark com Databricks foi desenvolvido para que os alunos possam após o treinamento ser capaz de construir aplicações de Big Data usando uma das tecnologias mais modernas para processamento massivo o Spark da DataBricks na AWS ou Azure, são abordados conhecimentos de arquitetura e ecossistemas fundamentais para a programação com a linguagem Scala e o Framework Apache Spark. Entender as principais conceitos e fluxo de trabalho de implementação, dominar tópicos avançados de manipulação de RDDs, saber escrever scripts Spark e interações com outros projetos do ecossistema DataBricks necessários para a análise de dados. Saber fazer uso de motores de processamento e desenvolver soluções que utilizam componentes em todo hub de dados da empresa. Ser capaz de construir aplicativos usando Apache Spark para processamento de stream combinando dados históricos com dados de streaming, através de análises interativas em tempo real.

Turmas Somente inCompany

Conteúdo Programático

Conceitual Big Data

  • Visão geral sobre Databricks.
  • Ecossistema Databricks.
  • Quem usa o Databricks.
  • Cases do uso Databricks.
  • Distribuições do Spark (Apache X Databricks).
  • Free Software(GLP) X Open Source(BSD e Apache).
  • Delta Lake.
  • Databricks na AWS.
  • Databricks na Azure (Azure Databricks).
  • Databricks Community.
  • change data capture (CDC).
  • Data engineering.
  • Scala X Python.

Cluster na Cloud.

  • Configurando o Ambiente na Azure.
  • Databricks Job scheduling.
  • Deploy Structured Streaming.

Introdução a Linguagem Scala

  • Apresentando o Scala.
  • Instalando Scala.
  • Journey - Java para Scala
  • First Dive -  Interactive Scala.
  • Escrevendo scripts Scala - Compilando Programas Scala.
  • Basico em Scala.
  • Tipos Básicos Scala.
  • Definindo Funções.
  • IDE para Scala.
  • Scala Community.

Linguagem Scala.

  • Imutabilidade em Scala - Semicolons.
  • Declaração método.
  • Literais.
  • Listas.
  • Tuplas.
  • Opções.
  • Maps.
  • Palavras reservadas.
  • Operadores.
  • Regras de precedência.
  • If Statements.
  • Scala Para Compreensão.
  • While Loops, Do-While Loops.
  • Operadores condicionais.
  • Pattern Matching.
  • Enumerações.
  • Traits Intro - Traits as Mixins.
  • Stackable Traits.
  • Criando Traits e OOPS - Classes and Objetos Básicos.
  • Construtores Scala.
  • Nested Classes.
  • Visibility Rules.

Programação Funcional em Scala.

  • O que é programação funcional?
  • Literais funcionais e Closures.
  • Recursão.
  • Tail Calls.
  • Estruturas de Dados Funcionais.
  • Parâmetros das Funções implícitas.
  • Chamada por nome.
  • Chamada por Valor.

Apache Spark DataBricks.

  • Invocando Spark Shell.
  • Criando o Contexto Spark.
  • Carregando um arquivo no Shell.
  • Realizando algumas operações básicas em arquivos em Spark Shell.
  • Construindo um Projeto com sbt.
  • Executando o Projecto Spark com sbt.
  • Caching Overview, Persistência Distribuído.
  • Spark  Streaming Overview.
  • Exemplo: Streaming Word Count.

RDD - Resilient Distributed Dataset

  • Transformações no RDD.
  • Ações em RDD.
  • Carregando dados em RDD.
  • Salvando dados através RDD.
  • Key-Value Pair RDD.
  • MapReduce e Operações RDD Pair.
  • Integração Scala e Hadoop.
  • Arquivos de seqüência.
  • Usando Partitioner e seu impacto na melhoria do desempenho.

SparkSQL e Dataframe.

  • Dataframe.
  • SparkSQL
  • DataSets.
  • SparkSQL API.

Armazenamento

  • Databricks File System - DBFS.
  • Databricks IO Cache
  • Trabalhando arquivos CSV com Spark.
  • Trabalhando arquivos JSON com Spark.
  • Trabalhando arquivos XML com Spark.
  • Introdução ao Apache Parquet.
  • Trabalhando com arquivos Parquet.

Apache Streaming e Delta

  • Spark Structured Streaming.
  • Spark Streaming Transformations.
  • Streaming Windows Transformations.
  • Create Dataframes.
  • Save DataFrames.
  • Tables and DataFrames.
  • Event Stream Processing (ESP).
  • Complex Event Processing (CEP).

Gerais

  • Visualizations.
  • SparkML.

Carga Horária:

  • 32 Horas.

Pré-requisitos dos Participantes:

  • Todos alunos devem ter uma conta no Azure.
  • Conhecimento alguma linguagem de programação .
  • Noções de Big Data.
  • Conhecimento de Banco de Dados e SQL.
  • Conhecimento Básico de Linux.
  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

  • Memória RAM : 8GB.
  • Espaço em Disco: 10GB.
  • Processador: Dual-core AMD 64, EM64T
  • deve estar ativo a Virtualização na BIOS do equipamento.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Material próprio em Português do Brasil.
  • Apresentações ( slides do treinamento ) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
  • Caneta, Pasta e Bloco de Anotações.

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

Inscrições, Informações e Valores


Diferenciais da Ambiente Livre.

A Ambiente Livre tem 17 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

3.535 profissionais capacitados em 325 turmas ministradas.

Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Instrutor

Marcio Junior Vieira

  • 20 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
  • CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
  • Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
  • Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
  • Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
  • Professor da Pós-Graduação em Big Data e Data Science da UniBrasil.
  • Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
  • Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
  • Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
  • Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
  • Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
  • Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
  • Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer entre outras.
  • Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
  • Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, LimeSurveySuiteCRM e Camunda.
  • Especialista em implantação e customização de ECM com Alfresco e BPM com ActivitiFlowable e Camunda.
  • Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
  • Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)

Log in