Apache Mahout

Treinamento Apache Mahout

Sobre o Treinamento

O treinamento Apache Mahout passa uma visão conceitual e prática de como trabalhar com o Mahout para mineração de dados e aprendizado de maquina em grandes clusters de Big Data. Será apresentado como o Data Mining pode ajudar na melhoria dos negócios nas corporações apartir de diversos algoritmos disponíveis neste software de cógido aberto.

Objetivo

Ministrar as principais características do Apache Mahout junto a uma visão geral dos algoritmos, e sua aplicação na solução de problemas de Data Mining em ambientes de Big Data.

Público alvo do treinamento

Cientistas de Dados, Gestores de TI, Analistas de Business Intelligence, Engenheiros da Computação, Programadores, Analistas de Negócio

Turmas Somente inCompany

Conteúdo Programático

Conceitual Big Data e Mahout

Visão geral sobre Hadoop.
Características do Hadoop.
Sistema distribuído de arquivos.
Ecossistema Hadoop.
Quem usa o Hadoop.
Cases do uso Hadoop.
Uso de Hadware comum.
Distribuições do Hadoop (Cloudera X Hortonworks X Apache).
Apache Spark MLib X Apache Mahout.
Histórico do Apache Mahout.
Casos de uso de Mahout.
Empresas usando Mahout no Mundo.

Introdução a Mahout

Arquitetura do Mahout.
Características do Mahout.
Versões do Mahout.

Instalação o Apache Mahout

Instalando o Mahout.
Mahout no Cluster Hadoop.
Configurações do Apache Mahout.

Algoritmos no Mahout

Algoritmos Mahout.
Recomendações no Mahout (Recomender System)
Representando Dados de Recomendação.
Classificação com Mahout (Naive Bayes).
Clusterização com Mahout (K-Means).

Desenvolvendo com Apache Mahout.

Samsara Scala-DSL
Mahout com Scala.
Mahout MapReduce.
Mahout com Apache Spark.
Mahout com Apache Flink.
Mahout com Apache Zeppelin.

Integração com outras Ferramentas.

Mahout e Hive.
Mahout e HDFS.
Mahout e Apache Pig.

Tunning.

JVM Tunning.

Carga Horária:

24 Horas.

Pré-requisitos dos Participantes:

Conhecimento Básico em Programação Java ou alguma linguagem com Orientação Objeto.
Conhecimento de Banco de Dados e SQL.
Conhecimento Básico de Linux.
Todos os participantes devem trazer um notebook para realizar as atividades práticas.
O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

Memória RAM : 8 GB.
Espaço em Disco: 20GB.
Processador: Dual-core AMD 64, EM64T
Deve estar ativo a Virtualização na BIOS do equipamento.
Sistemas Operacionais:Qualquer um com suporte e Virtualização com VirtualBox e 64Bits.
Oracle VM VirtualBox ( https://www.virtualbox.org/ ).
Obs. Equipamentos com menos que 8GB de Memória RAM (Entre 5GB e 8GB) podem passar por lentidão nas atividades de uso de maquinas virtuais simultâneas no treinamento. Equipamentos com 4GB ou inferior não funcionarão para o treinamento.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

Todos os softwares Apache Mahout e Hadoop e acessórios na sua última versão estável.
Material próprio em Português do Brasil.
Apresentações ( slides do treinamento ) desenvolvidas pela equipe Ambiente Livre.
Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
Apostilas com exercícios práticos desenvolvidos no treinamento.
Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Caneta, Pasta e Bloco de Anotações.

Metodologia

Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

Inscrições, Informações e Valores

Instrutor

Marcio Junior Vieira

Marcio Junior Vieira

22 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Sonda, Serpro, Dataprev, Natura, MP, Netshoes, Embraer entre outras.
Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, Apache Hop, LimeSurvey, SuiteCRM e Camunda.
Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable e Camunda.
Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
Ganhou o prêmio Camunda Champion em 2022 em reconhecimento a suas contribuições com o projeto Open Source Camunda.
Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)

Ítens relacionados

Últimos posts de Marcio Junior Vieira

Log in

crie uma conta