Big Data – Fundamentos e Práticas

Objetivo: Curso destinado a profissionais que desejam ingressar na área de Big Data para ingestão de Dados Estruturados. Serão abordados temas básicos como conhecimento do ecossistema, funcionamento do cluster e métodos de ingestão de Dados. Focado em Engenharia de Dados.

Consulte nosso calendário de Treinamentos

Carga Horária: 16 horas

Público-Alvo: Iniciantes na área de Big Data com conhecimento básico em SQL e Banco de Dados.  

Conteúdo programático:
Dia 1 (8 horas)
O que é Big Data ?
– Introdução
– 4 Vs do Big Data
– Utilização
– Cases de Sucesso
– BI x Big Data – Qual o futuro?
– Data Engineer x Data Scientist
– Ecossistema e Arquitetura Hadoop
O que é Hadoop?
– Principais Características
– Arquitetura e Distribuições
– Arquitetura HDFS
– Arquitetura MapReduce
– Infraestrutura  e Componentes
– Apresentação do Flume
– Apresentação do Sqoop
– Apresentação do Zookeeper
– Apresentação do Oozie
– Apresentação do Pig
– Apresentação do Hbase
– VM Cloudera
– Logs
– HDFS
– Principais Comandos
Exercício 1 – Conhecendo o HDFS
Apache Hive
– Apresentação
– Detalhamento da Sintaxe HQL
– Tabelas
– Tabelas Externas
– Tabelas Gerenciadas
– Índices
– Partições
Exercício 2 – Ingestão de Dados com Sqoop
Exercício 3 – Ingestão de Dados Simpsons com Beeline
Exercício 4 – Ingestão de Dados com o HUE
Apache Impala
– Apresentação
– Conceito MPP
– Arquitetura
– Particionamento
– Impala x Hive
Exercício 5 – Ingestão de Dados via Shell Impala
Exercício 6 – Leitura de Dados com Impala Web
Dia 2 (8 horas)
Analise de Dados X Carga de Dados
– Data Engineer – Responsabilidades
– Data Scientist – Responsabilidades
O que é o Spark
– Apresentação
– O que é RDD
– Dataframe e DataSource
Linguagem Scala
– Apresentação
– Conceitos Básicos
– Loop e Condicional
– Foreach
– Tipos de Dados
– Parametrização de Arrays
– Listas
– Tuplas
– Sets
– Maps
– Manipulação de Arquivos
Exercicio 1 – Explorando o Hive com Scala
Exercicio 2 – Data Source com Scala
Exercicio 3 – Data Frame com Scala
O que é python
– Apresentação
– Conceitos Básicos
– Variáveis e Tipos de Dados
– Condicionais
– Repetições
– Listas
– Funções Lambdas
Exercicio 4 – Ingestão de Arquivo CSV com Python
Exercicio 5 – Ingestão de Arquivo JSON com Python
Anaconda
– O que é a distribuição Anaconda
– Quem utiliza
– Jupyter Notebook
– Apresentação do Ambiente
Exercicio 6 – Instalando o Anaconda
Exercicio 7 – Conhecendo o Jupyter Notebook
Exercicio 8 – Uber – Data Scientist
Linguagem R
– Apresentação
– Conceitos Básicos
– R Studio
Exercicio 9 – Conhecendo o R
Exercicio 10 – Gráficos e Analise em R

Instrutora: Juliana Maria Lopes
– Big Data – Senior Data Engineer / Business Intelligence
– Conhecimentos em Big Data: Análise de Dados – Python; HDFS; Apache Hadoop; Apache Spark; Hive / Banco de Dados NoSql – MongoDB; Hbase; Cassandra; Amazon DynamoDB / Ecossistemas FastData – Microsoft Azure; AWS; Google Cloud; Cloudera.
– Atualmente compõe o time de gestão de dados no ambiente Big Data da Telefônica Brasil
– 10 anos de experiência em diversas plataformas de Business Intelligence.
– Formação em MBA em Gestão de TI pela FIAP
– Graduação em Desenvolvimento de Software pela FIAP e Ciência da Computação pela Universidade Anhembi Morumbi