Sobre o curso

 

Neste curso em formato de workshop, 99,99% prático, o aluno irá praticar o desenvolvimento do zero de uma arquitetura de Data Lake na AWS usando a ferramenta de engenharia de dados Pentaho Data Integration para a ingestão e refinamento dos dados no Data Lake e através dos serviços da AWS como o AWS Glue e o AWS Athena, irá criar a camada de sustentação para o BI, a camada de Data Warehouse baseada em AWS S3 para que se possa utilizar ferramentas como Qlik Sense, Power BI e Tableau, entregar as informações aos usuários de negócios num ambiente mais robusto e escalável.

 


 

Objetivos da Aprendizagem

  • Capacitar os alunos a trabalharem com uma pilha tecnológica atual
  • Criar um ambiente de Data Lake para apoiar entregas de BI e Ciência de Dados 
  • Utilizar as principais ferramentas da AWS para Analytics
  • Estruturar um Data Warehouse usando modelagem dimensional dentro de um Data Lake
  • Desenvolver melhores práticas de uso para ter um consumo mais econômica na nuvem
  • Conectar as principais ferramentas de BI nessa moderna arquitetura de dados

 

Ferramentas utilizadas neste curso

  • Pentaho Data Integration
  • AWS IAM
  • AWS S3
  • AWS RDS
  • AWS Glue
  • AWS Athena
  • Tableau Desktop
  • Qlik Sense Desktop
  • Power BI Desktop

 

Requisitos

 

Prerequisitos

  • Criar uma conta nova na AWS para poder usufruir dos serviços necessários ao curso na modalidade gratuita

 

Público Alvo

  • Profissionais envolvidos em projetos de Data Lake, Data Warehouse e Business Intelligence

 

Casos de sucesso

Abaixo, alguns casos de sucesso no uso dessa arquitetura

  • A OLX reduziu custos e tempo de acesso ao mercado por meio da implantação do Athena em toda a organização. 
    Assista ao video >>>
  • A Atlassian criou um data lake de autoatendimento usando o Amazon Athena e outros serviços do AWS Analytics. 
    Assista ao video >>>
  • Como FINRA opera análises em escala de PB em data lakes com o Amazon Athena (AWS re:Invent 2020).
    Assista ao video >>>

 

Benefícios do Curso

  • O Aluno terá o entendimento completo para atuar como Engenheiro de Dados e construir via Pentaho Data Integration, do zero um pipeline de dados para uma moderna arquitetura de dados para Business Intelligence, onde esta estará apoiada por um Data Warehouse, usando modelagem dimensional a partir do Data Lake em object store e tudo isso usando o principal provedor de nuvem da atualidade, a Amazon Web Service.
  • Todos os alunos serão automaticamente inseridos na comunidade PentahOpenin no WhatsApp. O acesso a esta comunidade de nível superior garantirá o apoio do próprio instrutor do curso em relação há possíveis dúvidas pós curso, como também poderá contar com o apoio de outros alunos em questões de aplicações do aprendizado em outras situações. Esse acesso é garantido durante a vigência do suporte ao conteúdo do curso.
  • Além da comunidade PentahOpenin, teremos 1 vez ao mês encontros virtuais para discutirmos soluções decorrentes do aprendizado, como também um espaço para os alunos apresentarem seus trabalhos no intuito de terem feedback.

 

Conteúdo Programático

  • Criação da conta na AWS
  • Os softwares e serviços que iremos utilizar
  • Provisionamento do servidor Windows
  • Download e instalação dos softwares a serem utilizados
  • Utilização do AWS IAM para o gerenciamento de identidade e acesso para o Data Lake e para o BI
  • Criação e configuração do bucket em AWS S3
  • Provisionamento do banco de dados em AWS RDS para servir como um OLTP
  • Configuração do serviço de catálogo de dados para as tabelas do Data Warehouse do AWS Glue
  • Configuração do serviço de query interativa do AWS Athena
  • Configuração do ambiente de desenvolvimento do Pentaho Data Integration
    • Repositório de metadados
    • Variáveis de ambiente
    • Virtual File System (VFS)
    • Cluster Hadoop
    • Conexões com o banco postgreSQL em AWS RDS e o AWS Athena
  • Conhecendo as melhores práticas para uso económico do ambiente de analytics da AWS
    • Modelagem dimensional
    • Sumarizações dos dados
    • Formatação Parquet
    • Particionamento
    • Espurgo de dados 
  • Desenvolvimento de processos ELT/ETL de ingestão e refinamento das área de Raw Zone, Trusted Zone e Analytic Zone do Data lake
  • Orquestração de todos os processos desenvolvidos
  • Configurando e conectando o Qlik Sense via AWS Athena ao Data Warehouse dentro do Data Lake
  • Configurando e conectando o Tableau via AWS Athena ao Data Warehouse dentro do Data Lake
  • Configurando e conectando o Power BI via AWS Athena ao Data Warehouse dentro do Data Lake
  • Configurando e conectando o Pentaho Dashboard via AWS Athena ao Data Warehouse dentro do Data Lake
 
Carga horária
  • 16 horas

 

 

Copyright © 2021 Openin. Todos os direitos reservados.