Data Scientist vs Data Engineer, Qual a diferença?

Os cientistas de dados e engenheiros de dados podem ser cargos recentes, mas os principais cargos já existem há algum tempo. Tradicionalmente, qualquer um que analisasse dados seria chamado de “analista de dados” e qualquer um que criasse plataformas de back-end para suportar a análise de dados seria um “Desenvolvedor de Business Intelligence (BI)”.

Com o surgimento do big data, novos papéis começaram a surgir em corporações e centros de pesquisa sobre, Data Scientists e Data Engineers.

Veja uma visão geral das funções do analista de dados, do desenvolvedor de BI, do cientista de dados e do engenheiro de dados.

Data Analysts

Os Data Analysts são profissionais de dados experientes em sua organização, que podem consultar e processar dados, fornecer relatórios, resumir e visualizar dados. Eles têm um forte entendimento de como aproveitar ferramentas e métodos existentes para resolver um problema e ajudam pessoas de toda a empresa a entender consultas específicas com relatórios e gráficos ad-hoc.

No entanto, não se espera que eles lidem com a análise de big data, nem é esperado que eles tenham o conhecimento matemático ou de pesquisa para desenvolver novos algoritmos para problemas específicos.

Competências: Os Analistas de Dados precisam ter uma compreensão básica de algumas habilidades essenciais: estatísticas, leitura de dados, visualização de dados, análise exploratória de dados,

Ferramentas: Microsoft Excel, SPSS, Modelador SPSS, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS.

Desenvolvedores de Business intelligence

Desenvolvedores de Business intelligence são especialistas em dados que interagem mais de perto com as partes interessadas internas para entender as necessidades de relatórios e, em seguida, coletar requisitos, projetar e construir soluções de BI e relatórios para a empresa. Eles precisam projetar, desenvolver e dar suporte a data warehouses novos e existentes, pacotes ETL, cubos, painéis e relatórios analíticos.

Além disso, eles trabalham com bancos de dados, tanto relacionais quanto multidimensionais, e devem ter grandes habilidades de desenvolvimento de SQL para integrar dados de diferentes recursos. Eles usam todas essas habilidades para atender às necessidades de autoatendimento em toda a empresa. Os desenvolvedores de BI normalmente não são esperados para realizar análises de dados.

Competências: ETL, desenvolvimento de relatórios, OLAP, cubos, inteligência web, design de objetos de negócios,

Ferramentas: Tableau, ferramentas de painel, SQL, SSAS, SSIS e SPSS Modeler.

Data Engineers são os profissionais de dados que preparam a infra-estrutura de “big data” para serem analisados pelos cientistas de dados. Eles são engenheiros de software que projetam, constroem, integram dados de vários recursos e gerenciam big data. Em seguida, eles escrevem consultas complexas sobre isso, garantem que ele seja facilmente acessível, funcione sem problemas e seu objetivo é otimizar o desempenho do ecossistema de big data de sua empresa.

Eles também podem executar alguns ETL (Extrair, Transformar e Carregar) em cima de grandes conjuntos de dados e criar grandes armazéns de dados que podem ser usados para relatórios ou análises por cientistas de dados. Além disso, como os engenheiros de dados se concentram mais no design e na arquitetura, normalmente não se espera que eles saibam qualquer aprendizado ou análise de máquina para big data.

Habilidades: Hadoop, MapReduce, Hive, Pig, Data Streaming, NoSQL, SQL, programação.

Ferramentas: DashDB, MySQL, MongoDB, Cassandra

Data Scientist

Um cientista de dados é o alquimista do século 21: alguém que pode transformar dados brutos em insights purificados. Os cientistas de dados aplicam estatísticas, aprendizado de máquina e abordagens analíticas para resolver problemas críticos de negócios. Sua principal função é ajudar as organizações a transformar seus volumes de Big Data em insights valiosos e acionáveis.

De fato, a ciência de dados não é necessariamente um campo novo em si, mas pode ser considerado como um nível avançado de análise de dados que é dirigido e automatizado por aprendizado de máquina e ciência da computação. Em outra palavra, em comparação com os “analistas de dados”, além das habilidades analíticas de dados, espera-se que os cientistas de dados tenham fortes habilidades de programação, capacidade de projetar novos algoritmos, lidar com big data, com algum conhecimento de domínio.

Além disso, espera-se que os cientistas de dados interpretem e forneçam eloquentemente os resultados de suas descobertas, usando técnicas de visualização, criando aplicativos de ciência de dados ou narrando histórias interessantes sobre as soluções para seus problemas de dados (negócios).

As habilidades de resolução de problemas de um cientista de dados exigem um entendimento dos métodos de análise de dados tradicionais e novos para construir modelos estatísticos ou descobrir padrões nos dados. Por exemplo, criar um mecanismo de recomendação, prever o mercado de ações, diagnosticar pacientes com base em sua similaridade ou encontrar os padrões de transações fraudulentas.

Os cientistas de dados podem às vezes ser apresentados com big data sem um problema comercial específico em mente. Nesse caso, espera-se que o curioso Cientista de Dados explore os dados, faça as perguntas certas e forneça descobertas interessantes! Isso é complicado porque, para analisar os dados, um forte Cientista de Dados deve ter um amplo conhecimento de diferentes técnicas em aprendizado de máquina, mineração de dados, estatísticas e infraestruturas de big data.

Eles deveriam ter experimente trabalhar com diferentes conjuntos de dados de diferentes tamanhos e formas e seja capaz de executar seus algoritmos em dados de tamanho grande de forma eficaz e eficiente, o que normalmente significa manter-se atualizado com as mais recentes tecnologias de ponta. É por isso que é essencial conhecer os fundamentos e a programação da ciência da computação, incluindo a experiência com linguagens e tecnologias de banco de dados (grandes / pequenas).

Habilidades: Python, R, Scala, Apache Spark, Hadoop, aprendizado de máquina, aprendizado profundo e estatísticas.

Ferramentas: Data Science Experience, Jupyter e RStudio.

 

Fonte: cognitiveclass

Leave a Comment