Livros Para Você, Aspirante a Cientista de Dados!

Big Data Brasil
Big Data Blog
Published in
8 min readJan 14, 2021
Photo by Susan Yin on Unsplash

por Alisson Hayasi da Costa, Estagiário em Ciência de Dados na Big Data

Introdução

A ciência de dados é, definitivamente, uma das áreas em maior ascensão do século XXI. Com o crescimento exponencial de dados e interesse de empresas em transformar dados em lucro, a demanda por cientistas de dados nunca foi tão grande!

Existem diversas opções disponíveis para iniciar os estudos na área de Dados, como, por exemplo, cursos online (MOOCs, Nanodegrees, etc.), cursos de graduação, pós-graduação e livros. Livros, em particular, são uma das principais portas de entrada para se iniciar os estudos em ciência de dados.

Porém, com uma quantidade tão grande de materiais disponíveis, quais as melhores referências para não apenas aprender sobre ciência de dados, mas também garantir um bom desenvolvimento técnico?

Neste artigo, vamos apresentar algumas sugestões de livros para você que deseja iniciar ou está iniciando uma carreira como cientista de dados!

Os livros sugeridos estão divididos em quatro temas:

  • Introdução. Livros que apresentam de forma intuitiva e clara o que é a ciência de dados, como é aplicada no dia-a-dia e seus impactos em empresas e sociedade.
  • Estatística. Livros introdutórios, com foco técnico e recomendados para quem busca aprender conceitos base da estatística.
  • Aprendizado de Máquina. Livros que apresentam o essencial dos algoritmos de machine learning e recomendados não apenas para aprender a intuição e aplicação de cada algoritmo, mas também como executar um projeto de ponta-a-ponta corretamente.
  • Ferramentas. Livros técnicos sobre as ferramentas mais utilizadas por cientistas de dados e indicados para quem deseja aprender ou então aprofundar seus conhecimentos nessas ferramentas.

Aviso! Embora existam versões traduzidas de alguns dos livros recomendados aqui, sugiro fortemente a versão original.

Introdução

Naked Statistics: Stripping the Dread from the Data

  • Autores. Charles Wheelan
Fonte: amazon.com

Um ótimo livro para quem busca entender como funciona o processo de extração de informações e produção de conhecimento através de dados. Em Naked Statistics, o leitor é apresentado ao imenso poder da estatística e como Netflix, Amazon, Facebook e demais empresas usam conceitos fundamentais de uma ciência considerada, por muitos, chata, para prover serviços utilizados diariamente por todas as pessoas do mundo.

Ao deixar de lado os detalhes técnicos e focar na intuição de cada conceito, Wheelan é capaz de explicar com clareza tópicos como inferência, correlação, causalidade, análise de regressão e de que forma cada um desses tópicos podem ser aplicados no mundo em que vivemos.

The Book of Why: The New Science of Cause and Effect

  • Autores. Judea Pearl e Dana Mackenzie
Fonte: amazon.com

“Correlação não é causalidade” é algo que muitas pessoas já se depararam e que Judea Pearl esclarece com primor em The Book of Why. Neste livro, o leitor é apresentado ao estudo da causa e efeito e como nós estamos cercados por relações causais diariamente sem notar.

A obra do vencedor do Prêmio Turing (considerado o Prêmio Nobel da Computação) expande o horizonte da mente humana mostrando como é possível identificar cientificamente a causa de certos fenômenos, a essência do pensamento humano e a chave para a inteligência artificial.

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

  • Autora. Cathy O’Neil
Fonte: amazon.com

Weapons of Math Destruction mostra o lado escuro da ciência de dados e como o uso descuidado de algoritmos de aprendizado de máquina e abordagens relacionadas podem causar danos irreversíveis a minorias e pessoas desfavorecidas. Ao longo do livro, Cathy O’Neil apresenta diversos casos onde a criação de modelos enviesados causou grandes impactos negativos a muitas pessoas.

Além disso, a autora também argumenta que, embora existam técnicas para auditar o enviesamento de dados e modelos, a área no geral ainda é imatura. Ao mesmo tempo, mesmo com as técnicas existentes, algoritmos “caixa-preta” tornam a detecção de problemas e viés quase impossíveis.

Este livro é muito importante para qualquer pessoa que trabalha com dados, pois alerta, com ímpeto, para a responsabilidade social que cada profissional da área tem, assim como é importante se preocupar com detecção de viés durante o desenvolvimento de modelos a fim de não causar danos à sociedade

Estatística

Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (2ed)

  • Autores. Peter C. Bruce, Andrew Bruce e Peter Gedeck
Fonte: amazon.com

Um dos livros de estatística hands-on mais vendidos na Amazon, Practical Statistics for Data Scientists é uma ótima referência para quem busca aprender os conceitos básicos (e fundamentais) da estatística por conta própria. O livro é escrito de forma clara e objetiva, apresentando de maneira direta tópicos utilizados diariamente por todo cientista de dados.

Os autores abordam diversos assuntos, desde variáveis, amostragem e distribuições, até técnicas de teste de hipótese e aprendizado de máquina estatístico. Todos os tópicos são acompanhados de códigos em Python e R, facilitando o entendimento e aplicação dos conceitos, principalmente para quem nunca teve um grande contato com estatística.

No entanto, por ser um livro introdutório e hands-on, a rígidez teórica é fraca e acaba deixando a desejar nos fundamentos de alguns conceitos. Logo, é recomendado complementar a parte teórica com outro livro da lista.

Estatística Básica (9ed)

  • Autores. Pedro Alberto Morettin e Wilton Oliveira Bussab
Fonte: amazon.com

Escrito por dois professores brasileiros e um clássico dos cursos de graduação, este livro é mais um ótimo material introdutório sobre Estatística. A obra é divida em três partes, onde a primeira é focada em análise de dados unidimensionais e bidimensionais, a segunda parte apresenta os conceitos básicos de probabilidades e variáveis aleatórias e, por fim, a terceira parte ensina os principais tópicos da inferência estatística.

Além disso, embora os capítulos possuam aplicações em R e Excel, o livro não é tão direto ou apresenta aplicações direcionadas a uma pessoa que procura se tornar cientista de dados, como é o caso de Practical Statistics for Data Scientists. Porém, a fundamentação teórica é muito bem elaborada, tornando-o uma ótima opção para se aprofundar nos conceitos de maior interesse.

Aprendizado de Máquina

Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems (2ed)

  • Autor. Aurélien Géron
Fonte: amazon.com

Este é o livro de Machine Learning mais vendido na Amazon e não é à toa. Aurélien Géron apresenta de forma clara e didática o lado prático do aprendizado de máquina, sem deixar o essencial da teoria para trás.

Os primeiros capítulos são focados no pipeline de ponta-a-ponta de um projeto de machine learning. Já os demais capítulos focam em ensinar diversos algoritmos tradicionais do Aprendizado de Máquina, como, por exemplo, Regressão Linear (e variantes), Regressão Logística, Modelos Baseados em Árvores, Métodos de Ensemble Learning (Stacking e Boosting) e, enfim, evolui para algoritmos de aprendizado profundo, tais como Convolutional Neural Networks e Generative Adversarial Networks.

O autor segue a filosofia de teoria mínima e prática máxima a fim de estimular o leitor a obter uma compreensão intuitiva dos conceitos e ferramentas para a construção de sistemas inteligentes.

The Hundred-Page Machine Learning Book

  • Autor. Andriy Burkov
Fonte: amazon.com

Mais um dentre os mais vendidos, The Hundred-Page Machine Learning Book é, com toda certeza, um livro fantástico por cumprir, com proeza, seu objetivo: Apresentar em aproximadamente 100 páginas os conceitos fundamentais (teoria e prática) de Machine Learning.

Embora não sejam abordados todos os algoritmos, é um livro teórico bem completo, direto e organizado de forma cujos assuntos vão se completando a medida que o leitor avança.

Para quem quer entender bem e sem enrolação a teoria e aplicação por trás dos principais algoritmos e conceitos do Aprendizado de Máquina, é uma ótima opção!

Python Machine Learning (3ed)

  • Autores. Sebastian Raschka e Vahid Mirjalili
Fonte: amazon.com

Assim como Hands-On Machine Learning with Scikit-Learn and TensorFlow, este é mais um ótimo livro “mão na massa” sobre Aprendizado de Máquina.

Contudo, diferente do anterior cujo conteúdo é quase que inteiramente focado no ensino de algoritmos, Python Machine Learning apresenta um pouquinho de tudo, incluindo boas práticas para construção de conjuntos de dados, modelos de aprendizado, deploy de modelos treinados, treinamento e paralelização de redes neurais e todo o conhecimento necessário para desenvolver um bom projeto de ponta-a-ponta.

No entanto, devido a generalização, a cobertura de muitos algoritmos é rasa e pouco compreensiva, principalmente se for o primeiro contato do leitor com as técnicas apresentadas. Logo, o charme do livro acaba ficando mais evidente nos capítulos voltados para o desenvolvimento de um bom projeto de machine learning, onde são explorados tópicos como a construção, teste, validação, serialização, persistência e gerenciamento de modelos.

Ferramentas

Python for Data Analysis: Data Wrangling with Pandas, Numpy, and Ipython (2ed)

  • Autor. Wes McKinney

Com toda certeza o melhor livro para aprender sobre manipulação e processamento de dados com Pandas. Afinal, o autor é ninguém menos que o criador do próprio Pandas!

O livro é bem didático, “mãos na massa” e inicia apresentando o básico do Python e da biblioteca NumPy. Já no restante do livro, o autor ensina praticamente todos os conceitos presentes na biblioteca Pandas, partindo de operações básicas (e muito frequentes) no dia-a-dia de um cientista de dados, como, por exemplo, filtragem, seleção de dados, junções e agrupamentos até operações mais complexas como pivoteamento de dados e uso eficiente de índices através da multi-indexação.

Este livro é essencial para toda pessoa que quiser aprender sobre o nosso amado Pandas!

Curso Intensivo de Python: Uma introdução prática e baseada em projetos à programação

  • Autor. Eric Matthes
Fonte: amazon.com

Se você tem pouca (ou nenhuma) experiência em programação, ou sabe programar em outra linguagem e quer aprender Python, este livro é uma das melhores opções!

Com mais de 500,000 cópias vendidas, Curso Intensivo de Python é um livro com uma didática orientada à exemplos, permitindo o leitor aprender os principais recursos da linguagem Python de forma simples e direta.

O livro é divido em duas grandes partes: Na primeira, é apresentada a linguagem Python, partindo desde variáveis até o básico da orientação à objetos. Já na segunda parte, são apresentados três projetos onde o leitor coloca o conhecimento em prática e aprende a trabalhar com diversas ferramentas, tais como PyGame, NumPy, Matplotlib, PyGal, Git, entre outras.

Menções Honrosas!

An Introduction to Statistical Learning with Applications in R

Um clássico da literatura do aprendizado de máquina, se você deseja mergulhar mais a fundo na teoria dos principais algoritmos e estratégias de machine learning, este livro é uma ótima opção! Inclusive, é possível acessá-lo de graça.

Clean Code: A Handbook of Agile Software Craftsmanship

Livro de cabeceira de muitos desenvolvedores, Clean Code dispensa comentários. Afinal, mesmo cientistas de dados não podem criar códigos confusos ou malfeitos. Logo, Clean Code é uma leitura obrigatória para toda pessoa que trabalha com programação.

--

--