6 livros sobre ciência de dados (não técnicos)

Letícia Pires
Leti Pires
Published in
6 min readMay 24, 2021

Repost: Blog da Sauter Digital

Quando eu estava entendendo melhor sobre a profissão de Cientista de Dados, eu comecei a pesquisar por livros que me mostrassem o que era e como se relacionava com as coisas, mas que não fossem livros técnicos. E essa listinha que trouxe aqui, são alguns que encontrei e que são muito recomendados. Alguns eu já li e outros estão na minha lista.

COMO MENTIR COM ESTATÍSTICA, DE DARRELL HUFF

O livro foi lançado em 1954 nos Estados Unidos e é um clássico quando o assunto é estatística. O autor apresenta várias situações em que números, gráficos e estatísticas são apresentadas de forma equivocada, mostrando como pode afetar uma pessoa desatenta. É a prova de que quem quiser manipular dados a seu favor, pode agir com facilidade. Apesar de ser escrito em 1954 com alguns fatos ocorridos nos Estados Unidos, mostra a semelhança com situações ainda do presente.

Quando eu vi esse livro eu pensei “quem vai ensinar alguém a mentir com estatística?”, e isso foi o que me motivou ainda mais a ler esse livro. Na verdade, o livro mostra um pouco mais como funcionam os estudos estatísticos e como NÃO sermos manipulados por eles.

O livro é bem didático, apresentando casos com situações profundas sobre métodos estatísticos utilizados e com situações não muito complexas. Em cada situação podemos entender melhor o método de análise, tendenciosidade, período histórico, condições para levantamento dos dados…

“Em uma lata com milho e ervilha, como descobrimos quantos milhos há na lata? A forma mais precisa seria contá-los. Muito trabalhoso? Podemos então contar uma parcela dos grãos de milhos e calcular a proporção para a lata inteira. Se essa porção, chamada de amostra, for grande o suficiente, será uma boa representação do total contido na lata. Se não for suficiente, será menos precisa e confiável, mas ainda assim permanecerá com o falso ar de “precisão científica”. Dessa forma, as conclusões, a partir dessas amostras tendenciosas e/ou reduzidas, representam grande parte do que lemos ou que acreditamos saber.

Dica extra: você pode conferir esses dois posts que fiz no meu Instagram (@leticiapyres) falando sobre o livro:

https://www.instagram.com/p/CHgYHgKl9hi/ | https://www.instagram.com/p/CKom2lKg-Dq/

TODO MUNDO MENTE, DE SETH STEPHENS-DAVIDOWITZ

O livro é resultado de uma pesquisa feita pelo próprio autor. Seth Stephens já trabalhou na Google e é cientista de dados e doutor em economia pela Harvard. O livro foi lançado na versão em português em 2018 e mostra que o ‘Google pode saber mais de você do que você mesmo”.

O autor prova, através do Big Data, que todo mundo mente, seja pra amigos, conhecidos e até mesmo família. Analisando os dados do Google Trends, ele mostra a controvérsia de pesquisas feitas por órgãos de competência, por exemplo. Além disso, ele aborda o tema, e as mentiras que contamos de maneira divertida.

A abordagem serve para mostrar que o Big Data vem para revolucionar a maneira como as pesquisas sobre opinião, bem como sobre comportamento, podem ser melhor tratadas com a enorme quantidade de dados que há hoje a disposição na rede.

Portanto você pode até dizer para todo mundo que não é racista, mas sem que ninguém saiba, você faz perguntas preconceituosas para o Google, ou seja o Google sabe quem você realmente é.

ESTATÍSTICA: O QUE É, PARA QUE SERVE, COMO FUNCIONA, DE CHARLES WHEELA

O economista Charles Wheelan apresenta a estatística de um jeito não muito técnico, trazendo exemplos reais com assuntos que interessam a todos. O livro ajuda a entender conceitos estatísticos importantes para a vida cotidiana como inferência, correlação e análise de dados, mas sem trazer muita matemática, gráficos e equações. Dessa forma, o autor torna a estatística acessível não só para os que estudam estatística, mas qualquer um que deseje compreender melhor os desafios do mundo em que vivemos.

Ele mostra que com os dados certos e ferramentas estatísticas adequadas, podemos responder algumas perguntas, como: quais substâncias ou comportamentos causam câncer, o que está provocando o aumento da incidência de autismo e como a Netflix sabe quais filmes você gosta.

O SINAL E O RUÍDO, DE NATE SILVER

O livro foi publicado em 2012 por Nate Silver, que ficou conhecido por ter criado um modelo preditivo que rendeu ótimo desempenho nas eleições dos EUA em 2008 e 2012.

No livro, o autor chama de ruído, quando precisamos tomar decisões ou fazer previsões de dados existentes, mas não sabemos o quão correto é. E o ruído pode atrapalhar o sinal, fazendo tomar decisões incorretas.

De modo geral, o autor mostra que muitas das previsões feitas hoje são falhas e nos mostra o que pode estar por trás desses erros.

Além disso, também examina casos que tiveram sucessos e fracassos pra determinar o que as melhores predições apresentam em comum, como avaliar o desempenho de um político em campanha, o estrago esperado de um furacão ou um avanço de uma epidemia perigosa.

Sendo assim, o autor Silver demonstra que a interpretação correta de dados numéricos é essencial para a segurança e o progresso de nossa sociedade.

DATA SCIENCE PARA NEGÓCIOS, DE FOSTER PROVOST & TOM FAWCETT

O livro aborda alguns assuntos de principais algoritmos como k-NN, árvores de decisão, regressão logística mas sem ser muito técnico. Um ponto interessante do livro é que o autor traz uma diversidade de explicações, utilizando recursos visuais pra explicar os algoritmos. Além disso, o autor traz essas explicações com aplicações práticas, o que torna mais tangível a teoria.

De modo geral, o livro apresenta os princípios fundamentais de Data Science, orientando através de um pensamento analítico a extrair conhecimento e valor de negocio a partir dos dados que obtemos.

STORYTELLING COM DADOS, DE COLE NUSSBAUMER KNAFLIC

O livro é muito indicado pra quem pensa em trabalhar ou quer melhorar e otimizar as apresentações e visualizações de dados. Além disso, a autora traz várias dicas e insights, mostrando exemplos reais de como como otimizar a visualização de gráficos e atribuir mais contexto as apresentações de resultados.

As principais ideias do livro são: entender o contexto (o quê, quem, onde, como e porque), escolher uma apresentação visual adequada ao público, eliminar saturação das imagens, focar atenção no que deseja, pensar qual a função da apresentação e a meta, contar uma história.

(EXTRA) MACHINE LEARNING: GUIA DE REFERÊNCIA RÁPIDA, DE MATT HARRISON

Como bônus, trouxe um livro mais técnico que me ajudou muito a desenvolver projetos de Machine Learning. Você pode conferir um projeto que fiz com base no livro, nesse link: Predição da necessidade de leitos de UTI no Hospital Sírio Libanês.

Curtiu? Então compartilha, comenta, curte e me segue nas redes sociais:

https://beacons.page/letipires

--

--

Letícia Pires
Leti Pires

Jr. Data Scientist at Sauter 💜 & Civil Engineer . Content creator in @letispires. Fond of Python, Machine Learning and AI.