Hoje irei falar para vocês sobre dois conceitos que são menos independentes do que parecem para alguns: Causalidade e predição. Confesso que é até estranho tratá-las como duas coisas separadas, isoladas, e espero convencê-los ao final dessa thread de que essa minha visão tem fundamento. Na década de 50, Jacob Yerushalmy realizou um estudo onde acompanhou 15 mil crianças da região da baía de São Francisco. Para surpresa de Yerushalmy, e contrariando o que já se mostrava forte na época (que fumar fazia mal a saúde), seus resultados indicavam que bebês de mães fumantes nascidos com baixo peso tinham mais…


Aprenda a utilizar os tipos de erros para validar a qualidade do seu modelo

Retirado de Datacrat.

O dia a dia de um cientista de dados, no que tange a análise de dados e classificação, pode ser resumido em aplicar técnicas de inferência em dados pré-processados de modo a construir um modelo capaz de fazer boas predições. Mas uma vez que você construiu o seu modelo, como saber se ele é satisfatório?

Um modo de avaliar seu modelo é com relação aos tipos de erro. Consideremos o cenário no qual você vive em uma cidade que vez ou outra chove. Se você chutou que choveria essa manhã, mas por alguma razão não chouveu, seu chute foi um…


Os melhores links da semana de 27 de Maio a 2 de Junho de 2019!

Olá p-essoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).


Os melhores links da semana de 20 a 26 de Maio de 2019!

Olá p-essoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).

Bolo bom, é bolo com recheio bom!

Não adianta dominar as melhores técnicas de análise de dados, ter toda uma metodologia inovadora do que fazer, juntar as melhores mentes para fazer aquela análise e.. não ter dados. É como um bolo bonito sem recheio, sem nada dentro. Ás vezes até tem dados, mas não como você quer ou na área que você está buscando.

Abre a sacola, que hoje tem dataset sendo distribuído por aqui!!! Independente se o que você procura são dados governamentais, para processamento de linguagem natural, dados de saúde ou…


Como o atual presidente do Brasil se compara em termos de número de decretos com seus predecessores?

O que são os decretos?

De acordo com a Presidência da República, [decretos são] Editados pelo Presidente da República, regulamentam as leis e dispõem sobre a organização da administração pública. A Wikipedia complementa dizendo:

No sistema jurídico brasileiro, os decretos são atos administrativos da competência dos chefes dos poderes executivos (presidente, governadores e prefeitos).

Um decreto é usualmente utilizado pelo chefe do poder executivo para fazer nomeações e regulamentações de leis (como para lhes dar cumprimento efetivo, por exemplo), entre outras coisas. Decreto é a forma de que…


Os melhores links da semana de 6 a 12 de Maio de 2019!

Olá p-essoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).

É learning que não acaba mais!

Deep learning, Reinforcement Learning, Weak Learning, Transfer Learning e não para por aí. Se o tema é aprendizado de máquina, as chances de alguma palavrinha somada com learning surgir no papo são altas! Hoje eu trago para vocês alguns links interessantes especificamente sobre Weak Learning e Transfer Learning.

O nome weak learning pode passar uma imagem errada, mas há estratégias que podem ser vantajosas partindo de classificadores que fazem uma predição “pobre” ou “fraca”. Já ouviu falar em boosting? Pois é! E para quem está se…


Os melhores links da semana de 29 de Abril a 5 de Maio de 2019!

Olá p-essoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).

Tá perdido? Segue o mapa do metrô!

O Swami Chandrasekaran criou um mapa, no estilo de um mapa de metrô, mostrando os pontos por onde um profissional de ciência de dados deve passar para chegar ao seu destino final, seja fundamentos de ciência de dados, aprendizado de máquina, visualização ou mineração de texto, dentre outras. Para quem não sabe por onde começar, ou acha que esbarrou em um limite e não sabe mais o que falta aprender, recomendo! Além disso, conferências são excelentes espaços de troca de conhecimento e networking. Em várias delas…


Os melhores links da semana de 22 a 28 de Abril de 2019!

Traduzido de xkcd.

Olá p-essoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).

Colírio para os olhos

Vários de nós curte uma tela preta com letras na cor verde limão, estilo matrix. Eu, por exemplo, uso RStudio com um tema mais dark e keybindings do vim. No entanto, ainda que eu me sinta à vontade com código ocupando toda minha tela e goste de controlar boa parte do que faço através de código (apresentações em LaTeX, relatórios em RMarkdown e assim por diante), muita gente é adepta do “drag and drop”, usando o mouse para quase tudo. …


Os melhores links da semana de 15 a 21 de Abril de 2019!

Retirado de Towards Data Science.

Olá p-essoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).

Chega junto galera!

O clustering ou análise de agrupamento de dados se refere ao conjunto de técnicas de mineração de dados com o propósito de agrupar automaticamente dados segundo alguma métrica de associação. É também enquadrado na categoria de algoritmos não supervisionados (Clique aqui caso não esteja familiarizado com esse termo). Um problema que comumente nos deparamos quando estamos tentando inferir agrupamentos em um conjunto de dados é o número de clusters que buscamos encontrar. Esse número rotineiramente é conhecido como k, talvez como referência ao k-means, um algoritmo…


Os melhores links da semana de 8 a 14 de Abril de 2019!

Os melhores links da semana! Entre eles, algo de muito valor! ;-)

Olá p-essoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).

Onde está o ouro?

Infelizmente não é possível te dar o ouro aqui, mas eu posso te indicar onde minerar. Em análises sobre essa série de melhores links da semana, que vem ocorrendo no meu blog há quase 4 meses, as fontes dos links variam bastante. No entanto, é inevitável que algumas fontes se repitam, pois temos sim produtores de conteúdo de altíssima qualidade na comunidade de Data Science (sendo o Data Hackers e o Towards Data Science dois grandes exemplos). …

Marcel Ribeiro Dantas

Early Stage Researcher at Institut Curie and PhD Student at Sorbonne Université. Data Scientist, Software Freedom Activist and Bioinformagician!

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store