Como a física está relacionada com Ciência de Dados?

O objetivo deste post é revisitar uma pergunta que fiz no Quora há 2 anos e guiou minha transição entre a física e a ciência de dados e que pode ajudar muitas pessoas que encontram-se em situação similar.

Para minha surpresa, pessoas incríveis iluminaram meu caminho, entre elas Joe Blitzstein, um matemático que teve na sua formação Caltech (instituição onde habitou meu grande herói, Richard Feynman) e Stanford (alma mater dos fundados do Google), e hoje é professor no departamento de estatística de Harvard. Além do Joe, responderam dois físicos, Shankar Iyer, Data Scientist do Quora e também ex-aluno do Caltech, onde fez doutorado em Física da Matéria Condensada e, o pioneiro Charles H. Martin, consultor em Data Science há mais de 15 anos, tendo atuado em várias startups do Vale do Silício, entre elas GoDaddy, Aardvark (Google), eBay, e Blackrock e que possui um doutorado em físico-química na University of Chicago.

Gostaria de destacar que Joe, Shankar e Charles possuem uma formação com um forte viés para matemática e física e é exatamente essa característica que faz deles Cientistas de Dados melhores do que qualquer outro com formação em Ciência da Computação, como o senso comum poderia implicar.

Recentemente a Wired, um importante revista de tecnologia com sede em São Franscisco, publicou um excelente material sobre esse paradigma com o título “Move Over, Coders — Physicists Will Soon Rule Silicon Valley” ou, em tradução livre, “Abram espaço, Programadores — Físicos em breve dominarão o Vale do Silício”.

Por que essa formação faz diferença?

tdlr: Mecânica Estatística é pedra fundamental do Deep Learning.

No curso acima, o professor Hinton mostra como o Modelo de Ising (pra quem não conhece eu escrevi algo sobre o assunto aqui e implementei o modelo usando C-CUDA, uma extensão da linguem C que explora o processamento em paralelo de placas de vídeo NVIDIA), na forma de Redes de Hopfield, um tipo de Rede Neural foi fundamental para ele resolver problemas centrais de inferência. O que ele fez foi definir uma função logística com um parâmetro de temperatura (que nada mais é do que a Função de Fermi da Mecânica Estatística) e aplicou a Teoria de Campo Médio (muito usada em Mecânica Estatística) para obter as regras de aprendizado do modelo. Como o Charles menciona na resposta dele, a Mecânica Estatística também está presente nos algoritmos de propagação em grafos, que nada mais é do que a famosa aproximação de Bethe. Na resposta do Joe, ele destaca que as chamadas Famílias Exponenciais são extremamente importantes para modelagem de dados, e que o modelo de Ising também pode ser visto como uma família (por exemplo neste artigo).

Por fim, mas não menos importante, a resposta do Shankar tem um viés bastante pessoal, relacionada à transição dele entre esses dois mundos. Ele começa falando sobre o grande número de aplicações da Física Estatística nos chamados Sistemas Complexos, que exibem comportamentos emergentes decorrentes de interações não-lineares entre suas partes (área que rendeu a maior premiação de matemática do mundo, a Medalha Fields para o brasileiro Artur Ávila e área onde eu estou no top 10 de respostas no Quora). Em particular, a citação de Mark Newman, uma das maiores referências do mundo em Sistemas Complexos, resume essa relação:

Although they are not always thought of in that way, many physical systems, and particularly those studied in condensed matter and statistical physics, are true examples of complex systems. Physical systems that fall within the realm of complex systems science include classical condensed matter systems such as crystals, magnets, glasses, and superconductors; hydrodynamical systems including classical (Newtonian) fluids, nonlinear fluids, and granular flows; spatiotemporal pattern formation in systems like chemical oscillators and excitable media; molecular self-assembly, including tiling models, biomolecules, and nanotechnological examples; biophysical problems such as protein folding and the physical properties of macromolecules; and physical systems that perform computation, including analog and quantum computers… Many of the physicists who have made careers working on complex systems got their start in condensed matter physics, and an understanding of that field will certainly help the reader in understanding the ideas and language of complex systems theory.

Shankar cita, a partir de sua experiência, como isso está relacionado com ciência de dados, falando que sua experiência com matéria condensada no doutorado era uma expressão do interesse por Sistemas Complexos, assim como seu interesse por entender como as pessoas usam produtos da internet, como o que ele faz no Quora. Para ele Data Science é um estudo do Sistemas Complexos que são do interesse da indústria.

Em particular, foi esse relato do Shankar, em conjuto com a conexão na parte matemática citada por Joe e Charles que fizera com que meu interesse pelo tema se aprofunda-se. O resultado foi levar meu doutorado na direção aplicada dos Sistemas Complexos, finalizei um estudo sobre a relação do Teorema Kam com a Mecânica Estatística no contexto de sistemas gravitacionais e passei a estudar a Câmara de Deputados brasileira, através da análise dos dados disponibilizados, para tentar entender como é a dinâmica das votações realizadas (você pode acompanhar esse projeto no GitHub).

Meu objetivo final nessa nova fase é construir um modelo, similar ao Modelo de Ising, para os deputados, introduzindo elementos como ‘Temperatura’ em analogia à pressões sociais obtidas através de redes sociais.

Além disso, recentemente, passei a atuar como Cientista de Dados em um grande banco brasileiro, afim de fazer esse conhecimento percolar por toda a instituição que tem como objetivo melhorar todos seus processos relacionados ao uso da sua imensa base de dados. Antes disso, contruí uma função de roteamento dinâmico, que levava em consideração funções de probabilidade que aprendiam com os dados, para um serviço similar ao Uber Pool e um algoritmo de investimento para bitcoins com uma estratégia de investimentos baseada em regressão bayesiana que permace em sigilo.

Por fim, adoro falar sobre isso e fico à disposição para esclarecer eventuais dúvidas :).

Texto publicado originalmente no Linkedin. Lá também encontram-se respostas para algumas das dúvidas que recebi.