A eficácia irracional dos dados

Bruno Oliveira
Internet das Coisas
3 min readMar 26, 2021

Este texto é uma resenha do artigo The unreasonable effectiveness of data dos autores Alon Halevy, Peter Norvig e Fernando Pereira, publicado na IEEE Inteligent Systems (vol 24(2):8–12), 2019.

O artigo parte da premissa de como a matemática consegue explicar fenômenos da física, mas possui dificuldades quando os fenômenos envolvem comportamentos humanos — como ciências sociais ou economia. Ainda que complexo, a recomendação é abraçá-la e utilizar o que ele chama de eficácia irracional dos dados.

Para exemplificar esta situação, os autores elegem o reconhecimento de fala e a tradução automática — mais do que tarefas que parecem mais simples, como classificação de documentos, como principais aplicações do aprendizado de máquina. E o principal motivo é o quanto essas informações (falas, comportamentos humanos) estão disponíveis (principalmente na Internet) gerando um corpus para aprendizado muito rico e rotineiro. A primeira lição apresentada pelos autores é de partir de dados disponíveis em grande escala ao invés de esperar por dados criados que não estão disponíveis.

A grande vantagem passa a ser a massa de dados: mais vale um modelo simples com muitos dados, do que modelos complexos e dados escassos. Mesmo eventos raros não devem ser descartados, porque eles podem ser individualmente raros, mas coletivamente frequentes. E esse preceito leva muita gente a acreditar que há apenas duas abordagens: (i) abordagem profunda que confia em gramáticas configuradas e ontologias, dentro de redes complexas; ou (ii) abordagem estatística que confia em resultados estatísticos de grande corpus de informações. Mas na prática, os problemas podem ser endereçados de várias maneiras, permitindo dezenas de abordagens diferentes, baseados (i) na escolha da linguagem de representação, (ii) na codificação do modelo na linguagem definida e (iii) na execução de inferências a partir do modelo proposto.

Dentro dessa massa de dados, principalmente daqueles proveniente da Internet, gera a chamada Web Semântica: as máquinas não precisam compreender diretamente a fala e a escrita humana, mas documentos e dados semânticos — semântica aqui ligada diretamente ao contexto cognitivo e cultural. Aprendizado de máquina, principalmente no âmbito de web semântica, passa a ter desafios tanto da engenharia quanto da sociologia.

“the spirit is willing but the flesh is weak” — verso bíblico

“the vodka is willing but the steak is weak” — tradução simultânea para o russo (e depois para o inglês novamente)
* uma expressão pode ter significado específico de acordo com a ontologia e a semântica presentes

Em partes o problema sociológico é resolvido com uma estrutura de rede (web semântica) que encoraja as pessoas a alimentá-la naturalmente e rotineiramente, e o problema tecnológico é parcialmente endereçado com mecanismos capazes de indexar todas essas informações. Mas ainda é latente o problema de interpretação semântica: um mesmo significado pode ser expresso de diferentes formas e a mesma expressão pode trazer diferentes significados. Um dos problemas, por exemplo, é a escrita de uma ontologia para o contexto da aplicação (já há algumas iniciativas em áreas específicas, mas ainda há um longo caminho a trilhar) ou a capacidade da máquina lidar com a inacurácia de dados (mentiras, trapaças ou premissas equivocadas).

Para este ponto a recomendação dos autores é a de seguir os dados. Analisar estatisticamente as informações que estão na web semântica e traçar contexto e significados específicos a partir do que for encontrado. Escolher uma representação que possa usar aprendizado não supervisionado em dados não rotulados, que são muito mais abundantes do que dados rotulados. Não gerar novos dados, os seres humanos já fizeram esse trabalho de dar nomes e palavras para conceitos importantes, então utilizar modelos para extrair detalhes e relações importantes dessas informações.

--

--

Bruno Oliveira
Internet das Coisas

Auditor, escritor, leitor e flanador. Mestrando em TI, tropecei na bolsa de valores. Acredito nas estrelas, não nos astros. Resenho pessoas e o tempo presente.