Como o Thick Data mudou o algoritmo de recomendação de títulos da Netflix
A gigante do mercado de streaming, Netflix, é uma das Big Techs que investem pesado na inteligência artificial (IA). O seu algoritmo de recomendação de títulos é notoriamente conhecido por aplicar ferramentas de IA para indicar aos usuários o que eles deveriam assistir. Construir esse algoritmo não foi tarefa fácil, e contou inclusive com uma competição milionária, que virou enredo do folclore da IA.
O ano era 2006 e a Netflix, então um serviço on-line de venda filmes e programas de TV, criou o “The Netflix Prize”, uma competição que visava premiar em 1 milhão de dólares a quem conseguisse melhorar o CineMatch, o seu primeiro algoritmo de recomendação de títulos, com base em avaliações anteriores de usuários.
A Netflix forneceu um conjunto de dados de treinamento contendo mais de 100 milhões de avaliações que os então 480 mil usuários deram aos filmes disponíveis na plataforma. Os dados, do tipo numérico, consistiam em tuplas contendo o ID do usuário, ID do filme, data da avaliação e nota. O objetivo do algoritmo seria prever as notas dadas a filmes de um conjunto de dados de validação, e o método utilizado para medir a acurácia do algoritmo foi o erro quadrático médio (RMSE).
Em 21 de setembro de 2009, o grande prêmio de 1 milhão de dólares foi concedido à equipe Pragmatic Chaos da BellKor, que superou o algoritmo de previsão de avaliação da Netflix em 10,06%. Ou seja, o algoritmo vencedor reduziu o erro quadrático médio em 10%.
Aqui começa a controvérsia. Seria o RSME a melhor métrica para esse tipo de situação? O que uma redução de 10% do erro quadrático médio significava para os usuários?
Apesar de todo o esforço, a Netflix percebeu que seu algoritmo de recomendação ainda não era bom o suficiente, isso porque o uso exclusivo de dados numéricos ou categóricos, e pior, de dados pouco representativos, não fornecem uma visão ampla sobre conceitos subjetivos, por exemplo, o que faz o consumidor feliz.
Então a Netflix percebeu precisar de um tipo diferente de dado, aquele que chamamos de Thick Data. Thick Data é uma informação qualitativa que oferece alguns entendimentos sobre a vida emocional dos consumidores. Em geral, esses dados são colhidos utilizando metodologias etnográficas, como pesquisas diretas com o consumidor, por exemplo.
O que a Netflix queria entender eram alguns comportamentos que o algoritmo de recomendação de títulos não podia prever, por exemplo, o que o usuário faz enquanto assiste a uma série? Será que o usuário dorme no meio de um filme? Quais as atividades secundárias que o usuário desempenha enquanto assiste a um documentário?
Por isso, a Big Tech contatou o antropólogo Grant McCracken para construir um banco de dados de conhecimentos etnográficos, contendo informações sobre traços culturais, padrões de espectadores, padrões de relacionamento off-line. McCracken conviveu com usuários da Netflix ao redor do mundo, adquirindo uma grande quantidade de dados contextuais. Um dos resultados mais interessantes que Grant e sua equipe descobriram durante as pesquisas foi que os usuários gostam de assistir um episódio após o outro da mesma série. Depois disso, a Netflix começou a produzir séries e liberar todos os episódios de uma temporada de uma vez, ao invés de disponibilizar um episódio por semana, como geralmente fazem as emissoras de TV.
Assim, o algoritmo de recomendação foi ajustado de acordo com o banco de dados etnográfico, e, como consequência, a Netflix revolucionou o mercado de streaming. Essa nova forma de consumir o audiovisual, o chamado binging, ou seja, assistir a vários episódios de um programa de televisão em um curto período de tempo, criou novos padrões de comportamento e socialização. E isso mostra como o Thick Data melhorou o algoritmo de recomendação da Netflix, focando naquilo que os usuários realmente querem.