Como eram feitas as análises do Cambridge Analytica

Bruno Oliveira
Internet das Coisas
11 min readSep 22, 2018

Caso você nunca tenha ouvido falar nessa empresa e no recente acontecimento que mobilizou um grande número de pessoas na rede mundial de computadores, seguem 6 fatos para contextualizá-lo:

01. O prof. Aleksander Kogan, entre outros pesquisadores, desenvolveu o aplicativo “Test your personality”, em 2014. Era um aplicativo aparentemente comum, daqueles em que você responde um questionário e “descobre” qual o personagem de Dragon Ball você é, ou de como você seria se fosse do sexo oposto.

02. Ao usar o aplicativo, você precisava aceitar os termos de uso, que previa que além dos seus dados serem coletados. O aplicativo foi instalado/baixado por 270.000 pessoas. Entretanto, o aplicativo aproveitou uma falha de segurança do Facebook e conseguia os dados também dos amigos das pessoas que instalaram o aplicativo, sem o consentimento delas, e acabou coletou o dado de mais de 50 milhões de perfis.

03. Kogan informou ao Facebook que iria usar apenas para propósitos acadêmicos, mas acabou levando eles para a empresa que trabalhava (sim, a Cambridge Analytica) para fins políticos e governamentais — o que, supostamente, vai contra a política do Facebook.

04. O Facebook descobriu o fato em 2015, e solicitou a destruição de todas as informações para Kogan, que informou ter realizado a ação. Mas o que se descobriu depois, é que não foram destruídas todas as informações.

05. Em 2016, Donald Trump supera todos os prognósticos e é eleito presidente dos EUA. No mesmo ano, em plebiscito realizado no Reino Unido, o “Brexit” saiu vitorioso. O que há de comum nas duas campanhas? Ambos utilizaram os serviços da Cambridge Analytica em suas campanhas políticas.

06. A utilização dos dados não destruídos nessas campanhas políticas foi descoberto após depoimento de um ex-funcionário da Cambridge Analytica, Christopher Wilie, que informou que as campanhas do Brexit e de Trump só foram possíveis através da utilização dessas informações.

Imagem extraída de [1]

O objetivo deste artigo é explorar como a Cambridge Analytica conseguiu transformar dados coletados em simples questionários de personalidade, em ferramentas fundamentais em campanhas políticas, conseguindo concretizar resultados que eram tidos como altamente improváveis. Para tal, dividiremos todo o processo em três principais etapas.

É claro que fatores demográficos, geográficos e econômicos irão influenciar sua visão de mundo. Mas mais importante são os psicográficos, que são o entendimento da sua personalidade. É a personalidade que guia os comportamentos, e os comportamentos obviamente influenciam como você vota — Alexander James Ashburner Nix, CEO da Cambridge Analytica nos EUA

Etapa 1 — Mapeando e modelando perfis

O primeiro passo foi a definição de qual modelo psicográfico seria utilizado para modelar as personalidades e perfis das pessoas (profiling). Neste caso, utilizou-se o modelo Ocean, ou modelo de cinco fatores [2]. Em resumo, as dimensões utilizadas são as seguintes:

  • OPENESS — Abertura para a experiência: refere-se ao quanto o individuo está predisposto a mudanças, novas experiências e a criatividade.
  • CONSCIENTIOUSNESS — Conscienciosidade: refere-se ao grau de autodisciplina e organização para atingir os objetivos
  • EXTROVERSION — Extroversão: refere-se ao grau de envolvimento com o mundo exterior, o nível de sociabilidade e otimismo
  • AGREEABLENESS — Agradabilidade: refere-se a capacidade de sentir empatia e colaborar com outras pessoas
  • NEUROTICISM — Neuroticismo: ou instabilidade emocional, refere-se a predisposição a se sentir dominado por sentimentos ruins, como depressão ou ansiedade.

O segundo passo foi a escolha da forma de coleta de dados dos usuários, e é aqui um dos grandes problemas da situação: a questão da privacidade. Os dados foram coletados através da Graph API que, em termos gerais, é uma interface criado pelo próprio Facebook para que desenvolvedores consigam construir aplicações que possam utilizar as informações dos usuários (e de suas conexões). Segundo o próprio Zuckerberg, fundador e CEO do Facebook, em 2010, a introdução do Graph API era uma medida revolucionária (e lucrativa!)e que o objetivo da empresa era “construir uma Internet onde o padrão fosse o social” [3].

O problema do Graph API estava na primeira versão lançada em 2010, devido as “permissões estendidas” que eram dadas aos desenvolvedores — que inclui a coleta de dados irrestrita do usuário, de seus amigos e até das mensagens privadas. E, se por um lado o usuário que instalou o aplicativo “forneceu o seu consentimento” sobre os aplicativos poderem usar seus dados, os seus amigos provavelmente não consentiram disso. O problema foi parcialmente resolvido na versão Graph API v2.0 (que criou algumas restrições de acesso) lançada entre 2014/2015, mas tarde demais para a Cambridge Analytica ter explorado a falha da versão anterior.

Extraído de [4]

Etapa 2— Mineração e análise dos dados

A coleta de dados, tanto pela Cambridge Analytica quanto por qualquer outra empresa desse vasto Facebook, é o que foi cunhado por Yuval Harari (no livro Homo Deus: uma breve história do amanhã) de “dataísmo” — quase como se fosse uma devoção religiosa pelos dados, como representação da realidade e como meio para modificá-la. Como toda forma de devoção, o risco que o dataísmo trás para nós é que já não se sabe mais quem o dado controla e quem controla o dado.

A buzzword mais utilizada hoje para esse fenômeno é o Big Data, que de forma simplória, refere-se ao grande acúmulo de dados das mais diversas fontes (estruturados ou não). Para que esses se tornam de fato úteis, é necessário o uso de técnicas como o data mining. O KDD.org define o data mining como o processo de descoberta de padrões em grandes quantidade de dados, envolvendo métodos de intersecção de machine learning, estatística, e sistemas de base de dados. No fundo, essa sopa de palavras novas e difíceis é a tentativa de tornar o dataísmo em algo mais sólido: a ciência dos dados. E isso gera uma nova corrida do ouro, a grande diferença é que antes não era possível gerar mais ouro a partir do ouro, mas hoje, com a ciência dos dados, é possível gerar mais dados a partir dos próprios dados.

A plataforma de big data e mineração de dados utilizado pela Cambridge Analytica foi o Ripon [5], criado especificamente para esse propósito, e supostamente desenvolvido pela empresa canadense AggregateIQ — o que gera agravantes para o caso, já que a empresa está envolvido em outras situações controvérsias, em casos de falhas de segurança e vazamento de dados e, no caso da eleição do Trump, configuraria participação estrangeira no processo eleitoral. Detalhe: Ripon é o nome da cidade onde foi fundado o Partido Republicano dos EUA.

A ferramenta utilizava o modelo Ocean com algumas modificações para fazer o profiling dos usuários da rede social. A ferramenta segmentava (microtargeting)os usuários através de três análises: classificação demográfica, classificação tradicional e classificação comportamental. Como pode ser visto no material promocional [5], o perfil médio de um potencial eleitor dos Republicanos é o seguinte:

  • Demográfico: Homem caucasiano, cristão, faixa etária 25–34, casado e pai de família e professor
  • Tradicional: votou em republicanos nas duas últimas eleições, primeira criança entre 5 a 9 meses, gasta 1.500 dólares ou mais por mês, mora a 150 milhas da mãe, dirige um Dodge Avenger, tem me média 524 amigos no Facebook.
  • Comportamental: predominantemente Consciencioso, dá valor a regras e a vida ordeira, possui senso de propósito na vida. Os fatores abstratos mais envolvidos na personalidade é ser emotivo e o medo, sempre tendo um comportamento cuidadoso.

Etapa 3— Propaganda direcionada

Mapeando os diferentes perfis de usuários do Facebook, o próximo passo foi propor ações específicas de acordo com as preferências das pessoas. Basicamente utilizando técnicas de publicidade para enviar anúncios e mensagens políticas para as pessoas certas, no momento e lugares mais adequados. Conforme Christopher Willie em seu depoimento (https://www.youtube.com/watch?v=f2Sxob3fl0k&t=5874s) de denúncia da Cambridge Analytica, eram enviadas mensagens mais animadoras para pessoas mais reflexivas, e outras mais em caráter de denúncia para alguém que tende a ser mais explosivo nas redes sociais.

Ainda que pareça ser uma estratégia óbvia, isso é muito diferente do que se fazia antes: a principal estratégia de publicidade eleitoral era sempre a divulgação em massa e o objetivo era atingir o maior número de pessoas possíveis. A Cambridge Analytica utilizava tanto estratégias online quanto offline [6]. As estratégias offline incluía tanto o tradicional panfletinho em lugares específicos de maior concentração de potenciais eleitores, quanto ações em programas de TVs escolhidos pontualmente. As estratégias online incluía principalmente o Facebook, já que a empresa permite que o conteúdo patrocinado seja apresentado para perfis específicos de usuários.

É possível notar como que um mero aplicativo de perguntas e respostas no Facebook consegue traçar um perfil tão completo de um provável eleitor do Trump. Mas veja, por mais que a tecnologia e as ferramentas de ciência dos dados consiga resultados incríveis, ela ainda continua apenas um meio, e não a mensagem em si. O que define o valor moral dessas análises passa a ser então o propósito, e nesse caso para fins políticos e passíveis de julgamentos ideológicos. Considerando a grande disputa entre as partes em uma disputa eleitoral, torna-se então um terreno fértil para o surgimento de outro problema: fake news. E essa é uma das principais acusações para o que foi feito pela Cambridge Analytica.

Tecnologia a parte, há duas coisas que torna um fake news viral [7]: viés de confirmação e as câmaras de eco. O viés da confirmação refere-se a tendência de uma pessoa manter e reforçar sua crença inicial mesmo quando deparados com fatos e argumentos que demonstre exatamente o contrário. Em debates, as pessoas sempre tendem a manter suas posições iniciais — e isso é reforçado quando você já sabe qual são os viéis de determinadas pessoas e passa a reforçá-los com mensagens direcionadas (independente do conteúdo ser verdadeiro ou não). As câmaras de eco são as pessoas / entidades reconhecidas como reverberadoras, ou seja, aqueles que possuem certa autoridade e reconhecimento sobre determinado público, e que são responsáveis por repassar as informações aumentando o alcance e relevância delas — nesse caso, a criação de perfis falsos e o patrocínio de personalidades chave passa a ser uma estratégia eficiente para difusão das informações.

E esses são os princípios da tática de propaganda da Cambridge Analytica, e são táticas quase militares, como diz reportagem do The Guardian [8]: “Essa não é uma história sobre psicologia social ou data analytics. Isso precisa ser entendido em termos de um fornecedor de serviços militares usando estratégias militares contra uma população civil”.

E agora…

O caso ainda está sob investigação, tanto na Inglaterra quanto nos EUA, e também em outros países (inclusive o Brasil, que teve alguns perfis envolvidos nas análises), o que incluiu um tragicômico depoimento do CEO do Facebook ao senado norte-americano. Não é objetivo deste artigo fazer julgamento, legal ou moral, das ações executadas pela Cambridge Analytica e cia limitada, mas de pensar qual é a lição que podemos tirar da situação.

Hoje, a empresa está extinta desde maio/2018, mas pouco antes disso já havia políticos brasileiros que estavam interessados nos serviços da empresa [9]. A Cambridge Analytica não é a única, nem a primeira e nem a última, a utilizar dados de usuários do Facebook (e de diversas outras plataformas da Internet). Então, se haviam políticos interessados nesse serviço, muito provavelmente o interesse continua e utilizarão outras empresas e táticas para utilizar isso em suas campanhas.

Se pensarmos no Brasil, especificamente porque este ano teremos eleições presidenciais, já é esperado que táticas similares aconteçam. Conforme levantamento feito pelo jornal Nexo [6], há diferenças da legislação entre EUA e Brasil: nos EUA a legislação permite que empresas vendam as informações de seus clientes para terceiros (estima-se que na campanha de Trump tenha sido usado cerca de 7000 informações sobre cada eleitor); mas no Brasil essa prática é vedada, e oficialmente a empresa possa usar apenas dados demográficos públicos do IBGE e alguns dados pulverizados em bureaus de informações (como Serasa e Boa Vista, que possuem informações de Cadastro Positivo, entre outros) — uma estimativa de 750 informações.

A primeira recomendação aqui é estar consciente quanto as aplicações e as permissões que elas terão sobre seus dados, tanto no Facebook, aplicativos de celulares e outras plataformas. Lembrando que, quando utiliza-se um produto que seja gratuito, muito provavelmente aquilo não é o produto, o produto é sempre os dados do usuário. A segunda recomendação é resistir a tentação de compartilhar as fake news, e aí não tem muito o que fazer, a melhor forma de resistir ao viés de confirmação e as câmaras de eco é (i) adotar o hábito de sempre sair de suas próprias bolhas sociais/intelectuais, (ii) estar aberto a novas ideias ao mesmo tempo em que se pratica o bom ceticismo e pensamento crítico, e principalmente, (iii) denunciar, combater e educar as pessoas que realizam essa propagação de fake news.

Referências (e recomendações de leitura):

[1] Harris, E.; Warner, A. Dark Arts: How Cambridge Analytica Used Facebook to Find Out Who You Are. 2018. Disponível em https://medium.com/@thenib/dark-arts-how-cambridge-analytica-used-facebook-to-find-out-who-you-are-d10b150b9653

[2] Digman, J. Personality structure: Emergence of the five-factor model. Annual Review of Psychology. 41: 417–440. 1990. Disponível em: https://www.annualreviews.org/doi/10.1146/annurev.ps.41.020190.002221

[3] Schonfeld, E. Zuckerberg: We are building a web where the default is social. TechCrunch. https://techcrunch.com/2010/04/21/zuckerbergs-buildin-web-default-social/

[4] Symeonidis, I.; Tsormpatzoudi, P.; Preneel, B. Collateral damage of Facebook Apps: an enhanced privacy scoring model. IACR. 2015. Disponível em https://eprint.iacr.org/2015/456.pdf

[5] Washington Post. Cambridge Analytica’s ‘Ripon’ brochure. 2018. https://www.washingtonpost.com/apps/g/page/politics/cambridge-analyticas-ripon-brochure/2293/?noredirect=on

[6] Flores, P. O que a Cambridge Analytica, que ajudou a eleger Trump, quer fazer no Brasil. Nexo Jornal. 2017. Disponível em https://www.nexojornal.com.br/expresso/2017/12/08/O-que-a-Cambridge-Analytica-que-ajudou-a-eleger-Trump-quer-fazer-no-Brasil

[7] Cabral, C. Quatro perspectivas para entender o caso Cambridge Analytica & Facebook. Crypto ID. 2018. Disponível em https://cryptoid.com.br/banco-de-noticias/quatro-perspectivas-para-entender-o-escandalo-da-cambridge-analytica/

[8] Cadwalladr, C. The great British Brexit robbery: how our democracy was hijacked. The Guardian. 2017. Disponível em https://www.theguardian.com/technology/2017/may/07/the-great-british-brexit-robbery-hijacked-democracy

[9] Jornal O Globo. Estamos indo para o Brasil. 2018. Disponível em https://oglobo.globo.com/mundo/estamos-indo-para-brasil-diz-diretor-da-cambridge-analytica-22510961

LINKS RECOMENDADOS

--

--

Bruno Oliveira
Internet das Coisas

Auditor, escritor, leitor e flanador. Mestrando em TI, tropecei na bolsa de valores. Acredito nas estrelas, não nos astros. Resenho pessoas e o tempo presente.