Machine learning contra fakenews
O documentário Great Hack exibido pela Netflix expõe o escândalo da Cambridge Analytica e as eleições presidenciais americanas, e alerta o risco do uso da tecnologia e análise de dados para manipulação política. Esse é um tema de grande importância, haja vista que cada vez as redes sociais vão influenciar o destino dos Governos. E outro tema que está relacionado a isso é o uso de informações falsas na propaganda e militância política.
A desinformação é uma arma da inteligência que vem sendo usada há bastante tempo. Na Segunda Guerra Mundial uma das táticas utilizadas era espalhar notícias falsas para desorientar o inimigos levando a erros de planejamento e ação militar. Atualmente, isso tem sido usado pelo marketing política para influenciar eleitores e opinião pública, o que representa uma ameaça a democracia. Os regimes totalitários são caracterizados pela massiva propaganda política que fazem uma lavagem cerebral nos seus súditos ao propagar uma versão fantasiosa e conveniente da realidade.
As gigantes da tecnologia tem sido pressionadas para evitarem o uso malicioso das redes sociais e publicidade web para disseminar discursos de ódios e fakenews. A neutralidade da web tem sido usada por grupos radicais para promover racismo, terrorismo e autoritarismo. A liberdade está sendo contra ela mesmo, então se torna necessário impor limites a veiculação desse tipo de conteúdo, e como a tecnologia pode ajudar nisso?
Uma das vertentes do aprendizado de máquina é o processamento de texto e análise de sentimento. Essas técnicas e algoritmos permitem os computadores serem capazes de extrair o conteúdo relevante dos textos e analisá-los. Assim, é possível identificar qual sentimento predomina naquela postagem, assunto que trata, ideias mais frequentes, e até a qualidade do texto.
Textos que contém um objetivo de manipulação e influência tendem a qualificar o tempo todo a informação para direcionar a opinião do leitor. Isso implica o uso excessivo de adjetivos e advérbios para moldar a interpretação dos fatos. Os conteúdo falaciosos também costumam utilizar muita negação para mudar a perspectiva sobre um fato, tornando-o falso ou irrelevante aos olhos dos leitor.
Assumindo que os dois padrões de texto mencionados anteriormente contém alta probabilidade de serem fakenews ou discursos de ódio, seria possível usar o processamento de texto para classificar as postagens como conteúdo nocivo.
No primeiro caso poderia ser usada a técnica de categorização de palavras para identificar se o texto utiliza muitos adjetivos em comparação com substantivos, e assim identificar que ele é rico em conteúdo qualificador e pobre em informação.
No segundo caso a análise de frequência de palavras poderia identificar uma grande quantidade de palavras com sentido de negação ou inversão de sentido e, assim, identificar conteúdos contra-argumentativos que podem significar distorção dos fatos.
O machine learning baseia-se em análises estatísticas e probabilísticas, portanto há sempre o risco dos falsos positivos em seus resultados, mas é preciso contra-atacar o abuso da tecnologia para fins nefastos como esse “hacking político” que está crescendo no Brasil e no mundo. Afinal como diria Mr. Robot: “a nossa democracia foi hackeada”.