Monitoramento de LGBTfobia em redes sociais com Elastic Stack

Gabriel Jesus
b2w engineering
Published in
6 min readSep 9, 2020

No dia 13 de Junho de 2019, o Brasil presenciava um grande passo na luta por justiça à comunidade LGBTQIA+. Nesta data, o Supremo Tribunal Federal (STF) entendeu que havia uma demora do Congresso Nacional em promulgar leis que criminalizassem atos homotransfóbicos e aprovou a inclusão desses crimes na Lei do Racismo (Lei 7.716/1989), até que o Legislativo promulgasse uma lei específica.

Esta conquista, mesmo que tardia, significa avanços para um país que, desde 2008, lidera o ranking mundial de assassinatos a pessoas trans, segundo a ONG Transgender Europe. E ainda, segundo os últimos dados divulgados pelo Grupo Gay da Bahia (GGB) — importante entidade que atua no combate à homofobia — a cada 26 horas alguém é morto vítima de LGBTQfobia.

A popularização das grandes mídias sociais significou para sociedade o encurtamento do relacionamento interpessoal. Entretanto, para grupos minorizados, isso também pode revelar uma aproximação com seus agressores.

Com a popularização do acesso à internet, diversos comportamentos agressivos e odiosos que a população LGBTQIA+ já sofria nas ruas, foram transferidos para o meio digital. Dessa forma, devido a poucas políticas de proteção a população LGBTQIA+, existe a necessidade de assegurar um ambiente mais seguro e que viabilize a coleta de insumos e evidências que possam comprovar a autoria de crimes homotransfobicos.

Provas Digitais contra crimes de Homotransfobia — Twitter

A necessidade de identificação de atos homofóbicos nas redes sociais foi o que deu origem ao trabalho, utilizando algumas ferramentas da Elastic Stack que ajudaram a impulsionar o projeto.

A iniciativa consiste em uma proposta de arquitetura para a coleta de postagens realizadas na rede social Twitter, suas avaliações através da análise de sentimento, o armazenamento e por fim a evidenciação através de screenshots de comentários possivelmente homofóbicos.

Coleta

A primeira etapa para a identificação de tweets homofóbicos é a coleta de qualquer postagem que aparenta ter relação com a comunidade LGBTQIA+. Para a ingestão dessas postagens, foi utilizado o Logstash que possui plugin de integração com o Twitter.

A configuração “keywords” foi responsável por limitar a coleta a apenas aqueles tweets que faziam parte do escopo, com a escolha das palavras que seriam coletadas, dividindo-as em 3 grupos, resultando em 22 termos:

· Comuns: palavras populares para a identificação da comunidade LGBTQIA+, como: gay, lésbica, transexuais;

· Pejorativas: palavras que são normalmente utilizadas para a depreciação da comunidade, como: traveco, boiola;

· Ortograficamente incorretas: palavras com a escrita incorreta, como: bisexual, transsexual.

A utilização de apenas o radical da palavra foi algo que ampliou o escopo de coleta de maneira satisfatória, pois apenas com o termo “travec”, muitas outras palavras foram incluídas, como: “traveco”, “traveca”, “travecão”, “travecona”, por exemplo.

Para facilitar possíveis investigações nos dados coletados, um campo foi adicionado com a ajuda do plugin do logstash, que nos permite adicionar códigos ruby.

O código consiste na varredura por todo o documento coletado e a verificação de quais dos termos da configuração “keywords” estão contidas no tweet. Dessa forma, em caso de exame nos dados obtidos, poderia haver mais facilidades em busca de documentos que incluem palavras mais pejorativas e, portanto, tem mais possibilidade de estarem ligados com comentários homofóbicos.

E por fim, o documento contendo o tweet é encaminhado para uma fila, utilizando o plugin output SQS, onde será feita a análise de sentimento daquele tweet.

Análise de Sentimento

Após a coleta dos tweets, há a análise de cada um dos documentos para desvendar o seu sentimento. Com uma quantidade milenária de documentos coletados por dia, é possível através desse processo dar destaque para postagens potencialmente ofensivas.

Para este estudo foi utilizado a API do Google de processamento de linguagem natural, que retorna dois valores: score (pontuação) e magnitude. A pontuação pode ser interpretada como valores numéricos que variam de +1 a -1, sendo -1 o valor mais negativo e, portanto, mais próximo de sentimentos como a raiva, ira, ódio, aversão e entre outros. Já a magnitude define a força geral daquele sentimento, variando de acordo com o tamanho do texto, resultando em valores numéricos de 0 a +inf.

Para o contexto dos tweets, a magnitude foi desprezada, pois os tweets tem limitação de 280 caracteres e, portanto, magnitudes muito baixas, com pouca variação entre as postagens.

Como exemplo, temos dois tweets coletados durante o desenvolvimento desse projeto. O primeiro com pontuação positiva de +0,80 e o segundo com pontuação negativa de -0,80:

Tweet “Positivo”
Tweet “Negativo”

Ainda na tentativa de facilitar a investigação dos tweets, foi adotada uma classificação com base em sua pontuação:

Tabela de Classificação

Evidenciação

Com o resultado da análise de sentimento já disponíveis, documentos que tenham sua classificação mais próxima do -1, “Claramente Negativo”, são encaminhados para a evidenciação. A evidenciação significa que daquele tweet, por ter mais chance de conter comentários de ódio, é retirado um screenshot da página e a imagem é armazenada, para que posteriormente possa servir como provas.

As evidências são armazenadas no Simple Storage Service (S3), serviço de armazenamento da AWS em formato PNG, organizadas de acordo com a data da postagem e identificadas de acordo com o “ID” da sua postagem. E como mecanismo de verificação de integridade do screenshot, um hash utilizando o algoritmo SHA256 é realizado.

Evidência de um tweet possivelmente Homotransfóbico

Armazenamento

Após coleta e a análise dos dados, os documentos são encaminhados para um cluster Elasticsearch, junto com a sua classificação e a sua “keyword”. Essa escolha foi feita devido a demanda de busca em casos de investigação em um grande volume de dados coletados. Para isso, ElasticSearch se mostra mais vantajoso.

Visualização / Investigação

Para a visualização dos dados e investigação do conteúdo dos tweets, foi utilizado o Kibana, ferramenta muito importante para a consolidação dos dados obtidos.

Com o Kibana, foi possível identificar que fazendo uma média da pontuação dos comentários e agrupando-os pelos termos (“word”), definidos na configuração “keywords”, as palavras “efeminado” e “travesti” foram as que tiveram médias mais baixas, -0,059 e -0,021 respectivamente, ou seja, a média das pontuações de cada tweets relacionado com esses dois termos são os mais baixos entre os outros 20 termos selecionados para esse projeto.

Resultado da média

Com a utilização dos “scripted fields”, funcionalidade do Kibana, foi viabilizada a classificação dos tweets de maneira mais prática, de acordo com as suas pontuações.

Pontuações menores do que 0 eram classificadas em um novo campo como “Negativo” e pontuações menores do que -0,8 como “Claramente Negativo”. Sendo assim, pontuações que estivessem abaixo de -0,80 poderiam ter mais ênfase nas investigações.

Conclusão

O presente projeto traz como centro de estudo a identificação de atividades LGBTfóbicas dentro de uma nova sociedade chamada “sociedade do conhecimento”, caracterizada pelo uso das redes sociais.

Junto com o surgimento dessas mídias sociais, diversos comportamentos agressivos e odiosos que a comunidade LGBTQIA+ já sofria nas ruas, foram transferidos para o meio digital.

Sendo assim, o trabalho, utilizando publicações no Twitter como base, traz uma proposta de identificação de comentários possivelmente LGBTfóbicos e como pode ser feita a sua evidenciação. Todos esses objetivos foram alcançados junto com o Logstash para a coleta dos tweets, ElasticSearch para o armazenamento, Kibana para a investigação e a análise de sentimento do Google.

Evidência de Tweet “Claramente Negativo” (-0.9)

Para mais informações sobre o projeto, consultar: https://github.com/riccigrj/prd_provas_digitais_homofobia

O texto é baseado em um projeto de monografia orientado por Sérgio Cardoso.

Se você busca uma oportunidade de desenvolvimento, trabalhando com inovação em um negócio de alto impacto, acesse o portal B2W Carreiras! Nele, você consegue acessar todas as vagas disponíveis. Venha fazer parte do nosso time!

--

--