Quem fala o quê? — A história de 3 experimentos para analisar o discurso de parlamentares

Diego Cunha
Mar 24 · 12 min read

Ao longo da sua trajetória, o LABHacker fez várias tentativas de conceber uma ferramenta de análise de discursos parlamentares. O objetivo seria possibilitar o interesse de diferentes públicos na produção legislativa, oferecendo a informação de uma maneira mais interativa e visual.

Há muitos anos, a Câmara dos Deputados permite a pesquisa desses registros, que podem ser encontrados agora mesmo em nosso site. Há os mais diversos parâmetros de busca. Elas podem ser feitas de uma forma simples — fornecendo o nome, estado ou período — ou de uma forma avançada — determinando a fase da discussão ou o tipo de intervenção.

Filtros para a busca de discursos no Portal da Câmara dos Deputados (tela capturada em 2013).

O resultado final da busca é uma lista com os discursos que se encaixam nos filtros fornecidos. E não há nada absolutamente errado em disponibilizar a informação com essa lógica, que pode ser útil para determinados perfis de pessoas e intenções de pesquisa.

A relação dos discursos édisponibilizada em forma de lista, conforme os parâmetros de busca (Captura de tela de 2013)

Mas a questão é: pode haver formas de visualizar informação acerca dos discursos, que coexistam? É aqui que entra a importância de se oferecer a informação em dados abertos, de forma que sejam possíveis diferentes visualizações por máquinas e aplicativos.

Como surgiu a ideia de uma ferramenta de visualização dos discursos parlamentares?

Em 2013, a Câmara dos Deputados realizou seu primeiro Hackathon convidando diferentes desenvolvedores, hackers e ativistas a apresentar ideias de utilização e melhoria dos dados abertos legislativos, com diferentes projetos de sites e aplicativos.

Dentre esses, estava o projeto “Retórica Parlamentar” apresentado pela equipe formada por Davi Moreira, Manoel Galdino e Luis Carlos. O conceito da ideia era apresentar bolhas de temas — quanto maior a bolha, mais falado o assunto. Clicando-se em cada bolha, apareciam várias imagens de parlamentares, cujos tamanhos variavam conforme a quantidade de discursos.

O Retórica Parlamentar utilizava os dados dos discursos do Pequeno Expediente, que é um dos momentos institucionais de fala dos deputados durante as sessões no Plenário Ulysses Guimarães — outros são a Abertura, Breves Comunicações, Ordem do Dia, Homenagem, Comissão Geral, Grande Expediente e Encerramento.

Um dos motivos para a escolha do Pequeno Expediente como a principal fonte dos dados se dava pelo fato de ser esse o momento com maior volume de discursos e também com um tempo maior de fala — cinco minutos — para cada parlamentar. A definição do tema é mais livre, sem necessariamente se pautar por uma relação governo/posição como nos momentos do grande Expediente. Também, é um momento em que mais parlamentares tem a oportunidade de fazerem discursos.

Maiores detalhes na concepção do Retórica Parlamentar podem ser conferidos na tese e em artigo elaborados pelo professor Davi Moreira, assim como na documentação do código do projeto no Github. Como esse aplicativo funcionava também pode ser visto, a partir do minuto 10:35, nesta palestra TED do então diretor do LABHacker.

Como e por que o Retórica Parlamentar veio a ser implementado na Câmara dos Deputados pelo LABHacker?

Em uma avaliação posterior, pudemos perceber que boa parte das propostas apresentadas no Hackathon focava mais na fiscalização de possíveis malfeitos de parlamentares — algo muito comum no meio ativista.

Diferentemente desses, o Retórica Parlamentar prometia contribuir para um maior acompanhamento da atividade legislativa em si. Entendendo que essa proposta se afinava com seu papel de contribuir para um Parlamento mais transparente e acessível à sociedade, o LAB Hacker da Câmara dos Deputados — com o auxílio de sua equipe técnica de TI — decidiu seguir desenvolvendo o Retórica.

O resultado do desenvolvimento — com algumas alterações no layout e a inclusão de filtro por ano — pode ser conferido no video abaixo:

Retórica Parlamentar, como alterado pelo LABHAcker, e disponibilizado no site da Câmara, de 2014 até 2017.

E o que aconteceu com o Retórica Parlamentar?

A partir de 2016, o Retórica Parlamentar parou de ser alimentado e foi tirado permanentemente do ar no ano seguinte, por conta de algumas dificuldades e limitações.

Nas primeiras versões foram usados inputs humanos para treinar o sistema de categorização — um dos desenvolvedores da equipe tinha de deixar uma máquina compilando uma tabela. Depois, pessoas da equipe precisavam categorizar os temas com bases nos radicais das palavrars— stems — gerados pelo algoritmo.

Havia uma dificuldade de se compreender e abordar a melhor a forma de categorizar todos os discursos feitos. Outro problema era que o projeto de dados abertos da Câmara ainda não tinha a mesma robustez mais (por volta de 2015), comparado à versão atual.

Além de uma baixa confiabilidade da categorização temática, havia outro problema: um deputado que aparecesse em uma bolha não apareceria em outras. Ou seja, mesmo que o parlamentar falasse muito de vários assuntos, estaria presente apenas em uma bolha, o que o faria parecer monotemático, sem dar uma boa visão geral do seu trabalho.

O fato do Retórica Parlamentar se voltar aos discursos do pequeno expediente — por conta de uma provável diversidade temática maior — poderia levar a alguma desconsideração de informação de outros momentos institucionais. Ficava a pergunta para nós da equipe do Laboratório Hacker: não seria melhor considerar todas as bases de dados dispóniveis, para ver o que é falado pelo parlamentar em todas as situações possíveis? Não seria também poder perceber a diferença nos momentos institucionais, mais uma possibilidade de comparação e, por consequência, de análise?

O resultado entregado pelo Retórica também poderia gerar uma pergunta no usuário: “afinal, como o tema está acontecendo nos discursos do(a) parlamentar?”. Tal pergunta não poderia ser respondida, uma vez que o Retórica Parlamentar não fornecia detalhes dos discursos.

Por fim, concluiu-se por retirar o Retórica Parlamentar do ar, pois este parecia naquele momento apenas uma curiosidade. Algo impactante visualmente num primeiro momento, mas que não contribuía efetivamente para uma análise dos discursos.

Tenho Dito: contrastando discursos e proposições

Um projeto interessante que parecia responder a alguns dos problemas do Retórica Parlamentar era o Tenho Dito, que resultou em um trabalho de conclusão de curso de um dos desenvolvedores do LAB. Nele se poderia ver as temáticas mais debatidas pela bancada de cada estado, bem como os temas mais debatidos pelo(a) parlamentar.

Outro aspecto marcante era visualizar em cada parlamentar uma relação entre discursos e projetos apresentados— uma visão mais abrangente da produção legislativa.

Uma característica interessante no Tenho Dito é que os cruzamentos de informação poderiam indicar uma possível convergência, ou não, entre o que se discursa e o que é proposto pela(o) parlamentar. Se houvesse uma grande diferença, talvez poderia sugerir uma falta de coerência ou mesmo de dificuldades enfrentadas na sua atuação. A análise serviria para estimular uma pesquisa mais aprofundada quanto às razões de uma possível divergência.

A ferramenta também poderia contrastar possíveis afinidades ou diferenças entre deputadas(os) de uma mesma bancada do estado o que seria instrumental para o acompanhamento dos eleitores daquela região. Detalhes podem ser melhor entendidos no próprio trabalho acadêmico apresentado.

Entretanto, essa proposta do Tenho Dito também apresentava problemas, como a classificação deficiente dos discursos. Para tornar a ferramenta funcional seria preciso recategorizar os dados novamente.

Um novo experimento: o PARLA

Chegamos em a um momento em que dois desenvolvedores back-end do LABHacker estavam estudando algoritmos diferentes: saco de palavras — que mostra as palavras que mais se repetem — , e o decision tree com naive bayes — que classificava os discursos com base em 31 temas pré-estabelecidos (sendo este último, o mesmo utilizado pelo Tenho Dito). Então, o gestor operacional da equipe técnica enxergou a seguinte possibilidade: os discursos poderiam ser visualizados de diferentes formas, por meio de diferentes algoritmos, que poderiam ser adicionados progressivamente por vários desenvolvedores.

Uma motivação da ideia era conferir uma certa “transparência algorítmica”, para que desenvolvedores e usuários pudessem comparar melhor como as visualizações estavam sendo geradas. A ideia vai em contraposição ao conceito de serviços e aplicações — como as redes sociais — que são criticados por serem uma “caixa-preta”, onde não se sabe como os dados estão sendo processados.

O projeto acabou gerando um protótipo, o PARLA. Esse tinha algumas características que buscavam enfrentar diferentes problemas dos experimentos anteriores. A primeira era permitir uma definição melhor de diferentes períodos da busca (com a limitação mínima de um mês). Outro ponto é a possibilidade de visualização em telas de celulares — o que influenciou na decisão de se abandonar o formato das bolhas em favor de losangos.

No PARLA, os temas mais debatidos são apresentados em forma decrescente. Ao clicar em um losango, é possível ver a(o) deputada(o) que mais fala, também em forma decrescente. A aplicação também possibilitaria acompanhar uma relação dos discursos da(o) parlamentar associados àquele tema e conferir, agora, integralmente, do que se trata o discurso.

Outra novidade interessante trazida no PARLA é a presença de diferentes filtros de busca. Há a opção “sem filtros”, para um resultado agregado de todos os discursos disponíveis,e filtros por gênero, estado ou partido. Além desses, há um específico por fase (breves comunicações, comissão geral, pequeno expediente, ordem do dia, grande expediente, etc).

No desenvolvimento do projeto, houve uma colaboração entre o Laboratório Hacker e o Departamento de Taquigrafia. Porém, nesse processo o projeto acabou deixando de ser entendido como um experimento — como era o entendimento inicial — para atender a uma necessidade de se tornar um produto. Um dos nossos desenvolvedores na época apontou em outro post os desafios do projeto e a baixa precisão dos algoritmos. Dentre os problemas decorrentes da mudança de objetivo do projeto, está o fato do PARLA ter sido lançado e divulgado para o público interno e externo como um serviço funcional, quando deveria ter sido apresentado somente como um protótipo.

Além da baixa confiabilidade do algoritmo, temos ainda outra limitação para oferecer um retrato melhor da atuação parlamentar: os dados abertos ainda não abrangem as falas dos parlamentares nas comissões temáticas. Dada a enorme relevância das comissões no processo legislativo, ainda não seria possível oferecer um retrato mais apurado da atuação dos parlamentares, sem analisar esses momentos de fala também. Porém, esse desafio é algo que extrapolava os limites da equipe e o escopo do projeto.

Por fim, pode-se também pontuar que havia restrições no que toca acessibilidade e adequação ao layout da Câmara. Havia também problemas quanto à limitação quantitativa dos losangos e uma perda da noção de escala.

Entrevistas etnográficas: o que os usuários querem numa ferramenta de análise de Discurso?

Depois de questões decorrentes da experiência com o PARLA, decidimos realizar entrevistas para avaliar o que seria desejável em uma aplicação de visualização de discursos. Para isso, conversamos com três diferentes perfis de potenciais usuários: pesquisadores, jornalistas e cidadãos aleatórios (que tinham algum interesse em política). O resultado da pesquisa nos levou a concluir que seria necessário repensar várias das suposições adotadas no projeto.

Um exemplo: o PARLA foi feito priorizando-se os celulares, supondo, assim, que seria acessível a mais pessoas. Porém, as entrevistas nos mostraram que, para muitos cidadãos, o uso da plataforma seria apenas por curiosidade e, para aqueles que poderiam utilizar a ferramenta em suas pesquisas ou trabalho, o acesso preferencial seria por meio de desktops ou laptops.

Algumas falas destacaram um valor no objetivo de se criar tal ferramenta de análise:

  • Pode trazer participação de forma mais lúdica.”
  • “Ver os discursos como se fosse uma espécie de filtro? Com certeza. Economiza nosso tempo.”
  • “É possível encontrar padrões analisando conjuntos de discursos.”
  • “Traz valor, mas não para mim, e sim para outros nichos de trabalho, como pesquisadores, mídia e pessoas que trabalham com o governo.”
  • “Consigo imaginar um jornalista que não é da área técnica usando isso pra criar uma matéria. Daí já nasce a ideia de uma pauta.”

Dentre as várias falas que demonstraram necessidades não-satisfeitas diante do protótipo do PARLA, destacamos algumas:

  • “Gostaria de poder fazer comparativos. Sinto que a ferramenta fica muito na árvore e vê menos a floresta.”
  • “Não sinto que há muito valor na ferramenta tendo em vista o que falta nela. O discurso por discurso não diz nada. A ferramenta precisa de uma análise qualitativa além da análise quantitativa.”
  • “Restringir a uma seleção de 20 termos torna a ferramenta apenas uma curiosidade. Não utilizaria como ferramenta de trabalho/pesquisa.”

Obs: Um dos entrevistados por nós foi autor de um interessante trabalho de análise dos discurso parlamentares por Processamento da Linguagem Natural. O que chama atenção nessa abordagem é que a máquina perceberia o posicionamento político de parlamentares (e dos partidos) e sua afinidade com o goveno, algo que era parte do escopo desse projeto.

E qual o futuro de uma ferramenta de análise de discursos?

O LABHacker não está mais envolvido, no momento, com nenhum projeto de visualização dos discursos parlamentares. A experiência do processo pareceu deixar nítido que um projeto com essa intenção precisa reunir diferentes saberes e expertises para se tornar um produto funcional. São também necessárias tecnologias de processamento da Linguagem Natural que melhoraram muito desde então ou não estavam disponíveis na época de cada experimento.

Os insights trazidos pelas entrevistas fizeram ver que também é necessário contar com uma abordagem de pesquisa e prospecção com potenciais usuários, de modo a questionar vários pressupostos na hora de se buscar desenvolver uma ferramenta de análise do discurso.

No entanto, por mais que haja boas intenções e conhecimento, a base de dados existente não teria condições de atender todos os desejos que identificamos nas entrevistas dos usuários — algo que extrapolaria as possibilidades limitadas da equipe do LABHacker. Já houve enormes avanços na disponibilização dos dados por parte da Câmara dos Deputados desde 2014, sendo possível fazer muita coisa em muitas aplicações dependendo do objetivo. Porém, o processo de fornecer ainda mais e mais informações e melhorar as existentes é um esforço complexo que requer a cooperação contínua de diferentes setores. Os experimentos aqui relatados podem evidenciar algumas necessidades uso dos dados, mas responder a elas passa sempre toda uma política institucional trans-setorial.

Se ainda não foi possível chegar a um resultado satisfatório — pelos mais diversos motivos já discorridos— o processo permite ao menos inferir algumas das características desejáveis de uma ferramenta de análise do discurso:

  • Busca por deputado e por tema;
  • Filtro por período — ex. legislatura, ano e à escolha do usuário (se possível permitindo a busca por semana ou diária, algo que seria muito útil para os jornalistas entrevistados);
  • Filtros por gênero, partido, UF e fase. (Filtros suprapartidários — frentes parlamentares, bancadas e blocos — também foram mencionados nas entrevistas);
  • Discursos não somente do plenário, mas também de dentro das comissões temáticas (onde ocorre grande parte dos debates legislativos);
  • Métricas absolutas — ex. número de discursos, quantidade de ocorrências, quantidade de deputados que falam sobre o tema;.
  • Métricas relativas — ex. percentual de ocorrência da temática (dentro dos filtros estabelecidos na busca) e percentual de participação de cada parlamentar dentro de um tema;
  • Metodologia utilizada, acesso aos dados brutos e aos metadados;
  • Opções de exportação dos dados apresentados;
  • Acesso aos discursos específicos que compõem as temáticas;
  • Exibição da ocorrência de termos associados a um tema — ex. um deputado trata muito do tema “Criança e Adolescente” e em seus discursos ocorre muito o termo “Segurança”, o que pode sugerir posicionamento político diferente de outro parlamentar para quem o mesmo tema está associado com maior ocorrência ao termo “Educação”;
  • Cruzamento com temáticas nas proposições apresentadas pelo parlamentar ou no posicionamento em votações envolvendo aquela temática.

Que esses aprendizados, com seus aspectos positivos e negativos, possam ser úteis à reflexão de outros.

*Colaboraram com informações para esse artigo Pedro Brandão, Erivânio Vasconcellos e Ricardo Modesto.

**Originalmente pulicado em 24/03/2021, esta postagem foi atualizada e corrigida em 05/04/2021.

Para saber mais:

FERNANDES, Matheus Souza. Tenho Dito: uma aplicação para análise de discursos parlamentares utilizando técnicas de processamento de linguagem natural. 2017. UnB. Disponível em: https://bdm.unb.br/bitstream/10483/19846/1/2017_MatheusSouzaFernandes_tcc.pdf

IZUMI, Maurício, MOREIRA, DAVI. O texto como dado: desafios e oportunidades para as ciências sociais.2018. Disponível em: .<www.anpocs.com/index.php/bib-pt/bib-86/11215-o-texto-como-dado-desafios-e-oportunidades-para-as-ciencias-sociais/file>

MOREIRA, DAVI. Com a palavra os nobres deputados: frequência e ênfase temática dos discursos dos parlamentares brasileiros. 2016. Disponível em: www.teses.usp.br/teses/disponiveis/8/8131/tde-04112016-124733/publico/2016_DaviCordeiroMoreira_VOrig.pdf

VIERA, Ricardo Modesto. PARLA: Os temas mais debatidos na Câmara dos Deputados. Resumo. X Jornada de Pesquisa e Extensão. Programa de Pós-graduação da Câmara dos Deputados. Disponível em: https://soac.camara.gov.br/index.php/Jornada/X/paper/viewFile/302/125

LABHacker

Laboratório Hacker da Câmara dos Deputados

LABHacker

Laboratório Hacker da Câmara dos Deputados

Diego Cunha

Written by

LABHacker

Laboratório Hacker da Câmara dos Deputados