Introdução à Análise de Sentimentos (parte 1)

Rodrigo José Vasconcelos Borba
SiDi NLP
Published in
6 min readMar 29, 2023

Análise de sentimentos (AS) é uma subárea do Processamento de Linguagem Natural (PLN) que, através de uma mineração contextual de dados, extrai informações subjetivas com a finalidade de entender os sentimentos, atitudes, emoções, avaliações e opiniões de pessoas a respeito de marcas, empresas, produtos, serviços, indivíduos, eventos, acontecimentos, entre outros.

Dentro da área de PLN, a AS carrega diversos desafios linguísticos, geralmente concentrados nos níveis da semântica acerca daquilo que está sendo analisado. Com a finalidade de se extrair um significado, a análise deve levar em consideração diversas possíveis estruturas de frases. As pessoas, quando se comunicam entre si, possuem muitas liberdades linguísticas, como as gírias, frases mais curtas e objetivas, palavras ou expressões que podem causar ambiguidade e ampliar a interpretação do que de fato aquilo significa.

A comunicação vai muito além de palavras e seus significados explícitos. Entre pessoas é muito complexa e repleta de nuances: uma sentença pode expressar diversos sentimentos em uma pessoa dependendo do contexto e da forma como foi escrita, demonstrando raiva, curiosidade, alegria, entusiasmo, frustração, tristeza e entre outros sentimentos que deverão ser compreendidos pela máquina.

Aprofundando na análise e entendendo os desafios

Podemos citar alguns níveis de “estudo” da língua como: Fonética e Fonologia, Sintaxe, Morfologia, Semântica, Discurso, etc. Como comentado anteriormente, as tarefas da Análise de Sentimentos estão concentradas no nível da semântica, onde a principal função é a extração ou conhecimento de um significado, e a semântica pode ser dividida em duas categorias: lexical e composicional.

A semântica lexical é a responsável por dar o significado de uma palavra naquele contexto em específico. Ou seja, se fizéssemos uma tarefa de classificação de polaridade para a frase “Aquele jogador é ok.”, iriamos classificá-la como positiva, pois o estrangeirismo “ok” qualifica “aquele jogador” positivamente.

Já quando estamos falando da procura da análise da ocorrência de composições lexicais, nos referimos a semântica composicional. Por exemplo, na sentença “O jogo foi fora de série.”, “fora”, é uma palavra que geralmente é, semanticamente falando, utilizada para representar algo negativo. “Série”, nessa frase, é absolutamente neutro. Porém, a expressão “fora de série”, se fossemos fazer outra tarefa de classificação de polaridade, indica admiração, algo que realmente foi melhor do que esperavam e, portanto, classificaríamos a sentença como positiva.

Aplicações com Análise de Sentimentos

Existem diversas aplicações práticas para a AS. Imagine possuir uma empresa e desenvolver uma solução que pode analisar o mercado e a competitividade dos produtos similares que outras empresas estão produzindo, ou também entender e identificar os pontos positivos e negativos do seu produto através dos comentários de seus consumidores que são feitos online, ou até mesmo trabalhar em um fator voltado para a política para analisar o sentimento das pessoas acerca daquilo que está sendo feito ou até mesmo entender as dores das pessoas e as reais necessidades sociais e a partir disso tomar decisões mais satisfatórias e assertivas no âmbito político de sua cidade.

O “objetivo” da Análise de Sentimentos é extrair o significado daquilo que a pessoa quis dizer, a associação das palavras, frases e textos e a relação disso com o significante. A compreensão e o estudo acerca dos desafios do PLN são herdados para a AS, principalmente os desafios de sintaxe, semântica e a classificação de polaridade.

https://www.sentisum.com/customer-sentiment-analysis

Desafios da Análise de Sentimentos

Depois de citar o objetivo da AS e os desafios da análise semântica, é importante observar que existem alguns “obstáculos” para que esse objetivo seja alcançado. Alguns deles serão listados abaixo:

1. Sentimentos e opiniões são subjetivos;

2. Dependendo do contexto, as palavras podem ter o sentido contrário;

3. Existe uma enorme quantidade de fontes e formatos para obtenção dos dados;

4. Grande quantidade de linguagem informal;

5. As palavras podem conter duplo sentido.

Outro conceito importante é a definição do nível de granularidade da tarefa proposta. Essa definição pode ser dividida em três níveis para a análise de sentimentos: nível de documento, nível de sentença e nível de entidade.

Quando falamos de nível de documento, estamos nos referindo à análise completa de um texto. Dentro desse nível, a complexidade é de determinar a polaridade total que aquele documento representa. Como existem várias frases dentro de um texto com polaridades diferentes, dizer se ele é positivo, negativo ou neutro em sua totalidade acaba sendo um desafio a mais.

“A minha empresa tem um bom ambiente para se trabalhar, mas o salário é muito ruim.”

No exemplo acima, foi-se extraída uma frase de um texto, onde é possível notar que, apenas nela, foram identificadas polaridades diferentes: “bom”, sendo algo positivo e “ruim”, negativo. Isso corrobora o grande desafio em determinar a polaridade total do texto.

O nível de sentença, como o nome sugere, é a análise da extração da polaridade de apenas uma sentença. Ela pode ser considerada como uma etapa intermediária para a análise de nível de documento, uma vez que a composição de todas as sentenças pode indicar aquilo que o texto quer dizer e qual é a polaridade geral dele.

O nível de entidade (ou aspecto) é aquele em que se busca reconhecer quais são os atributos da entidade principal de determinada opinião. Esse nível é geralmente usado em tarefas de sumarização de opiniões.

Classificação de Polaridade

Agora, trataremos mais especificamente de um problema de polaridade, que envolve entender as opiniões de usuários e classificá-las em um conjunto de classes. Este problema é amplamente estudado e compreendido, pois se trata de algo muito comum no nosso dia a dia. Em diversos lugares, podemos observar um uso muito claro dessa classificação, como: reviews de filmes, livros, aplicativos e produtos nos mais diversos marketplaces.

Uma das divisões que podemos observar é a divisão de três classes: positivo, neutro e negativo. Essas divisões são um grande desafio na análise de sentimentos: quanto maior o número de classes, mais complexos se tornam os métodos de classificação, mesmo para nós seres humanos; pois isso faz com que o custo da anotação de corpora de sentimentos aumente também. As divisões podem chegar a quatro ou até cinco classes.

A imagem anterior exemplifica muito bem a complexidade e os desafios da análise de sentimentos e como são classificadas as polaridades dentro das frases. De um lado, temos “A pizza é muito boa” — o que traz um sentimento positivo em relação à pizza. E do outro lado, “mas a entrega demorou muito” carrega um sentimento negativo em relação ao serviço.

Nesse caso, não conseguimos apenas pela frase saber se, no geral, essa é uma opinião positiva ou negativa. Ela tem seus pontos positivos e também negativos. Mas, como notamos, é possível classificar a polaridade das frases de acordo com as palavras, sentimentos e emoções que elas expressam.

Para concluir, a Análise de Sentimentos, que é uma subárea do Processamento de Linguagem Natural com o objetivo de entender sentimentos, emoções e avaliações a respeito de pessoas, coisas, produtos e outros, tem seus desafios e complexidades em relação à analise semântica de níveis de granularidade.

Classificar a polaridade de frases, textos, documentos, também são problemas enfrentados pela AS, pelo fato de todos eles carregarem consigo opiniões subjetivas e emocionais, podendo elas serem positivas, neutras ou negativas. Uma sentença pode ter tanto “partes” positivas quanto negativas e, pode até existir aquelas em que, apesar de parecerem positivas, dependendo do contexto, se “tornam” negativas.

Neste artigo, introduzimos a fundamentação teórica da Análise de Sentimentos e gostaríamos de convidar a todos a lerem o próximo, onde vamos mostrar uma aplicação prática do que foi abordado neste. Fique atento e não perca!

--

--