Rede neural aprende padrões de fala que evidenciam depressão
Para diagnosticar a depressão, os médicos entrevistam os pacientes, fazem perguntas específicas — sobre, digamos, doenças mentais passadas, estilo de vida e humor — e identificam a condição com base nas respostas do paciente.
Nos últimos anos, o machine learning tem sido defendido como uma ajuda útil para diagnósticos, por exemplo, foram desenvolvidos modelos para detectar palavras e entonações da fala que podem indicar depressão. Mas esses modelos tendem a prever que uma pessoa está deprimida ou não, com base nas respostas específicas da pessoa a perguntas específicas. Esses métodos são precisos, mas sua confiança no tipo de pergunta que está sendo feita limita como e onde eles podem ser usados.
Em um artigo apresentado na conferência da Interspeech, os pesquisadores do MIT detalham um modelo de rede neural que pode ser usado em textos brutos e dados de áudio de entrevistas para descobrir padrões de fala indicativos de depressão. Dado um novo assunto, ele pode prever com precisão se o indivíduo está deprimido, sem precisar de qualquer outra informação sobre as perguntas e respostas.
Os pesquisadores esperam que este método possa ser usado para desenvolver ferramentas para detectar sinais de depressão em conversas naturais. No futuro, o modelo poderia, por exemplo, impulsionar aplicativos móveis que monitoram o texto e a voz de um usuário em busca de sofrimento mental e envio de alertas. Isso pode ser especialmente útil para aqueles que não conseguem chegar ao médico para um diagnóstico inicial, devido à distância, custo ou falta de consciência de que algo pode estar errado.
“As primeiras dicas que temos de que uma pessoa é feliz, empolgada, triste ou tem alguma condição cognitiva séria, como depressão, é através da fala”, diz o primeiro autor Tuka Alhanai, pesquisador do Laboratório de Ciência da Computação e Inteligência Artificial ( CSAIL). “Se você quer implantar modelos (de detecção de depressão) de maneira escalável … você vai minimizar a quantidade de restrições que você tem nos dados que está usando. Você deve implantá-los em qualquer conversa regular e fazer o modelo aprender, de forma natural, o estado psicológico do indivíduo “.
A tecnologia ainda pode, é claro, ser usada para identificar problemas mentais em conversas informais em clínicas, acrescenta o coautor James Glass, pesquisador sênior do CSAIL. “Cada paciente vai falar de forma diferente, e se o modelo vir mudanças, talvez seja uma bandeira para os médicos”, diz ele. “Este é um passo em frente para ver se podemos fazer algo assistivo para ajudar os médicos.” O outro co-autor do artigo é Mohammad Ghassemi, membro do Instituto de Engenharia Médica e Ciência (IMES).
Modelagem sem contexto
A principal inovação do modelo está em sua capacidade de detectar padrões indicativos de depressão e, então, mapeá-los para novos indivíduos, sem informações adicionais. “Nós o chamamos de ‘livre de contexto’, porque você não está colocando restrições nos tipos de perguntas que está procurando e no tipo de respostas a essas perguntas”, diz Alhanai.
Outros modelos recebem um conjunto específico de perguntas e, em seguida, dão exemplos de como uma pessoa sem depressão responde e exemplos de como uma pessoa com depressão responde — por exemplo, a pergunta direta: “Você tem um histórico de depressão?” Ele usa essas respostas exatas para determinar se um novo indivíduo está deprimido quando perguntado exatamente a mesma pergunta. “Mas não é assim que as conversas naturais funcionam”, diz Alhanai.
Os pesquisadores, por outro lado, usaram uma técnica chamada modelagem de sequência, usada frequentemente para processamento de linguagem natural (PLN). Com esta técnica, eles alimentaram as sequências do modelo de texto e dados de áudio de perguntas e respostas, de indivíduos deprimidos e não deprimidos, um por um. À medida que as sequências se acumulavam, o modelo extraía padrões de fala que surgiam para pessoas com ou sem depressão. Palavras como, por exemplo, “triste”, “para baixo” ou “chateado”, podem ser emparelhadas com sinais de áudio mais planos e monótonos. Indivíduos com depressão também podem falar mais devagar e usar pausas mais longas entre as palavras. Esses identificadores de texto e áudio para sofrimento mental foram explorados em pesquisas anteriores. Em última análise, foi até o modelo para determinar se os padrões eram preditivos de depressão ou não.
“O modelo vê sequências de palavras ou estilo de fala e determina que esses padrões são mais propensos a serem vistos em pessoas que estão deprimidas ou não deprimidas”, diz Alhanai. “Então, se ele vê as mesmas sequências em novos assuntos, pode prever se eles estão deprimidos também.”
Essa técnica de sequenciamento também ajuda o modelo a analisar a conversa como um todo e observar as diferenças entre como as pessoas com e sem depressão falam ao longo do tempo.
Detecção da depressão
Os pesquisadores treinaram e testaram seu modelo em um conjunto de dados de 142 interações da entrevista de análise que contém entrevistas em áudio, texto e vídeo de pacientes com problemas de saúde mental e agentes virtuais controlados por seres humanos. Cada sujeito é avaliado em termos de depressão em uma escala entre 0 e 27, usando o Questionário de Saúde Pessoal. Escores acima de um ponto de corte entre moderado (10 a 14) e moderadamente grave (15 a 19) são considerados deprimidos, enquanto todos os outros abaixo desse limiar são considerados não deprimidos. De todos os participantes do conjunto de dados, 28 (20 por cento) são rotulados como deprimidos.
Nos experimentos, o modelo foi avaliado usando métricas de precisão e recall. A precisão mede quais dos indivíduos deprimidos identificados pelo modelo foram diagnosticados como deprimidos. Recall mede a precisão do modelo em detectar todos os indivíduos que foram diagnosticados como deprimidos em todo o conjunto de dados. Em precisão, o modelo marcou 71% e, no recall, teve 83%. A pontuação combinada média dessas métricas, considerando os erros, foi de 77%. Na maioria dos testes, o modelo dos pesquisadores superou quase todos os outros modelos.
Uma das principais descobertas da pesquisa, observa Alhanai, é que, durante os experimentos, o modelo precisava de muito mais dados para prever a depressão do áudio do que o texto. Com o texto, o modelo pode detectar com precisão a depressão usando uma média de sete sequências de perguntas e respostas. Com áudio, o modelo precisou de cerca de 30 sequências. “Isso implica que os padrões em palavras que as pessoas usam que são preditivos de depressão acontecem em um intervalo de tempo mais curto no texto do que no áudio”, diz Alhanai. Tais percepções poderiam ajudar os pesquisadores do MIT e outros, a refinar ainda mais seus modelos.
Este trabalho representa um piloto “muito encorajador”, diz Glass. Mas agora os pesquisadores buscam descobrir quais padrões específicos o modelo identifica em dezenas de dados brutos. “Agora é uma caixa preta”, diz Glass. “Esses sistemas, no entanto, são mais convincentes quando você tem uma explicação sobre o que eles estão captando. O próximo desafio é descobrir em quais dados ele é aproveitado.”
Os pesquisadores também pretendem testar esses métodos em dados adicionais de muitos outros indivíduos com outras condições cognitivas, como a demência. “Não é tanto detectar a depressão, mas é um conceito semelhante de avaliar, a partir de um sinal cotidiano na fala, se alguém tem comprometimento cognitivo ou não”, diz Alhanai.
Fonte: http://groups.csail.mit.edu/sls/publications/2018/Alhanai_Interspeech-2018.pdf
Originally published at tudosobrerobos.com.br on September 3, 2018.