Machine Learning e Deep Learning: criando visualização de textos com o TextVis

Escrito por Juliana Freitas

Rodrigo Medeiros
datavizbr
5 min readFeb 2, 2022

--

Uma das formas mais complexas e ricas de trabalho com informações é o uso de Machine Learning e do Deep Learning para contar histórias por meio da visualização de dados. Existem alguns recursos para criar o data storytelling, dentre ele, o TextVis.

Por meio do TextVis é possível criar visualizações de dados através dos textos. A ferramenta foi desenvolvida por Kostiantyn Kucher e Andreas Kerren do Grupo ISOVIS, Linnaeus University na Suécia. O TextVis utiliza do Machine Learning e Deep Learning para organizar os dados, encadeando informações complexas em diversos tipos de gráfico, tais como de geolocalização, gráficos de pizza, de colunas, nuvens de palavras, entre outros. Uma grande vantagem é que, além de auxiliar a organizar a informação para criar infográficos, TextVis também pode ser utilizado como referência acadêmica. Para citar este recurso, os autores recomendam que citem o artigo curto IEEE PacificVis 201 e o resumo do IEEE VIS 2014.

Alguns exemplos de aplicações de análise textual em gráficos por meio do TextVis:

1. Narração e marcações temporais em filmes (que não têm marcação de tempo linear)

Story Explorer: Uma abordagem de Streamgraph multiresolução para explorar séries temporais hierárquicas.

Mais do que se trata, de acordo com os autores: Curvas de histórias, uma técnica de visualização para explorar e comunicar narrativas não lineares em filmes. Uma narrativa não linear é um dispositivo de contar histórias que retrata eventos de uma história fora de ordem cronológica, por exemplo, em ordem inversa ou indo e voltando entre eventos passados ​​e futuros. Muitos filmes aclamados empregam padrões narrativos únicos que, por sua vez, inspiraram outros filmes e contribuíram para a análise mais ampla dos padrões narrativos nos filmes. No entanto, entender e comunicar narrativas não lineares é uma tarefa difícil devido às complexas rupturas temporais na ordem dos eventos, bem como à ausência de registros explícitos que especifiquem a ordem temporal real da história subjacente.

As curvas de história visualizam a narrativa não linear de um filme mostrando a ordem em que os eventos são contados no filme e comparando-os com sua ordem cronológica real, resultando em padrões visuais possivelmente sinuosos na curva. Apresentamos também o Story Explorer, uma ferramenta interativa que visualiza uma curva da história juntamente com informações complementares, como personagens e cenários. O Story Explorer fornece ainda uma interface de curadoria de scripts que permite aos usuários especificar a ordem cronológica dos eventos nos filmes. Usamos o Story Explorer para analisar 10 filmes não lineares populares e descrever o espectro de padrões narrativos que descobrimos, incluindo alguns novos padrões não descritos anteriormente na literatura.

O feedback de especialistas destaca casos de uso em potencial na redação e análise de roteiros, educação e produção de filmes. Um estudo de usuário controlado mostra que usuários sem experiência são capazes de entender padrões visuais de narrativas não lineares usando curvas de histórias.

Nam Wook Kim, Benjamin Bach, Hyejin Im, Sasha Schriber, Markus Gross, and Hanspeter Pfister. Visualizing Nonlinear Narratives with Story Curves. IEEE Transactions on Visualization and Computer Graphics, vol. 24, no. 1, pp. 595–604, 2018.

2. Popularidade de um tweet no tempo e no espaço

Exploração visual de variações espaciais e temporais da popularidade do tópico do tweet

Do que se trata, de acordo com os autores: Abordagem analítica visual para explorar a variação da popularidade do tópico nas mídias sociais (como o Twitter) ao longo do espaço e do tempo. Inclui um pipeline analítico e uma ferramenta de visualização de múltiplas visualizações. Como tentativas de extração de tópicos de textos muito curtos, como tweets, podem não produzir resultados significativos, agregamos os textos antes de aplicar as técnicas de modelagem de tópicos. As visualizações interativas suportam a detecção de eventos de explosão em atividades de postagem de mídia social em diferentes locais, mostram os aspectos espaciais, temporais, quantitativos e semânticos desses eventos e permitem que o usuário explore como a popularidade dos tópicos varia ao longo das cidades e do tempo. Um estudo de caso foi realizado usando um conjunto de dados de tweets do mundo real.

Jie Li, Siming Chen, Gennady Andrienko, and Natalia Andrienko. Visual Exploration of Spatial and Temporal Variations of Tweet Topic Popularity. Proceedings of the EuroVis Workshop on Visual Analytics (EuroVA), pp. 7–11, 2018.

3. O “ritmo dos tópicos”: Evolução de variáveis ao longo do tempo, como se distribui e como podem ser aplicadas na medicina, finanças e outros

MultiStream: Uma abordagem de Streamgraph multiresolução para explorar séries temporais hierárquicas

Do que se trata, de acordo com os autores: Séries temporais múltiplas são um conjunto de múltiplas variáveis ​​quantitativas que ocorrem no mesmo intervalo. Eles estão presentes em muitos domínios, como medicina, finanças e manufatura para fins analíticos. Nos últimos anos, a visualização de streamgraph (evoluída do ThemeRiver) tem sido amplamente utilizada para representar padrões de evolução temporal em várias séries temporais. No entanto, tanto o streamgraph quanto o ThemeRiver sofrem com problemas de escalabilidade ao lidar com várias séries temporais. Para resolver este problema, várias séries temporais podem ser organizadas em uma estrutura hierárquica onde as séries temporais individuais são agrupadas hierarquicamente de acordo com sua proximidade. Neste artigo, apresentamos uma nova abordagem baseada em streamgraph para transmitir a estrutura hierárquica de várias séries temporais para facilitar a exploração e comparações da evolução temporal. Com base em uma técnica de foco + contexto, nosso método permite a exploração de séries temporais em diferentes granularidades (por exemplo, da visão geral aos detalhes). Para ilustrar nossa abordagem, dois exemplos de uso são apresentados.

Erick Cuenca, Arnaud Sallaberry, Florence Y. Wang, and Pascal Poncelet. MultiStream: A Multiresolution Streamgraph Approach to Explore Hierarchical Time Series. IEEE Transactions on Visualization and Computer Graphics, vol. 24, no. 12, pp. 3160–3173, 2018.

Sobre a autora:
Juliana Freitas, potiguar radicada em São Paulo. De humanas, mas também de dados. Graduada em Marketing pela Universidade Cruzeiro do Sul e Data Science Analytics em empresas, com foco em insights vindos dos dados para marcas e enterprises. Tem o projeto do dataismo blog em que escreve sobre dados o www.dataismo.com.br

--

--

Rodrigo Medeiros
datavizbr

Interaction Designer and Professor, PhD. Curator at @datavizbr. #ux #dataviz