Redes de Visão Computacional

Janna Joceli Omena
R-EST
Published in
8 min readSep 22, 2020

Reflexões sobre novas perspectivas e desafios para métodos visuais digitais

// Texto original em inglês publicado pelo InovaMediaLab.
//Tradução: Maíra Ramos Cunha // Revisão: Carlos d’Andréa e J.J.Omena

A história da visualidade da “emergência climática” baseada no resultados da pesquisa de imagens do Google (2008–2019) e a circulação dessa visualidade na internet de acordo com os serviços da Google Cloud Machine Learning. Fonte: https://smart.inovamedialab.org/2020-digital-methods/project-reports/cross-platform-digital-networks/climate-change/ (Visualização da rede com imagens por Giacomo Flaim).

Os produtos de visão computacional baseados na web têm, por muitos anos, servido bem às grandes companhias de tecnologia, bem como a oferta de APIs de Inteligência Artificial e aprendizado de máquina têm crescido exponencialmente. No entanto, as potencialidades da inteligência artificial e os modelos de aprendizagem de máquina para o propósito de estudos de redes digitais ainda são desconhecidos ou pouco explorados. Não há o que culpar por essa falta de exploração, afinal, estamos falando de redes que precisam ser criadas e não de redes moldadas pelas APIs de mídias sociais. Esse é o caso, por exemplo, de quando alguém usa o YouTube Data Tools para visualizar e explorar redes de recomendações relacionadas ao conteúdo de um vídeo ou para mapear afinidades políticas através de redes de canais. As redes de visão computacional vão de encontro a um contexto cada vez mais complexo, pois são construídas sobre:

i) modelos de aprendizado de máquinas pré-treinadas; ii) as vantagens do software e dos dados para construir e “plotar” redes. iii) e, não menos importante, a perspectiva específica do meio proposta por métodos visuais digitais.

Essa tentativa de definir visão computacional deveria falar por si mesma, certo? Afinal, as redes de visão computacional não são tão simples quanto parecem — como a bela visualização acima onde vemos imagens conectadas à “nós”. Nessa rede, vemos as imagens atreladas a “emergência climática” de acordo com os resultados da pesquisa no Google Imagens (entre o ano de 2008 ao mês de julho de 2019). Vemos também os sites de circulação destas imagens de acordo com o módulo de detecção de página da web do Google Vision. A criação e o propósito dessa rede são explicados em outros lugares (aqui e também aqui), mas, agora, o mais importante é entender o que é inerente ao processo de construção e análise desse tipo de rede. Esse, é feito com muitas camadas de mediação técnica, um processo de pesquisa que também viabiliza a existência de métodos visuais digitais.

Esta curta introdução prepara a cena para o meu primeiro artigo no Medium (costumo escrever aqui) que levanta questões como: por que estudiosos de novas mídias deveriam olhar para a visão das APIs para pesquisar redes de imagens? Para que? Como interpretar essas redes? Como pode ter percebido, sim, esse artigo será bastante informativo e descritivo.

No entanto, antes de responder essas questões, há um outro tópico importante para ser destacado, que diz respeito à proposta original de mesclar a visão maquínica e redes para pesquisa social, introduzida por um grupo de designers e pesquisadores em 2017 (Donato Ricci, Gabriele Colombo, Axel Meunier and Agata Brilli) e depois apurada por Gabriele Colombo na sua tese de doutorado. O trabalho deles tem inspirado outros estudiosos, inclusive eu, a explorar redes de visão computacional tanto quanto a se beneficiar com descobertas interessantes fornecidas por essas redes.

Um segundo tópico importante diz respeito aos tipos de serviços que estão sendo oferecidos pelo principais serviços de inteligência artificial e aprendizado de máquina baseados na web. No diagrama abaixo (que não apresenta uma descrição muito detalhada desses serviços), podemos ver os serviços e o ano de lançamento do Amazon Rekognition, Google Vision API, Microsoft Azure, Clarifie e Imagga. A classificação automatizada de imagens com base em rótulos predefinidos e moderação de conteúdo (ou a detecção de conteúdo não seguro, por exemplo, conteúdo sensível, violento ou pornográfico) são os serviços compartilhados por todas as Vision APIs. A detecção e o reconhecimento de rostos e atributos faciais, a análise demográfica e a detecção de celebridades são outras potencialidades oferecidas por visão computacional. Ademais, atributos específicos do Amazon Rekognition me chamaram a atenção, como por exemplo a detecção de rótulos (labels) em um vídeo ou detecção do caminho das pessoas em vídeos armazenados. Este último fornece informações sobre a “localização da pessoa no quadro do vídeo no momento em que seu caminho é rastreado e sobre pontos de referências faciais, como a posição do olho esquerdo quando detectado”.

Um mapa das principais APIs e serviços de visão computacional. Fonte: https://www.slideshare.net/jannajoceli/how-to-read-computer-visionbased-networks-repurposing-machine-learning-to-social-media-research

Por que a visão computacional para estudar redes de imagens?

As APIs de visão computacional baseadas na Web têm, de fato, várias possibilidades, não apenas positivas em termos de tecnologias de redirecionamento, mas também controversas e problemáticas para a pesquisa. No entanto, aqui, irei abordar elementos específicos das APIs de visão computacional e suas potencialidades para pesquisa social e dos meios. Basicamente, veja abaixo três recursos que permitem a criação de redes de imagem:

  1. Classificação de imagem de acordo com categorias predefinidas ou personalizadas, que permitem a construção de redes de imagens e suas camadas descritivas.
  2. A detecção de “entidades da web” em uma imagem, que permite a construção de redes de imagens e suas respectivas entidades da web
  3. A detecção de páginas da web em que uma imagem apareceu, permitindo redes de imagem e seus sites de circulação na web

Enquanto as chamadas image-label networks têm ganhado espaço na pesquisa digital através dos anos por facilitar a interpretação de grandes conjuntos de imagens, as potencialidades das relações entre “as entidades da web e as imagens” (image-web entities network) ou entre os domínios (URLs) e as imagens (image-domain networks) através de redes de visão computacional são ainda pouco exploradas.

Aqui apresento tentativas metodológicas inovadoras que visam desenvolver novas formas de uso e re-apropriação da visão computacional para estudos voltados para redes digitais. Para exemplificar as três redes de visão computacional citadas acima, e também entender suas particularidades, veja a ilustração abaixo:

Engajamento da #microcephaly no Instagram I 10.797 imagens publicadas entre Junho de 2012 e Outubro de 2017. Google Vision API I Módulos: “rótulos”“entidades da web” e “páginas da web”

Para que?

Como a visão computacional pode servir à pesquisa digital? Para que? Quais perguntas de pesquisa podem ser feitas? Para responder essas questões, vamos continuar usando a mesma estrutura apresentada previamente, mas acrescentando informações extras.

  1. image-label networks: classificação da imagem de acordo com categorias predefinidas ou personalizadas que permitem a construção de redes de imagens e suas camadas descritivas. Redes de rótulos de imagens de visão computacional servem como meio para estudar, mapear e explorar as imagens (com base em categorias predefinidas ou personalizadas) e para interrogar o meio (a Vision API em si). Por exemplo, as imagens de polarização política, comunicação institucional, redes de questões, representação cultural etc. Ao fazer isso, também podemos detectar as limitações e os vieses da inerentes à visão computacional.
  2. image-web entities network: a detecção de “entidades da web” em uma imagem permite a construção de redes de imagens de visão computacional e suas entidades da web, que funcionam como meio para estudar, mapear e explorar as imagens de (rótulos obtidos na Web) e para interrogar o meio (a Vision API em si combinada com as culturas de uso dentro do ambiente da Web e sua infraestrutura). Por exemplo, usando os termos descritivos das entidades da web para o estudo de uma coleção de imagens relacionadas à Covid-19 e ao Zika Vírus (por exemplo, diante de uma imagem contendo o mosquito que transmite o Zika Vírus, a Vision API do Google iria trazer categorias como infecção pelo vírus Chikungunya, doenças transmitidas por mosquitos, surto, infecção).
  3. image-domain networks: a detecção de páginas da web em que uma imagem apareceu permitindo criação de redes de imagens a partir de sua circulação na internet. Redes de imagens e domínios servem como um meio para estudar a circulação de imagens (os sites em que as imagens aparecem na web) e os atores relacionados (domínios de links). Além disso, permite a detecção da visualidade que é incorporada pelas plataformas de mídias sociais ou que circula fora delas. Se comparado com as anteriores, as redes de domínio de imagem de visão computacional têm um ponto de vista dinâmico do objeto estudado. Elas também permitem tanto a detecção dos domínios/URLs dominantes dentro da rede (aqueles capazes de reunir a maior quantidade de ocorrências da imagem) quanto a detecção de clusters de domínios que compartilham conteúdo visual similar.

Como interpretar redes de visão computacional?

Esta é definitivamente a questão mais complexa aqui, essa também é a razão pela qual estou escrevendo um artigo acadêmico sobre ela. Então, ao invés de compartilhar soluções, concluo esse artigo do Medium com resultados preliminares que podem ajudar a exercitar a interpretação de redes de visão computacional (veja abaixo).

Fonte: https://www.slideshare.net/jannajoceli/how-to-read-computer-visionbased-networks-repurposing-machine-learning-to-social-media-research

No entanto, também quero dizer que, para interpretar redes de visão computacional, nós deveremos primeiro abordar outro tipo de questão:

O que precede e ocorre com e através das redes de visão computacional?

Na realidade, essa é a questão ou o que nos move a refletir sobre os desafios de usar métodos visuais digitais para pesquisas sociais e de mídia. Vamos dizer que o primeiro passo foi dado, através do fornecimento de uma descrição técnica e de uma definição para redes de visão computacional considerando as suas potencialidades para pesquisa digital. Vamos voltar a falar sobre esse assunto em um futuro próximo?

Se você quiser saber mais sobre affordances das redes de visão computacional para pesquisa digital, dê uma olhada na lista de referências a seguir:

2017

Ricci, D., Colombo, G., Meunier, A., & Brilli, A. (2017). Designing Digital Methods to monitor and inform Urban Policy. The case of Paris and its Urban Nature initiative. In: 3rd International Conference on Public Policy (ICPP3)-Panel T10P6 Session 1 Digital Methods for Public Policy. SGP, 2017. p. 1–37.

Mintz, A. Image Networks: automated analysis of visual content [workshop]. Digital Media Winter Institute 2018. Universidade Nova de Lisboa.

2018

Colombo, G. (2018). The Design of Composite Images: Displaying Digital Visual Content for Social Research (PhD Dissertation). Politecnico di Milano, Milan, Italy. Retrieved from www.politesi.polimi.it/handle/10589/141266

Silva, T.; Barciela, P.; Meirelles, P. Mapeando Imagens de Desinformação e Fake News Político-Eleitorais com Inteligência Artificial. 3o CONEC: Congresso Nacional de Estudos Comunicacionais Da PUC Minas Poços de Caldas — Convergência e Monitoramento, 413–427, 2018. Retrieved from https://conec.pucpcaldas.br/wp-content/uploads/2019/06/anais2018.pdf

2019

Mintz, A., Silva, T., Gobbo, B., Pilipets, E., Azhar, H., Takamitsu, H., … Oliveira, T. (2019). Interrogating Vision APIs. Lisbon. Retrieved from https://smart.inovamedialab.org/smart-2019/project-reports/interrogating-vision-apis DOI: 10.13140/RG.2.2.17204.40323

Omena, J.J., Chao, J., Pilipets, E., Kollanyi, B., Zilli, B., Flaim, G., … Nero, S. (2019). Bots and the black market of social media engagement. https://doi.org/10.13140/RG.2.2.30518.52804

2020

Geboers, M. A., & Van De Wiele, C. T. (2020). Machine Vision and Social Media Images: Why Hashtags Matter. Social Media + Society, 6(2). https://doi.org/10.1177/2056305120928485

Omena, J.J., & Granado, A. (2020). Call into the platform! Revista ICONO14 Revista Científica de Comunicación y Tecnologías Emergentes, 18(1), 89–122. https://doi.org/10.7195/ri14.v18i1.1436

Omena, J. J., Rabello, E. T., & Mintz, A. G. (2020). Digital Methods for Hashtag Engagement Research. Social Media + Society. https://doi.org/10.1177/2056305120940697

Silva, T., Mintz, A., Omena, J. J., Gobbo, B., Oliveira, T., Takamitsu, H. T., … Azhar, H. (2020). APIs de Visão Computacional: investigando mediações algorítmicas a partir de estudo de bancos de imagens. Logos, 27(1), 25.54. https://doi.org/doi:https://doi.org/10.12957/logos.2020.51523

--

--

Janna Joceli Omena
R-EST
Writer for

Digital methods researcher interested in platforms & software studies, technicity-of-the-mediums, digital networks https://thesocialplatforms.wordpress.com/