Trusted Smart Statistics (TSS): como novas fontes de dados irão mudar as estatísticas oficiais

Rodrigo Borges
Plenarium Digital

--

Estatísticas oficiais fornecem à sociedade conhecimento sobre ela mesma. Então, se temos mais dados à disposição, o ideal seria inseri-los na análise para gerar ainda mais conhecimento. Essa é a compreensão de Fabio Ricciato, que liderou a escrita de dois artigos científicos sobre o tema entre o fim de 2019 e junho de 2020: Trusted smart statistics: Motivations and principles e Trusted Smart Statistics: How new data will change official statistics. Ele e seus companheiros do Eurostat (Escritório de Estatística da União Européia) estão em busca de alinhar a origem, computação, análise e publicação de dados entre a centralizada fonte oficial e as diversas novas fontes. No primeiro artigo, Fabio Ricciato está acompanhado pelos colegas Albrecht Wirthmann, Konstantinos Giannakouris, Fernando Reis e Michail Skaliotis. No segundo, quem o acompanha são Albrecht Wirthmann e Martina Hahn.

Em Trusted smart statistics: Motivations and principles (Estatísticas inteligentes confiáveis: Motivações e Princípios), lançam as bases para o que pode vir a ser a melhor forma de interação entre dados coletados por órgãos oficiais e todas as demais fontes (que não são poucas).

A produção de estatísticas oficiais modernas é baseada em uma série de regras e diretrizes desenvolvidas no últimos dois séculos. E, no centro de cada sistema estatístico reside um único Escritório de Estatística (ES) ou uma rede federada do mesmo. Em um mundo com dados escassos, o orçamento de tais escritórios estava direcionado quase que integralmente à aquisição de dados. Mas o mundo mudou e a era digital abre novas vias de acesso a dados. Ao que se chama Big Data (grandes dados), os estudiosos preferem chamar de “new digital data” (novos dados digitais).

Os benefícios da união de forças são muitos: oportunidades melhoradas para aquisição de dados, resolução espacial e/ ou temporal mais fina, maior nível de detalhe, melhor precisão, maior relevância e (possivelmente a longo prazo) menor custo de produção das estatísticas oficiais. Segundo Fabio e time:

Trusted Smart Statistics (TSS) seria a evolução das estatísticas oficiais em resposta aos desafios colocados pela nova sociedade alimentada por dados. Em vários aspectos, essa evolução implica uma mudança de paradigma fundamental em relação ao modelo legado de produção oficial de estatísticas baseado em fontes de dados tradicionais, por exemplo, na relação entre dados e computação, entre coleta de dados e análise, entre desenvolvimento metodológico e produção estatística e, é claro, nos papéis dos vários partes interessadas e suas relações mútuas. Essa evolução complexa deve ser guiada por uma visão abrangente do nível do sistema, com base em princípios de design claramente escritos.

E esses princípios são apresentados no primeiro artigo. Os desafios são metodológicos, técnicos, organizacionais e legais. Também por isso, a equipe propõe uma solução sistêmica com 4 justificativas:

  1. novas fontes de dados não são apenas quantitativamente mais ou maiores que os dados herdados — como o termo popular, mas muitas vezes enganoso, Big Data pode sugerir — mas (também) qualitativamente diferentes em quase todos os aspectos;
  2. eles são gerados por um ecossistema de dados completamente novo, com atores, relações e dinâmicas muito diferentes dos que estão em jogo no contexto de fontes de dados herdadas;
  3. as novas fontes de dados acompanham as novas tecnologias de computação e processamento que não estavam disponíveis no século anterior.
  4. tudo o que está embutido em uma nova estrutura em que a conscientização, percepções, expectativas, atitudes e comportamentos dos cidadãos e das empresas em relação aos dados — em seu duplo papel de sujeitos de dados de entrada e usuários de resultados estatísticos — são profundamente diferentes da era pré-datificação.

Em resumo, o que é totalmente novo não é apenas o conteúdo dos dados, mas também o contexto em torno dos dados.

Indo direto ao ponto, os princípios do desenho da TSS são:

  • Mirar na informação final, não na entrada de dados: para isso, Fabio e time definem “dados” e “informações”, respectivamente, como a entrada disponível e a saída desejada de uma instância de computação genérica. Essa proposta significa trabalhar para diminuir barreiras de limitação de dados com foco no resultado que dados em conjunto podem gerar.
  • Separação clara entre desenvolvimento e produção: aqui usa-se uma metáfora interessante para explicação da proposta. É feita uma analogia ao universo de software, identificando o desenvolvimento metodológico e as etapas de produção para os processos como “escrever o código” e “executar o código”, respectivamente. A ideia é garantir a qualidade das informações com base em um código bem estruturado (que demanda mais conhecimento e especialidade), colaborando para uma execução mais massiva que não demande tanta especialização. Então, a análise de dados pode, inclusive, ser automatizada com base em algoritmos.
  • Dando mais destaque à computação do que aos dados: ou seja, levar o código aos dados em vez de trazê-los para o código. Isso significa facilitar a análise dos dados em suas origens ao invés de reunir tudo num mesmo centro, o que demandaria uma capacidade de análise muito maior.
  • Compartilhar o controle no desenvolvimento: entende-se que essa dinâmica irá aumentar a quantidade de interessados-chaves (stakeholders) com interesses legítimos em como os dados são usados e com que finalidades, incluindo, entre outros, aqueles que os mantêm. Desta forma, transparência e comunicação são importantes para manter o sistema vivo.
  • Compartilhar o controle na produção: uma vez que o código é desenvolvido, precisa-se trabalhar para que o código correto seja aplicado, mas também para que os participantes possam todos confiar na estrutura de compartilhamento.
  • Aproveitar as tecnologias de aprimoramento da privacidade: entre as diversas possibilidades de trocas de dados entre diferentes participantes, é preciso se manter uma estrutura de segurança da informação consistente. Aqui destacam o conceito de Privacy Enhancing Technologies (PET), conhecida também como Privacy-Preserving Computation Techniques (PPCT). São termos genéricos para diferentes métodos e tecnologias que surgiram recentemente na interseção entre criptografia, ciência da computação e sistemas distribuídos.
  • Aumentar a transparência e a responsabilidade: código aberto é uma das chaves para essa nova realidade. O princípio da transparência algorítmica é resgatado do projeto OPAL (OPen ALgorithm), que se concentra no uso de dados privados para o bem público nos países em desenvolvimento.
  • Envolver as partes interessadas externas: o celular aproxima as fontes de dados dos pesquisadores. E os escritores do artigo defendem que os Escritórios de Estatística sejam os centralizadores neste redesenho de interações.
  • Novas estruturas metodológicas: a mudança proposta é profunda, pois visa redesenhar o modelo de interação, levando em consideração a disponibilidade de novos dados, mas também a percepção diferente dos dados. Trata-se de implementar soluções tecnológicas para tornar o uso indevido de dados ilegal e tecnicamente impossível. Trata-se de comunicar o valor da estatística como um pilar da democracia moderna.
  • O ciclo inteligente e confiável: para se proteger contra riscos altos, deve-se estabelecer salvaguardas ainda mais fortes contra o uso indevido de dados do que se faz usualmente, incluindo instrumentos tecnológicos mais rígidos para impor princípios legais e éticos.

Já o artigo How new data will change official statistics (Como novos dados mudarão as estatísticas oficiais) resgata os princípios, mas funciona como um passo seguinte, buscando explicar como as mudanças podem acontecer. Um entendimento básico é de que sistemas antigos não serão eliminados, mas suplementados. Quanto a isso, escreveremos um artigo em separado, pois trata de uma visão que vale a pena debater.

Os conceitos de macro, micro e nano dados são apresentados, indo de grupos a eventos individuais. Conta-se com a emergência de novas tecnologias que facilitem novas dinâmicas, assim como com a participação do celular na viabilização do acesso a dados.

Esse tipo de inovação afeta diretamente órgãos oficiais, mas também empresas de pesquisa, a sociedade civil como um todo e a atividade política. Neste contexto, o Citizen Data Platform ganha ainda mais relevância. Qualquer atividade que tenha como objetivo a reunião de dados pode se tornar fonte de conhecimento, parte de algo maior. Sempre que uma porta nova abre, uma série de oportunidades se apresenta, mas também uma série de riscos. Talvez a TSS esteja abrindo uma porta para uma era de maior colaboração e sintonia. Fica o desejo de que os riscos sejam bem equacionados para obtermos o maior benefício possível enquanto sociedade.

--

--