Dando significado ao conteúdo digital!

Peter Krauss
Open Knowledge Brasil
8 min readJul 14, 2017

Parece papo cabeça, meio acadêmico, mas não é… Até a Globo do Brasil investe internamente milhares de reais em marcação semântica dos seus conteúdos. BBC, CNN, Apple, IBM, Amazon, União Européia e outros tantos já vinham investindo há tempos… Agora até você, mesmo sendo um microempreendedor individual (MEI), pode investir em marcar as páginas e os dados do seu empreendimento com um pouco de semântica.

[fonte: apprize.info]

Cada título, imagem ou parágrafo do texto da sua página pode ser marcado com o seu devido significado.

Se um bloco de conteúdo descreve uma pessoa, marca-se esse bloco com Person. Dentro dele, a imagem com a foto da pessoa em questão, é marcada como photo. Ao lado, a frase que descreve o cargo, com jobTitle… E assim por diante.

Planilhas de dados, aquelas que parecem grego e só os especialistas entendem, passam a ter as suas colunas desencriptadas, inteligíveis, fazendo uso do mesmo padrão.

Vale tanto para o conteúdo público — ou seja, para o mundo achar o seu conteúdo com mais eficiência — como para o conteúdo privado, para organizar as informações do seu empreendimento… Para conectar dados por meio de significados! Os padrões e ferramentas são os mesmos, não importa se o acesso é público ou se fica escondido.

De onde veio isso? Desde quando?

Foi por volta do ano 2001 que nasceu a Web Semântica, mas só na década de 2010 começou a fazer sucesso e ser mais usada.

O que garante o funcionamento dessa tecnologia são os chamados vocabulários semânticos (por vezes ditos “ontologias”).

LOV da OKFN

Há uma imensa diversidade de vocabulários e, infelizmente, eles ficam ilhados por falta de padronização…

A Open Knowledge, que mantém a Rede pelo Conhecimento Livre, até criou o projeto LOV para ajudar a destacar os vocabulários mais bem interligados (citados para fins de reutilização ou endosso) com os demais.

A maioria são vocabulários especializados e limitados (a ~100 ou menos conceitos). Alguns vocabulários “pegaram” e outros não. Na figura, o rótulo do vocabulário é apresentado em um círculo de área proporcional ao número de vezes que ele foi citado pelos demais vocabulários.

A citação não reflete necessariamente o número de usuários diretos do vocabulário, mas reflete a sua relevância no “ecossistema” da Web Semântica. Hoje por volta de 6 milhões de domínios (e mais de um bilhão de páginas!) fazem uso do padrão RDF para expressar semântica. Entre eles, o mais utilizado na Web é o SchemaOrg, com o qual ilustramos a marcação. A abreviação “schema” no diagrama LOV até mostra que ele também é citado por outros vocabulários, mas sua relevância é milhares de vezes maior que a média dos demais, numa análise de volume de uso direto.

Palavras-chave sozinhas não dão significado

Porque foi preciso dizer que “Mike Rowe Formatte” é o name da Person lá da foto barbuda do inicio deste artigo? Por vários motivos:

  • Agrupar as palavras “Mike”, “Rowe” e “Formatte” como um só termo-chave, sem misturar com “The Big”. Idem se fosso agrupar texto solto, por exemplo meio ambiente como um só termo.
  • Reforçar que é um nome próprio, não substantivo comum.
    Fica estabelecido que é para ser interpretado como nome de gente, não nome de rua, ou nome de produto, ou título de filme, etc.
  • Estabelecer que é o tema de toda aquele bloco de conteúdo.

As palavras sozinhas permitem indexar e fazer estatísticas, mas não vão muito além na hora de estabelecer contexto, estrutura e remover ambiguidades. E há além disso, com a marcação, a oportunidade de o autor realçar o significado do que ele queria dizer — em texto legislativo e contratos isso é fundamental, e já começa a ser empregado.

Empresas gigantes como IBM e Google até conseguem deduzir, por meio de algoritmos estatísticos caríssimos e imensos bancos de dados, algumas dessas coisas listadas… Mas além da baixa confiabilidade da análise de palavras-chave ou (mais complexo) da análise linguística, isso nos torna reféns dessas gigantes.

A marcação semântica traz de volta a soberania do autor — que indica a interpretação correta sobre sua obra — e o equilíbrio de mercado, permitindo que qualquer jovem nerd ou pequena empresa possam também extrair informação relevante e confiável da internet, por sua conta e sua análise.

Rede de conceitos

Cada palavra pode ter vários significados. Os dicionários gerais, tipo Aurélio ou Houaiss, que incluem cada significado, existem desde ~1600. Satisfazem muitos usuários, mas descrever significados é tarefa delicada e inglória: é impossível satisfazer a todos os leitores, sempre restarão dúvidas e ambiguidades. A escolha do significado é delicada, depende do contexto.

Foi percebendo essa dependência, que o lexico-grafista P. M. Roget sacou que
a “rede semântica” é mais importante do que a descrição.
Em 1805, ele lançou o primeiro tesauro: um catálogo de palavras relacionando sinônimos, termos gerais, termos específicos e termos relacionados.

O tesauro foi um sucesso entre os ingleses que, por fim, puderam relembrar das palavras por meio de seu parentesco semântico, não apenas pela grafia; e com uma ferramenta que não se prendia apenas à ordem alfabética.

Sujeito, predicado e objeto

Aprendemos essas coisas na escola, desde a década de 1970. Em todas as línguas, jovens de todas as nações são obrigados a aprender… E reclamar da chatice da análise sintática… Mas ela é um dos fundamentos do discurso e da lógica, e a estrutura sujeito-predicado-objeto foi por fim, nos anos 2000, padronizada também na Web, para que seres humanos e máquinas possam entender uma frase da mesma forma.

É o padrão RDF de 1997 (atualizado em 2004 e 2014). Nos exemplos do início do texto, vemos a foto de um senhor barbudo, o Mike:

Contexto: bloco de conteúdo descrevendo uma Person.
Sujeito (implícito pelo contexto): a pessoa (Person) em questão.
Predicado: “cujo nome é”, ou seja name; objeto: Mike Tal Tal.
Predicado: “cujo e-mail é”, mail; objeto: mike@barbudos.org.br.
Predicado: “está nesta foto”, photo; objeto: endereço da foto (URL).

Com esse padrão simples constroem-se redes semânticas padronizadas!
O número de fatos consensuais (verdadeiros) descritos por redes semânticas públicas, auditadas, sólidas e confiáveis cresceu imensamente.
É por isso que já existem ferramentas poderosas de inteligência artificial, tais como o Wolfran Alpha ou o Watson da IBM; e que bancos de dados, buscadores, etc. têm ficado mais amigáveis e inteligentes.

Mais um exemplo de rede semântica, sujeito-predicado-objeto, com vocabulário SchemaOrg. As propriedades iniciam por minúsculas. Repare que a propriedade name adquire sua semântica (nome do time ou nome do jogador) pelo contexto expresso pela respectiva classe, SportsOrganization ou Person. [fonte: dataliberate.com]

História da história

Olhando para o diagrama LOV acima, percebemos, em maior destaque, dcterms, dce, foaf, e skos. Não é por acaso: eles estão na origem de todos os vocabulários semânticos — padronizados e expressos com RDF.

O LOV, como vimos, destaca o quanto um vocabulário é citado (linkado) por outros vocabulários. A rede tecida entre os vocabulários RDF, neste caso, é uma “rede de consolidação”, que dá consistência e estabilidade ao todo.

Tesauros especializados e esquemas padronizados para catalogação de metadados vêm sendo usados pelos biblioteconomistas, antes e depois da era digital. Foram eles que criaram o mais sólido e bem conectado vocabulário de catalogação bibliográfica, o Dublin Core, cuja sigla DC designa o vocabulário atual (~2012) DCterms e o original DCe de 1995.

Em seguida, o LOV destaca como mais conectado o FOAF, um vocabulário que nasceu como experimento do DanBri para descrever em RDF pessoas e redes de amigos (Friend Of A Friend), inspirado no importante padrão vCard, do final da década de 1990. Foi um sucesso, turbinado pela febre das redes sociais. Ele e o RVGuha, que assinam como editores da padrão RDF no W3C, se tornaram mais tarde coordenadores do SchemaOrg.

O terceiro, SKOS, é um vocabulário para a construção de vocabulários; é um padrão W3C que nasceu na mesma época que o próprio RDF. Mesmo tendo poucos elementos (~30), eles são sempre citados por outros vocabulários.

Enfim: foi construído um “ecossistema de vocabulários conectados” consistente e estável, que permite expressar conceitos em RDF.

Wikipedia, a mãe de todos os conceitos

Mesmo com dezenas de vocabulários especializados, fica difícil imaginar que sejam capazes de expressar todos significados de todas as coisas. Essa tarefa herculeana de expressar cada conceito ficou a cargo da Wikipedia.

Em 2012, a Wikipedia Foundation iniciou um projeto independente e focado na representação RDF dos conceitos. Além dos conceitos trazidos automaticamente da Wikipédia, a comunidade pode criar novos itens na Wikidata.

Um projeto independente, de 2007, que mais tarde (2017) veio a se fundir com a Wikidata, foi a DBpedia: sua tarefa básica é extrair informação semântica dos artigos da Wikipedia, e dessa extração também surgiu um vocabulário, que veio a estabilizar e reforçar a Wikidata.

SchemaOrg, o vocabulário pragmático

O vocabulário Wikidata é uma construção coletiva aberta e, tal como a Wikipedia, durante seu (eterno) desenvolvimento ficam lacunas e rascunhos. Quem precisa de algo “definitivo, confiável e prá já”, não pode usar a Wikidata, e não pode contar com os vocabulários dispersos e altamente especializados de outras fontes (aqueles catalogados no LOV). Precisa de um só com todos ou a maioria dos conceitos requeridos da aplicação.

Lançado pouco antes da Wikidata, o SchemaOrg foi a resposta dos grandes gestores de conteúdo de 2011: Google, Yahoo, Bing e Yandex formaram um consórcio. Deu certo, e outros empreendimentos como GoodRelations e OpenCyc se uniram ao SchemaOrg… Daí em diante, todos os anos a comunidade SchemaOrg avalia, adapta e homologa novos vocabulários para que sejam oficialmente incorporados.

São iniciativas complementares, tanto no modus operandi (crowdsourcing vs curadoria) quanto na forma de expressar significados: intensiva vs extensiva. Itens do vocabulário Wikidata, quando obtidos de conceitos da Wikipedia, apresentam naturalmente uma definição intensiva; itens do SchemaOrg, displicentes nas definições, têm seu lastro semântico está na extensividade das amostras (obrigatórias para a incorporação).

Ponte da felicidade: Wikidata-SchemaOrg

Não é simples, e está sendo construída de ambos os lados: os dois principais vocabulários da Web Semântica podem ficar firmemente atados e se reforçarem, através de mapeamentos, ou seja, da citação mútua,

  • Wikidata citando SchemaOrg: as vinculações (links) são editados diretamente pelo público, ~40% do core do SchemaOrg já está sendo citado pela Wikidata.
  • SchemaOrg citando Wikidata: a comunidade SchemaOrg e seus coordenadores (DanBri e RVGuha) precisam aprovar a citação. Está entre as metas, em uma longa discussão, ainda ativa, travada na issue #280.

Mais detalhes: veja e contribua (!) com o Projeto schemaOrg-Wikidata-Map, tocado por colaboradores da OKBr e da DBpedia-Português.

Principais projetos semânticos… Se ainda não conhece, não deixe de visitar os links: pelo menos DBpedia.org, Schema.org e Wikidata.org.

--

--