Inserindo dados no Watson Knowledge Studio

Renato dos Santos Rosa Leal
As Máquinas que Pensam
4 min readMar 28, 2017

Este é o terceiro artigo de uma série sobre o Watson Knowledge Studio. Você pode encontrar uma introdução ao produto aqui e uma explicação sobre o modelo de conhecimento aqui.

A ingestão de documentos

Antes que possamos fazer as anotações em nossos documentos precisamos selecionar aqueles que utilizaremos para treinar o Watson. É muito importante que os documentos selecionados sejam representativos do seu domínio.

Dica #1: No meu projeto um dos problemas foi que os documentos escolhidos possuíam muitos exemplos positivos e poucos negativos o que acabou acabou gerando mais trabalho (foi necessário adicionar mais documentos) e afetou a assertividade do modelo.

Dica #2: Outro problema foi a existência de documentos que não possuíam termos interessantes para o modelo e que passavam em branco, gerando apenas mais trabalho.

Segue um exemplo de documento que não ajuda na nossa análise pois não fala diretamente de celular:

Considerando as dicas #1 e #2 é interessante gastar um tempo selecionando bem os documentos e fazendo uma limpeza neles (dica #3).

Dica #3: É importante ter em mente que o WKS é uma ferramenta linguística para a análise de texto corrido, escrito em linguagem natural e não uma solução para processar documentos. E o que isso significa?

Significa que ele talvez não seja a melhor solução para processar formulários e documentos semi-estruturados como tabelas e outros. Mas se mesmo assim você ainda quiser analisar o texto dentro de uma tabela ou algo do tipo então tenha em mente que você precisará de uma boa etapa de pré-processamento antes de enviar o documento para o WKS. (Talvez isso valha um artigo para uma outra hora).

Tenha em mente que o WKS não resolverá todos os seus problemas ao processar um documento, você provavelmente precisará de etapas de pré e pós-processamento.

Obs: os textos deverão estar no formato .txt em UTF-8 (você pode fazer esse tipo de conversão com o notepad++).

Algumas dicas sobre o tamanho da sua amostra

  • Não existe um número certo de documentos para uma amostra no WKS. Isso varia bastante com o domínio mas é bom ter em mente que serão centenas. Em um projeto de tamanho médio é recomendado ter +- 300 mil palavras nos seus exemplos.
  • Procure ter pelo menos 50 menções/exemplos de cada entidade e relacionamento.
  • Não utilize documentos muito longos pois a anotação se tornará uma tarefa chata. Tente ficar próximo de mil caracteres.
  • Anote primeiro uma quantidade pequena de documentos, dez por exemplo, para verificar se todas as pessoas que estão trabalhando naquele texto possuem o mesmo entendimento sobre o modelo existente. Depois disso vá aumentando o número até se sentir confortável que a anotação entre múltiplas pessoas está parecida.

Annotation Sets

Agora que você já possui os documentos em mãos devemos entrar na ferramenta e realizar as seguintes tarefas:

#1 — Importar os documentos através da aba “Documents” clicando no botão “Import Document Sets”.

É possível importar vários documentos de uma vez mas devemos nos atentar que isso criará um conjunto único com todos esses documentos.

#2 — Criar um conjunto de anotação clicando no botão “Create Annotation Sets”

Nesta etapa você poderá selecionar quais os conjuntos de documentos serão utilizados para treinar o Watson e quais pessoas realizarão a tarefa de anotação neste conjunto. Além disso é aqui que definiremos o nível de sobreposição entre as anotações.

A sobreposição é importante pois garante que um número mínimo de documentos terão anotações realizadas por duas pessoas de modo que possamos verificar se as pessoas estão anotando os textos de maneira uniforme ou não.

No exemplo temos 20% de sobreposição entre 250 documentos divididos entre duas pessoas, ou seja, cada um receberá 175 documentos para anotar.

Como última parte desta etapa você deve criar tarefas para que seus especialistas possam trabalhar: vá na aba “Human Annotation”, clique em “Add Task”, dê um nome e um prazo para a tarefa e selecione os conjuntos que você acabou de criar.

--

--