Como especialistas podem ensinar o Watson? Anotações humanas no WKS.

Renato dos Santos Rosa Leal
As Máquinas que Pensam
5 min readMar 28, 2017

Você pode pensar que o título deste artigo é grande mas garanto que é proporcional a importância desta etapa no processo de treinar o Watson =)

O objetivo do que estamos fazendo nesta etapa é transferir o conhecimento dos seus melhores especialistas para o Watson de modo que ele se torne um deles.

Lembrando que este é o quarto artigo de uma série sobre o Watson Knowledge Studio, talvez seja interessante visitar a parte 1, parte 2 ou parte 3.

Visão geral desta etapa

Esta etapa se assemelha bastante ao processo de um especialista pegar uma série de documentos, sublinhar os termos mais importantes com marca texto e depois adicionar uma pequena descrição para cada um. Após feitas todas as marcações nos documentos de exemplo teremos então o que chamamos de “Ground Truth”, o conhecimento base do nosso sistema.

Fluxo de Anotações

Com esse conhecimento base podemos então treinar o nosso modelo através de aprendizado supervisionado (supervised machine learning). O sistema aprende a identificar termos e relacionamentos importantes nos textos para que possa depois aplicar este aprendizado em novos textos.

A anotação humana

Até agora você já selecionou um domínio, criou um type system, separou documentos relevantes e definiu tarefas. Tudo isso foram passos administrativos para que pudêssemos treinar o modelo de machine learning sobre nosso domínio.

Agora cada um dos seus especialistas entrará na solução e verá uma tarefa específica para ele, ao clicar na mesma teremos uma lista de documentos que deverão ser anotados.

Clica os então no documento e nos deparamos com a tela de anotação (Annotator View). O fluxo que normalmente sigo é o seguinte:

entidades -> relacionamentos -> correferências

É nessa tela que anotaremos as menções (ocorrências de certos termos) e explicaremos para o sistema o que cada uma delas significa.

Começamos então pelas entidades clicando na palavra Apple e depois selecionado o tipo MARCA nas entidades (menu direito), seguimos para classificar o modelo do iPhone que é uma palavra composta (iPhone 7 Plus) e para selecioná-la basta clicar nas três palavras individualmente ou então selecionar a primeira e arrastar a margem da direita para o lado. Faremos isso até marcar todas as palavras importantes.

Anotação de menções de entidades

O próximo passo é selecionar a visão de relacionamentos no menu da esquerda e clicar em uma entidade marcada anteriormente (você só pode fazer relacionamentos entre menções) e então em outra entidade selecionando por último o tipo do relacionamento que entre elas.

Para isso clicamos primeiro na menção de Apple e depois na menção do iPhone 7 Plus para então selecionar o tipo “fabrica” de relacionamento.

Se você está prestando atenção até aqui então deve ter achado estranho marcamos a palavra “Ele” como MODELO (duas imagens acima) mas o que acontece é que essa ocorrência de “Ele” faz menção ao iPhone 7 Plus, ou seja, faz menção a um modelo de celular e por isso da marcação. E por que isso é importante?

Quando temos exemplos simples, de apenas uma sentença (uma linha), então a marcação de relacionamentos é tranquila, mas o Knowledge Studio não permite a marcação de relacionamentos entre entidades que estão em sentenças diferentes (linguisticamente seria errado se marcássemos) então como eu poderia ensinar para o Watson, nesse exemplo, que a câmera do iPhone é incrível?

Primeiro marcamos todos os relacionamentos, explicando para o Watson que “Ele” possui uma câmera incrível.

O que precisamos fazer agora é explicar, como dissemos acima, que “Ele” faz referência a iPhone 7 Plus. O modo que fazemos isso é através das correferências, nela criamos o link entre duas menções de um mesmo tipo de entidade para explicar ao Watson que elas fazem referência ao mesmo objeto.

Os passos são: acessar o menu de correferências na esquerda, clicar em iPhone 7 Plus e então clicar duas vezes em “Ele”, você provavelmente obterá uma tela como essa:

Pronto! Agora você finalizou a anotação de seu primeiro documento, todas menções, relacionamentos e correferências estão devidamente marcados. Você pode então salvar o documento para futuras alterações selecionando “In Progress” no menu horizontal na direita ou então selecionar “Completed” caso não vá realizar alterações nas marcações deste documento (cuidado, depois de clicar em “completed” não terá como desfazer essa opção).

Finalizando

Agora basta você clicar em “Close” e repetir o processo acima para todos os documentos da sua tarefa.

Quando todos os documentos estiverem marcados como “Completed” aparecerá a opção de aceitar ou rejeitar aqueles documentos em sua tarefa. Selecione o conjunto que você anotou e pronto! Você já pode treinar o seu modelo.

OBS: caso você esteja trabalhando com mais que um especialista anotando estes documentos então você poderá utilizar os botões “Calculate Inter-Annotator Agreement” e “Check Overlapping Documents for Conflicts” de modo a verificar se as anotações estão sendo realizadas de maneira uniforme.

No próximo, e último, artigo desta série falaremos sobre como treinar o seu modelo e como utilizá-lo na API do Natural Language Understanding.

--

--