Fomentando a inovação no PLN pela reciclagem dos modelos IA já treinados

Pierre Guillou
3 min readFeb 1, 2021

--

Várias tarefas em PLN (fonte da imagem: Top 5 Semantic Technology Trends to Look for in 2017)
Várias tarefas em PLN (fonte da imagem: Top 5 Semantic Technology Trends to Look for in 2017)

Este artigo se propõe a identificar boas práticas sobre o compartilhamento de modelos de PLN já treinados para fomentar a inovação na IA, ​​em particular para os países com um idioma diferente do inglês. Na verdade, assim como acontece com a reciclagem ecológica, o compartilhamento online de modelos de PLN ajuda a criar valor como novos modelos, aplicativos ou serviços.

Contexto

Se os modelos de inteligência artificial aplicados à linguagem natural — seja os modelos de PLN (Processamento de Linguagem Natural) — têm todos uma ou mais versões em inglês (os motivos são múltiplos, mas já podemos citar: a origem muitas vezes americana de seus criadores, a quantidade alta de conjuntos de dados em inglês presentes na Internet, o considerável investimento em IA nos EUA), nem todos possuem versão nos demais idiomas e, quando existe, nem sempre está disponível online.

Essa situação é prejudicial para o uso de IA em países de língua não inglesa, como, por exemplo, países de língua portuguesa, incluindo Portugal ou Brasil, o que pode ter consequências econômicas e sociais ruins em um futuro próximo.

Por exemplo, como melhorar a busca em sites e bases de dados textuais no Brasil se os modelos de PLN não estiverem disponíveis em português? (podemos citar os modelos QA sabendo encontrar a resposta a uma pergunta em um texto; modelos NER sabendo categorizar palavras em pessoas, lugares ou datas; modelos sabendo resumir um documento, etc.)

Claro, grandes corporações ou órgãos públicos certamente têm os recursos financeiros para contratar especialistas em IA e pagar pelo tempo de treinamento de modelos, mas essa não é a realidade da maioria das empresas e, além disso, por que treinar novamente o que já existe?

É muito mais interessante compartilhar modelos online (e melhor para o meio ambiente!), permitindo assim que outros se apropriem deles para inovar (criar outros modelos especializados com base nos modelos disponíveis e/ou criar aplicativos/serviços usando esses modelos) em vez de gastar dinheiro e tempo de treinamento de modelos já existentes.

Identificação de boas práticas para o compartilhamento de modelos de PLN

  1. Modelos de linguagem natural disponíveis online: como qualquer modelo de PLN especializado em uma tarefa deve ser baseado em um modelo de linguagem natural (modelo que entende um idioma), use prioritariamente os modelos de linguagem natural já online, disponíveis gratuitamente, e que têm uma ficha descritiva para verificar como eles foram treinados. Por isso, use em particular ao model hub da Hugging Face (nota: não tenho nenhum relacionamento comercial com essa empresa).
  2. Modelos de PLN especializados disponíveis online: assim como os modelos de linguagem natural, sempre pesquise antes de ajustar (fine-tuning) esse modelo a uma nova tarefa, se esse modelo ajustado ainda não existir online.
  3. Bibliotecas de PLN disponíveis online: seja para baixar modelos de linguagem natural existentes ou para ajustar esses modelos a uma nova tarefa, use as bibliotecas de PLN de código aberto e seus scripts disponíveis online em vez de criar seu próprio código. Em particular, use à biblioteca de PLN mais famosa hoje: a biblioteca Transformers da Hugging Face.
  4. Compartilhamento de seus modelos de PLN: da mesma forma que nos beneficiamos de modelos publicados por terceiros (e, claro, se não tiver uma condição restritiva), publique seus modelos online e gratuitamente, com uma ficha descritiva anexada a eles. Por isso, use em particular ao model hub da Hugging Face para facilitar a indexação dos seus modelos e consequentemente a sua utilização por terceiros.
  5. Publicação do código de treinamento de seus modelos de PLN: um modelo compartilhado online deveria ter seu código de treinamento publicado também (no github ou colab, por exemplo). Assim, todos poderão verificar a qualidade do trabalho realizado e também reutilizar esse código para treinar seu próprio modelo, mas com um conjunto de dados diferente, por exemplo.

Se quiser comentar sobre essa proposta e/ou postar informações sobre recomendações existentes que definem as melhores práticas para a IA e, em particular, em relação aos modelos de PLN, faça-o aqui por favor. Obrigado.

Sobre o autor: Pierre Guillou é consultor de IA no Brasil e na França, pesquisador em Deep Learning e NLP do AI Lab (Unb) e professor de Inteligência Artificial (UnB). Entre em contato com ele por meio de seu perfil no LinkedIn.

--

--

Pierre Guillou

AI, Generative AI, Deep learning, NLP models author | Europe (Paris, Bruxelles, Liège) & Brazil