Photo by Jason Rosewell on Unsplash

Come fa una macchina a comprendere la nostra lingua?

Dario Bertolino
Overload Informazione
3 min readNov 17, 2023

--

La comprensione automatica del linguaggio umano diventa più importante di giorno in giorno, i software interagiscono con le persone analizzando ciò che dicono e generando risposte contestualizzate. I sistemi di supporto alla clientela sono ora gestiti da chatbot e complesse reti neurali sono in grado di generare finti articoli di giornale, conversazioni e persino libri. I linguaggi con cui programmiamo i nostri computer sono infinitamente meno complessi della lingua che usiamo per comunicare. Come può quindi un computer comprendere, processare e generare il linguaggio umano? Negli anni 80, guidati da una metodologia ingegneristica, affidavamo ad esperti il compito di definire complesse regole di riconoscimento della sintassi e della semantica di un linguaggio. Una delle prime attività svolta in quest’ambito fu la classificazione di documenti, per la quale venivano creati manualmente sistemi di regole decisionali. Questo approccio fu poi abbandonato in favore dell’utilizzo di algoritmi di machine learning, processi in grado di costruire automaticamente i classificatori, imparando le regole precedentemente create a mano da un insieme di testi opportunamente selezionati. Negli ultimi decenni la disciplina di Elaborazione del Linguaggio Naturale ha notevolmente espanso il suo range di attività, dalla sola classificazione di documenti al riassunto automatico di testi, analisi del sentimento, estrazione automatica di argomenti, traduzione, generazione e molto altro.

Nel 2018 T. Young ha definito l’Elaborazione del Linguaggio naturale come un ampio range di tecniche computazionali per l’analisi e la rappresentazione del linguaggio umano.

Gli incredibili risultati raggiunti da questa disciplina, comparabili solamente ai traguardi raggiunti in ambito di elaborazione delle immagini, sono stati possibili grazie a due invenzioni in particolare:

  • Word Embedding, un’ avanzata tecnica di codifica che ha rivoluzionato la metodologia di rappresentazione del testo.
  • Deep Learning, un ramo dell’intelligenza artificiale che ha dato vita a potenti reti neurali multi-livello.

In questo post voglio definire ad alto livello il significato e la struttura del Word Embedding, metodologia a dir poco affascinante che trasforma le parole in vettori ricchi di informazione riguardo il contesto all’interno del quale le parole stesse compaiono solitamente. Immaginiamo di avere a disposizione un vocabolario con un numero finito di parole e prendiamo in esame l’algoritmo Word2Vec, introdotto nel 2013 da T. Mikolov. Tale algoritmo si basa su un concetto molto semplice:

Parole simili compaiono statisticamente in contesti simili.

Considerando il contesto di una parola come altre parole che la precedono/seguono in una frase di senso compiuto, l’algoritmo Word2Vec legge dei testi non supervisionati e produce una rappresentazione statistica/vettoriale del nostro vocabolario:

L’immagine suggerisce che:

Vettori rappresentanti parole che compaiono statisticamente in contesti simili, vengono calcolati come vettori vicini all’interno di uno spazio n-dimensionale.

La codifica delle parole in vettori ricchi di informazione statistica riguardo i contesti viene eseguita dalla più semplice forma di rete neurale, nella quale i collegamenti tra i neuroni della rete identificano le coordinate dei vettori all’interno dello spazio. L’ addestramento della rete (in questo caso il modello Word2vec) è di fatti il calcolo di queste coordinate per ogni parola del vocabolario.

Il Deep Learning ha introdotto forme di reti neurali per le quali la componibilità è un aspetto fondamentale. Il Word Embedding, una volta calcolato, è in sostanza lo strato di una rete neurale e come tale può essere la componente di una rete complessa e di grandi dimensioni. Il Deep Learning ha prodotto molte tipologie di strati ognuno con le sue caratteristiche particolari, ma in ambito di Elaborazione del Linguaggio naturale, strati di codifica basati sul Word Embedding si sono rivelati fondamentali per il raggiungimento dei più importanti successi di questa disciplina.

Riferimenti

--

--

Dario Bertolino
Overload Informazione

Determination, Passion and Curiosity guide me in everyday choices.