Riconoscimento vocale e trascrizione automatizzata: must o flop?

Giulia Banfi
Mapping Journalism
Published in
11 min readJul 19, 2024

Qual è stato il ruolo delle trascrizioni nella produzione giornalistica? Criticità e potenzialità del riconoscimento vocale e delle trascrizioni automatizzate.

di Marika Groppo

Sin dagli albori dell’informatica è sempre stata forte l’ambizione di realizzare macchine intelligenti in grado di interagire con le persone con le modalità proprie degli esseri umani. La capacità di trascrivere il parlato in testo è un passo fondamentale in questa direzione, insieme all’interpretazione del linguaggio naturale e alla sintesi vocale.

In un mondo sempre più frenetico, le notizie circolano sempre più velocemente rendendo ancora più impegnativo il lavoro del giornalista, il quale per poter arrivare a un prodotto finito deve saper gestire una lunga serie di fasi di selezione del materiale, stesura dell’articolo e revisione. L’avvento dei software di intelligenza artificiale, accolti da molti come “miracolosi sistemi in grado di assolvere a qualsiasi esigenza” ha gradualmente interessato giornalisti e testate, e dopo una fase di diffidenza per molte testate sono diventati software di utilizzo comune.

Secondo un articolo del “New York Times”, circa un terzo dei contenuti pubblicati da “Bloomberg News” (un’agenzia di stampa internazionale statunitense, specializzata in notizie di economia e finanza e tra le più note al mondo, divisione dell’omonima multinazionale nel settore dei mass media) usa qualche forma di tecnologia automatizzata. Infatti, dispongono di un apposito sistema, denominato “Cyborg”, in grado di assistere i giornalisti nel confezionare numerosi articoli sui rapporti sugli utili aziendali.

Uno dei software generativi dell’intelligenza artificiale, tra i più usati e consolidati nella professione del giornalista, è quello che permette il riconoscimento vocale e la trascrizione automatizzata di interviste e conferenze.

Per quanto possa essere osteggiata da alcuni, questa possibilità di accedere a strumenti per la trascrizione automatica ha sicuramente rivoluzionato il panorama mediatico. In questo articolo verranno presentate le principali forme di utilizzo di queste innovazioni nella professione del giornalismo, includendo un breve accenno storico e un confronto tra pro e contro (e se è possibile risolvere). In un’epoca sempre più condizionata dalla presenza dell’intelligenza artificiale, non si può non accennare alle rivoluzioni che ha portato negli strumenti di trascrizione automatica accessibili sul web, affiancandosi sempre di più al giornalista.

Chi trascrive?

Nel giornalismo contemporaneo, delle testate rigorose hanno condannato ChatGPT e software simili di intelligenza artificiale, perché danneggiano i valori del buon giornalismo. In altre realtà comunque autorevoli, invece, non ci si è fermati all’apparenza e si ha indagato sulle effettive possibilità dell’intelligenza artificiale, constatando che forse non proprio tutto è a danno del giornalismo di qualità. In particolare, la possibilità di usare software, app, siti web per trascrivere automaticamente, e quindi trasformare l’audio di interviste o conferenze in un testo ha preso piede di varie realtà.

Fare interviste è uno dei pilastri della professione: ogni giornale che si rispetti, ad esempio in vista di elezioni, proposte di legge, dichiarazioni, proteste spesso inserisce negli articoli a riguardo delle citazioni provenienti da interviste fatte ai diretti interessati. Questo perché attira l’attenzione dei lettori e conferisce credibilità all’articolo, in quanto quello che si legge trova una constatazione concreta. Lo stesso vale per le conferenze: le conferenze organizzate invitando figure di spicco in merito a qualche vicenda e le conferenze stampa in merito a una seduta politica, un evento pubblico, una causa giuridica (per fare degli esempi) sono organizzate appositamente per permettere ai giornalisti di informarsi in maniera adeguata in merito ai fatti. Per non perdersi nessun particolare utile, spesso i giornalisti, oltre ad appuntarsi delle informazioni in diretta, registrano il discorso dell’interlocutore in modo da poter essere riascoltato con calma in un secondo momento.

La trascrizione di una registrazione è un processo complesso che richiede tempo ed energia ed è una caratteristica di un lavoro di qualità, ma poiché le interviste e le conferenze sono ricche di dati e dettagli, le trascrizioni letterali trasmettono meglio questi significati. Il problema è che il giornalista si deve occupare di molte altre mansioni e spesso non riesce ad occuparsi direttamente delle trascrizioni (le scadenze da rispettare per la consegna sono molte e non sempre si ha tempo per riascoltare, trascrivere e rielaborare una registrazione). Per questo, il processo di trascrizione è spesso affidato a trascrittori esterni (che devono essere pagati).

Esistono vari tipi di trascrizione di registrazioni audio, a seconda del grado di dettaglio richiesto (dall’acquisizione di informazioni aggiuntive, come pause e intonazione, a trascrizioni più essenziali in cui delle informazioni vengono omesse dalla registrazione “grezza” dell’audio). Oltre a giornalisti e testate, gli studiosi hanno iniziato a valutare se i recenti progressi tecnologici consentono di utilizzare strumenti di generazione di trascrizioni automatizzate tramite tecnologie come gli strumenti di riconoscimento vocale automatizzato (ASR) incorporati nei servizi di sottotitoli automatici sul web per arrivare a delle prime bozze di trascrizioni “sufficientemente buone” e utili per le fasi successive del processo.

Vantaggi

Per quanto riguarda i modi in cui questi software possono facilitare il lavoro del giornalista, una procedura di trascrizione automatizzata potrebbe:

● Far risparmiare tempo

● Far risparmiare denaro (ci sono strumenti gratuiti nel web, evitando di scendere a compromessi sul lavoro redazionale per bilanciare i costi di un eventuale trascrittore umano)

● Migliorare la produttività

● Di conseguenza, far ottenere più risorse ai giornalisti per poter offrire ulteriori contenuti di qualità ai lettori

Criticità

Ci sono circostanze in cui la trascrizione automatizzata funziona meno bene, e sono le aree in cui la tecnologia di riconoscimento vocale deve essere migliorata:

● Precisione delle didascalie: anche per una prima bozza, l’accuratezza può essere un problema in base alle condizioni ambientali di cattura del suono (voci sovrapposte, rumori, accenti e dialetti particolari)

● Si possono verificare errori con dei nomi, delle differenze nella formattazione e dei termini specifici: riguardano la complessità e la qualità della registrazione audio (interlocutori diversi, il modo in cui è organizzato il turno)

● Difficoltà ad addestrare sistemi per lingue poco diffuse a causa della scarsità di risorse e della limitata profittabilità del mercato

● Considerazioni etiche riguardanti la protezione dei dati e le questioni di sicurezza: i servizi di sottotitolazione potrebbero archiviare dati su computer diversi da quelli istituzionali (in seguito ai recenti sviluppi con Facebook e Cambridge Analytica). In questo senso, non si riesce a garantire la privacy dell’interlocutore (la tutela delle fonti è uno dei valori fondanti del giornalismo di qualità). Per cercare di arginare questo problema, il Regolamento Generale sulla Protezione dei Dati (GDPR) del diritto dell’Unione Europea sulla protezione dei dati e sulla privacy per tutti gli individui all’interno dell’Unione Europea (UE) e dello Spazio Economico Europeo (SEE) sancisce che i dati dei cittadini non possono essere trasmessi a terzi senza esplicito consenso

Un modo per migliorare la precisione della trascrizione è ascoltare l’intervista o conferenza e ripetere ciò che è stato detto in un secondo momento utilizzando un software di riconoscimento vocale (VRS) addestrato a riconoscere una voce specifica (in questo caso, quella del giornalista). Questo metodo è utilizzato per la sottotitolazione dal vivo per i servizi televisivi e giudiziari ed è noto come “respoke”, “shadowing” o “parroting”.

Un giornalista deve sempre seguire con giudizio professionale ogni fase di elaborazione dei dati, inclusa la trascrizione: la modifica della trascrizione automatizzata prodotta da strumenti di sottotitoli automatici è come la revisione che si effettuerebbe su trascrizioni prodotte esternamente da professionisti terzi. Nel processo di ricerca la trascrizione sarà sempre un compromesso tra il tempo o i mezzi disponibili e la sua qualità.

Nell’ultimo decennio l’accuratezza dell’ASR è migliorata e la trascrizione automatizzata sta iniziando a diventare una soluzione fattibile: si ottengono trascrizioni “abbastanza buone” che possono poi essere perfezionate con molto meno lavoro manuale rispetto a prima.

Sviluppi tecnologici e storia dell’ASR

Negli anni ’30 i Bell Laboratories propongono un modello per l’analisi e la sintesi del parlato, ma i primi tentativi di realizzare macchine in grado di riconoscere il parlato risalgono agli anni ’60, quando IBM idea il sistema “Shoebox” che riusciva a riconoscere numeri e semplici comandi.

Dr. E. A. Quade, manager del gruppo di tecnologia avanzata del laboratorio di sviluppo dei sistemi avanzati IBM a San José, California, mentre mostra Shoebox (www.ibm.com)

Nel corso del tempo, con i crescenti miglioramenti tecnologici, sono diventate disponibili soluzioni software, inizialmente autonomi, come “ViaScribe” di IBM e poi come parte di altri programmi mainstream basati sul web. Nel 2009 è stata introdotta la prima versione del sistema di sottotitoli del fornitore di video YouTube, esemplificando una tendenza verso soluzioni online. Da allora lo sviluppo dei sistemi di riconoscimento vocale è stato rapido.

Negli ultimi decenni la ricerca ha ottimizzato i sistemi di Automatic Speech Recognition (ASR), raggiungendo l’apice, che in condizioni acustiche ideali permette di trascrivere un parlato continuo con una precisione vicina al 95%.

Confronto della somiglianza del testo

Nello studio di Bokhove e Downey (2018) vengono usate tre sorgenti audio diverse (da un’aula scolastica, da un’udienza pubblica con più relatori e da un’intervista individuale) come esempio di un approccio ASR che potrebbe essere utilizzato per generare trascrizioni automatizzate. La qualità delle trascrizioni viene testata attraverso il calcolo di una corrispondenza percentuale tra la trascrizione automatizzata e una trascrizione prodotta manualmente.

Il confronto tra le trascrizioni automatizzate e quelle prodotte manualmente ha mostrato una somiglianza del 69% e del 64%. Le differenze sono minori e riguardano principalmente aspetti facilmente risolvibili (di formattazione). Tutte e tre le fonti confermano che con uno sforzo minimo si potrebbero ottenere trascrizioni automatizzate della “prima versione” ragionevoli attraverso l’uso di servizi web disponibili anche gratuitamente.

Evoluzione dei sistemi di Automatic Speech Recognition (ASR)

Oltre agli strumenti di sottotitoli automatici, altri strumenti disponibili gratuitamente offrono la possibilità di generare trascrizioni automatiche: i software di riconoscimento vocale associati ai sistemi operativi in esecuzione sui comuni dispositivi informatici mobili come tablet e smartphone sono sempre più in grado di tradurre la voce in testo senza alcuna formazione su una voce specifica richiesta dai vecchi sistemi VRS.

Gli Assistenti Vocali, preinstallati nei dispositivi mobili, contribuiscono a rivoluzionare il riconoscimento vocale (www.howtogeek.com)

Con il miglioramento delle tecniche di riconoscimento, le trascrizioni automatizzate copriranno altre lingue. Aumenterà anche la qualità del riconoscimento e l’audio di qualità superiore potrà produrre, negli scenari migliori, prime trascrizioni di altissima qualità. Considerati i progressi tecnologici dell’ultimo decennio, si prevede che le possibilità non potranno che migliorare.

L’Intelligenza Artificiale entra nella newsroom

Questi processi non possono che essere accelerati dall’avvento dell’intelligenza artificiale (IA). Sta diventando una tecnologia pervasiva, utilizzata in diversi ambiti e servizi, tra cui quello giornalistico, fornendo supporto e rivoluzionando il processo di raccolta di notizie, dati ed informazioni, nella produzione di report, video e documentazione per la narrazione di un evento di interesse mediatico. Per sfruttare al meglio le opportunità offerte dagli strumenti dell’Intelligenza Artificiale occorre definire una strategia, organizzativa e tecnologica, che promuova la comprensione e la divulgazione dei loro ambiti e delle loro funzionalità.

Sul web spopolano siti (anche) gratuiti che, in un paio di click, permettono all’utente di “copiare e incollare” la trascrizione completa del suo file audio (www.amberscript.com).
Sul web spopolano siti (anche) gratuiti che, in un paio di click, permettono all’utente di “copiare e incollare” la trascrizione completa del suo file audio (www.veed.io)

Il recente sviluppo di software di riconoscimento vocale di alta qualità facilita la produzione di trascrizioni SST (Speech-To-Text) e consente sia una trascrizione obiettiva e completa, sia un’interpretazione con annotazioni.

Caratteristiche e capacità del riconoscimento vocale

Le prestazioni di questi programmi sono molto variabili e dipendono da:

1. Capacità hardware del dispositivo in cui vengono utilizzati

2. Qualità del microfono

3. Rumore di fondo dell’ambiente

4. Grado in cui i modelli utilizzati dal software riflettono il parlato riconosciuto

Quando queste variabili sono adeguatamente controllate, è possibile ottenere una precisione di riconoscimento circa del 95%.

VIDEO “Automatic Transcription” di Amberscript (Automatic Transcription)

È possibile utilizzare funzionalità disponibili gratuitamente di strumenti basati sul web per la generazione di sottotitoli automatici per produrre trascrizioni automatizzate di registrazioni audio e video, e questo si traduce in una prima versione ragionevole di una trascrizione. Questi strumenti sono creati sulla base di algoritmi propri dell’intelligenza artificiale, che, per la sua natura di apprendimento continuo, migliorerà di giorno in giorno, di click in click.

Con un audio di alta qualità, in contesti ottimali come quelli utilizzati per le interviste individuali, la percentuale di corrispondenza con le trascrizioni prodotte manualmente può essere ancora più elevata, superando il 95%.

Nonostante ciò, seppur si possano avere alla mano delle possibilità di tassi di precisione così elevati, l’auto-sottotitolazione non sostituirà il processo di trascrizione ma lo affiancherà e lo faciliterà. L’ultima parola spetta sempre al giornalista: ogni testata di qualità non pubblica articoli senza che siano stati adeguatamente revisionati. Luca Misculin, giornalista de “Il Post” sostiene che l’utilizzo di software di intelligenza artificiale in generale è una sfida per il giornalismo di basso livello ma è anche un’opportunità per l’automazione di alcuni processi che portano via tempo e risorse al giornalista. Della stessa posizione è Roberto Bonizzi, vicecaporedattore de “Il Giornale”: bisogna riconoscere che l’intelligenza artificiale è uno strumento con delle forti capacità e se si utilizza come uno strumento può essere utile; è una questione di stole del buon giornalista.

L’intelligenza artificiale è un utile strumento di supporto ai giornalisti nello svolgimento del loro compito di narratori e mediatori tra il pubblico e la storia, ma alcune questioni tecniche ed organizzative rappresentano ancora oggi delle sfide da vincere e dei potenziali ostacoli. Gli algoritmi dell’IA sono complicati ed esistono modalità diverse con cui possono essere implementati; occorre quindi acquisire conoscenza e consapevolezza delle potenzialità e delle limitazioni insite in questi strumenti per poterli utilizzare nel modo più proficuo possibile. Inoltre, occorre ridefinire alcuni concetti del processo editoriale, al fine di uniformare le modalità produttive tradizionali con le novità richieste ed apportate dall’IA. Infine, occorre sempre assicurarsi che gli strumenti IA rispettino le regole etiche e deontologiche del giornalismo per garantire la diffusione di informazioni precise, corrette ed esaustive.

Il processo di rivoluzionamento del giornalismo da parte dell’intelligenza artificiale e, più in generale, di tutti gli strumenti facilmente reperibili dal web è ormai inevitabile. Devono essere considerati un’opportunità da sfruttare in tutti gli ambiti possibili, ovviamente valutando con un’attenta formazione e sorveglianza attiva tutti i possibili rischi, cercando di lavorare per limitarli al massimo. Deve sempre esserci il “tocco finale” del giornalista, d’altronde è questo il bello della loro professione (si fa il giornalista e si scrive per un motivo).

Riferimenti utili

Fonti (articoli scientifici):

● Bokhove, C., & Downey, C. (2018). Automated generation of ‘good enough’ transcripts as a first step to transcription of audio-recorded data. Methodological innovations, 11(2), 2059799118790743. https://journals.sagepub.com/doi/full/10.1177/2059799118790743

● Montagnuolo, M. (2020). Sistemi a supporto dei giornalisti L’Intelligenza Artificiale entra nella newsroom. Elettronica e, 201(3_3), 83. http://www.crit.rai.it/CritPortal/wp-content/uploads/2021/04/ET_201_FULL-1.pdf

● Fogg, T., & Wightman, C. W. (2000). Improving Transcription of Qualitative Research Interviews with Speech Recognition Technology. https://eric.ed.gov/?id=ED441854

Fonti (articoli e siti web):

● Peiser, J. (2019, 5 febbraio). The Rise of the Robot Reporter (Published 2019). The New York Times. https://www.nytimes.com/2019/02/05/business/media/artificial-intelligence-journalism-robots.html

● How Secure Are Journalists’ Favorite Transcription Tools? (s.d.). Global Investigative Journalism Network. https://gijn.org/stories/how-secure-are-journalists-favorite-transcription-tools/

● Trascrizioni automatizzate — CMT translations. (s.d.). CMT translations — COMMUNICATION MEETS TRANSLATION. https://www.cmt-translations.com/servizi/trascrizioni/trascrizioni-automatizzate/

Fonti (immagini e video):

● Amberscript. (2023). Trascrivere dalla A alla Z: Tutto quello che devi sapere per convertire il tuo audio in testo [Infografica]. https://www.amberscript.com/it/blog/trascrivere-tutto-quello-che-devi-sapere/

● VEED.IO. (s.d.). Da Audio a Testo [Infografica]. https://www.veed.io/it-IT/strumenti/da-audio-a-testo

● IBM. (1962). William Dersch of IBM Unveils Shoebox, an Early Application of Voice Recognition to Calculating [Fotografia]. https://www.historyofinformation.com/detail.php?id=4989

● Davenport C. (2023). How to Turn Off Google Assistant (and “Hey Google”) [Fotografia]. https://www.howtogeek.com/887077/how-to-turn-off-google-assistant-and-hey-google/

● Amberscript. (2023, March 13). Automatic Transcription [Video]. YouTube. https://www.youtube.com/watch?v=KwQf2kxSZn0&ab

--

--

Giulia Banfi
Mapping Journalism

PhD Student @Unife. Studio la società, analizzando i processi comunicativi e la transizione digitale della PA ✏️ Credo in un’innovazione sociale accessibile.