Notizie dal Mondo della GenAI — Settimana #27 del 2024

Davide Gallitelli
Generative AI — Italia
10 min readJul 1, 2024

💰 Notizie dal mondo degli affari 💰

Adept si concentra sull’Agentic AI: partnership con Amazon e nuovo CEO

Adept, l’azienda che sviluppa modelli di intelligenza artificiale generativa multimodali, ha annunciato importanti cambiamenti nella sua strategia e nella sua leadership. Dopo aver raggiunto progressi significativi nello sviluppo di modelli di fondazione all’avanguardia e di un prodotto aziendale basato su agenti AI, Adept deciderà di concentrarsi esclusivamente sulle soluzioni che abilitano l’Agentic AI.I co-fondatori di Adept e parte del team si uniranno all’organizzazione AGI di Amazon per continuare a perseguire l’obiettivo di costruire un’intelligenza generale utile. Amazon ha inoltre concesso in licenza la tecnologia degli agenti di Adept, la famiglia di modelli multimodali all’avanguardia e alcuni dataset.Zach Brock, Head of Engineering, assumerà il ruolo di CEO di Adept, mentre Tim Weingarten manterrà la guida del prodotto. La nuova leadership di Adept è entusiasta di eseguire la visione incentrata sul prodotto e di risolvere problemi di lavoro concreti per clienti che vanno dalle piccole imprese alle grandi multinazionali, sfruttando le capacità agentic all’avanguardia, i dati e i modelli di Adept.

Google sperimenta chatbot con celebrità e YouTuber

Google sta lavorando a un nuovo progetto di Intelligenza Artificiale che permetterà agli utenti di conversare con chatbot modellati su celebrità, influencer di YouTube o persino personaggi di fantasia. Secondo quanto riportato, l’azienda consentirà a chiunque di creare il proprio chatbot personalizzato, descrivendo la personalità e l’aspetto desiderati. Questo progetto si distingue dai Gems, che sono versioni personalizzate del modello linguistico Gemini, in quanto mira a replicare lo stile di risposta di specifiche persone.L’iniziativa di Google sui chatbot personalizzati sembra voler competere con i chatbot di celebrità di Meta. Inoltre, il progetto presenta analogie con Character.ai, un servizio che offre una vasta gamma di personaggi con stili di risposta unici, addestrati su dataset testuali. Google potrebbe integrare questa funzionalità all’interno di YouTube, consentendo ai creator di creare le proprie IA e migliorando il coinvolgimento del pubblico. Sebbene non ci siano ancora dettagli sulla monetizzazione, questa strategia potrebbe convincere gli utenti a tornare più spesso su YouTube.Mentre la data di rilascio non è stata ancora finalizzata, il chatbot di Google dovrebbe essere inizialmente testato sulla piattaforma Google Labs, insieme ad altri progetti sperimentali di Intelligenza Artificiale.

Indagini antitrust di FTC e DOJ su Microsoft, OpenAI e Nvidia

La Federal Trade Commission (FTC) e il Dipartimento di Giustizia (DOJ) degli Stati Uniti hanno avviato indagini antitrust su Microsoft, OpenAI e Nvidia. Il DOJ guiderà l’indagine su Nvidia, mentre la FTC si concentrerà sull’accordo tra OpenAI e il suo principale investitore, Microsoft.Queste indagini arrivano dopo che la FTC ha iniziato a esaminare potenziali problemi di antitrust relativi agli investimenti delle aziende tecnologiche in società di Intelligenza Artificiale più piccole, inviando lettere a Alphabet, Amazon, Anthropic, Microsoft e OpenAI all’inizio di quest’anno. La FTC sta anche indagando sulle pratiche di raccolta dati di OpenAI.Oltre agli Stati Uniti, anche la Commissione Europea e l’Autorità per la Concorrenza e i Mercati del Regno Unito stanno esaminando separatamente l’investimento di 13 miliardi di dollari di Microsoft in OpenAI, il creatore di ChatGPT.Queste indagini non significano necessariamente che il governo Biden aprirà dei casi contro le tre aziende, ma potrebbero portare a contenziosi antitrust in futuro, come accaduto in passato con Google, Apple, Amazon e Meta.

UE: App di Apple viola il mercato digitale, via a nuova indagine

La Commissione Europea ha avviato una nuova indagine sulle pratiche di Apple nel mercato digitale. Secondo l’UE, le app dell’azienda di Cupertino violano le regole della concorrenza, ostacolando l’ingresso di altri player nel mercato. In particolare, l’indagine riguarda le restrizioni imposte da Apple sull’accesso ad alcune funzionalità dei suoi dispositivi, come il sistema di pagamento in-app. Questa mossa della Commissione Europea arriva dopo una precedente indagine del 2020 sulle stesse pratiche di Apple, che aveva portato a una multa di 14,5 miliardi di euro per evasione fiscale. La nuova indagine potrebbe portare a ulteriori sanzioni per l’azienda, in un momento in cui i regolatori stanno aumentando il loro scrutinio sui giganti della tecnologia e sui loro modelli di business basati sui large language models e sul deep learning. Questa vicenda rappresenta un importante banco di prova per l’applicazione delle nuove norme UE sul mercato digitale, volte a garantire una maggiore concorrenza e tutelare i diritti degli utenti.

💻️ Notizie dal mondo della tecnologia 💻️

Tecniche di mitigazione dell’allucinazione nei Large Language Model

Questo recente studio offre una panoramica completa di oltre 32 tecniche di mitigazione per affrontare il problema dell’allucinazione nei large language model (LLM). Le tecniche sono suddivise in due principali categorie: approcci basati sul gradiente, come il fine-tuning del modello di base, e approcci non basati sul gradiente, come l’ingegneria dei prompt. Tra le tecniche più interessanti troviamo il Retrieval-Augmented Generation (RAG), l’utilizzo di knowledge graph e approcci di co-addestramento. Lo studio sottolinea che la miglior difesa contro l’allucinazione non è una singola tecnica, ma una combinazione di approcci complementari per produrre informazioni coerenti e contestualmente rilevanti. Fattori chiave da considerare includono l’utilizzo di dati etichettati, l’introduzione di tecniche di apprendimento non supervisionato e l’integrazione di conoscenze di dominio specifico. Questo lavoro rappresenta un importante contributo per affrontare le sfide poste dall’allucinazione nei modelli di linguaggio avanzati.

GraphReader: un agente basato su grafi per potenziare le capacità di contesto lungo dei large language model

I ricercatori hanno presentato GraphReader, un sistema di agenti basato su grafi progettato per gestire testi lunghi. GraphReader struttura i testi in un grafo e utilizza un agente che esplora autonomamente questo grafo per rispondere a domande. L’agente analizza il testo passo dopo passo, legge il contenuto dei nodi e i loro vicini, esplorando in modo graduale per raccogliere informazioni sufficienti a generare una risposta. I risultati sperimentali mostrano che GraphReader, utilizzando una finestra di contesto di 4k, supera costantemente GPT-4–128k su lunghezze di contesto da 16k a 256k. Inoltre, il sistema dimostra prestazioni superiori su benchmark sfidanti di ragionamento a singolo e multi-salto. Questo approccio innovativo basato su grafi rappresenta un passo avanti nell’abilitare i large language model a gestire in modo robusto contesti lunghi e complessi.

Google lancia Gemma 2, la sua nuova generazione di foundation models

Google ha annunciato il lancio di Gemma 2, la nuova generazione dei suoi modelli open source di intelligenza artificiale. Gemma 2 offre prestazioni di punta, con una velocità di inferenza incredibile su diverse tipologie di hardware, e un’integrazione semplice con altri strumenti AI. Disponibile in versioni da 9 e 27 miliardi di parametri, Gemma 2 supera in efficienza e prestazioni modelli di dimensioni molto superiori, consentendo implementazioni AI più accessibili e convenienti. Progettato per essere facilmente integrato nelle workflow degli sviluppatori e dei ricercatori, Gemma 2 supporta i principali framework AI come Hugging Face Transformers, JAX, PyTorch e TensorFlow. Google sottolinea inoltre l’impegno nello sviluppo responsabile di questi large language models, con strumenti per la valutazione e il monitoraggio dei potenziali rischi e bias.

Meta annuncia nuovi progressi nell’Intelligenza Artificiale Generativa

Meta, la società madre di Facebook, ha annunciato nuovi progressi significativi nel campo dell’Intelligenza Artificiale Generativa. Secondo il post, i ricercatori di Meta hanno sviluppato nuovi modelli di linguaggio di grandi dimensioni (large language models) che mostrano prestazioni migliorate rispetto ai modelli precedenti. Questi nuovi modelli di fondazione (foundation models) sfruttano tecniche avanzate di deep learning per raggiungere risultati più accurati e coerenti nella generazione di testo, immagini e altri contenuti multimediali.L’obiettivo di Meta è quello di rendere questi modelli di IA generativa sempre più potenti e versatili, in modo da poter essere utilizzati in un’ampia gamma di applicazioni, dalla creazione di contenuti alla risoluzione di problemi complessi. Inoltre, l’azienda sta lavorando per migliorare l’affidabilità e la sicurezza di questi sistemi, in modo da renderli più adatti all’uso in contesti aziendali e professionali.Questo annuncio sottolinea l’importanza crescente dell’Intelligenza Artificiale Generativa e il suo potenziale per rivoluzionare diversi settori tecnologici. Gli esperti del settore saranno sicuramente interessati a seguire gli sviluppi futuri di questa tecnologia innovativa.

PlanRAG: Modelli di linguaggio generativi come decision maker

Ricercatori del KAIST hanno proposto un nuovo approccio chiamato PlanRAG per migliorare le capacità decisionali dei large language model (LLM). PlanRAG estende la tecnica di Retrieval-Augmented Generation (RAG) aggiungendo un passo di pianificazione prima del recupero dei dati. L’LLM basato su PlanRAG genera prima un piano per il tipo di analisi necessaria per prendere una decisione, poi recupera i dati rilevanti e itera il processo di pianificazione e recupero fino a quando non è in grado di prendere una decisione finale. I ricercatori hanno anche sviluppato un benchmark chiamato Decision QA (DQA) per valutare le capacità decisionali degli LLM. DQA contiene scenari di localizzazione e costruzione estratti da due videogiochi di strategia, Europa Universalis IV e Victoria 3. I risultati sperimentali mostrano che l’approccio PlanRAG supera significativamente la tecnica RAG iterativa di stato dell’arte, migliorando le prestazioni del 15,8% nello scenario di localizzazione e del 7,4% nello scenario di costruzione.Questo lavoro dimostra il potenziale dei large language model come soluzioni per compiti decisionali complessi che richiedono analisi dei dati e pianificazione strategica.

Come i large language model acquisiscono conoscenza durante il pre-training

Uno studio recente pubblicato su Hugging Face esplora i meccanismi attraverso cui i large language model (LLM) acquisiscono conoscenza durante il pre-training. Alcune delle principali scoperte:- Aumentare la quantità di dati di pre-training non porta a miglioramenti significativi nella capacità del modello di acquisire e mantenere conoscenza fattuale. — C’è una relazione di tipo “power-law” tra i passi di addestramento e la perdita di memorizzazione e generalizzazione della conoscenza fattuale. I modelli addestrati su dati duplicati mostrano una perdita più rapida.- Addestrare i LLM con batch di dati più grandi può migliorarne la robustezza alla perdita di conoscenza.In sintesi, l’acquisizione di conoscenza fattuale nei LLM avviene aumentando progressivamente la probabilità della conoscenza presente nei dati di pre-training, ma questo aumento viene diluito dalla successiva dimenticanza. Questi risultati aiutano a spiegare comportamenti osservati nei LLM, come le prestazioni scarse su conoscenza rara e i benefici della deduplicazione dei dati di pre-training.

👥 Posts della community 👥

Possiamo eliminare la moltiplicazione di matrici nei Large Language Models?

Ricercatori dell’Università della California a Santa Cruz, UC Davis, LuxiTech e Soochow University hanno sviluppato un nuovo metodo per eseguire in modo più efficiente i modelli di linguaggio AI, eliminando la moltiplicazione di matrici dal processo. Questo ridisegna fondamentalmente le operazioni delle reti neurali attualmente accelerate dai chip GPU. I risultati, descritti in un recente articolo, potrebbero avere profonde implicazioni sull’impatto ambientale e sui costi operativi dei sistemi AI.Il team ha creato un modello personalizzato da 2,7 miliardi di parametri senza utilizzare la moltiplicazione di matrici, con prestazioni simili ai grandi modelli di linguaggio (LLM) convenzionali. Hanno inoltre dimostrato di poter eseguire un modello da 1,3 miliardi di parametri a 23,8 token al secondo su una GPU accelerata da un chip FPGA personalizzato che utilizza circa 13 watt di potenza. Questo approccio potrebbe rendere i grandi modelli di linguaggio più accessibili, efficienti e sostenibili, in particolare per il deployment su hardware a risorse limitate come gli smartphone.

Roadmap di 5 giorni per le fondamenta dei Large Language Models (LLM)

Se ti senti sopraffatto dalla conoscenza frammentata sui Large Language Models (LLM), questa roadmap e le risorse curate dalle migliori fonti sono qui per guidarti. Dedica 2–3 ore al giorno per comprendere a fondo le risorse e, entro il quinto giorno, sarai pronto per sviluppare la tua applicazione LLM! Questa roadmap è progettata per individui con conoscenze di base di machine learning. I contenuti opzionali possono essere esplorati quando il tempo lo permette. Goditi il percorso di apprendimento! Una volta stabilita la tua base, utilizza questo repository per approfondire gli articoli di ricerca, esplorare corsi aggiuntivi e continuare a migliorare le tue competenze.

Hugging Face aggiorna la sua leaderboard sulle AI generative

Hugging Face ha annunciato un importante aggiornamento della sua Open LLM Leaderboard, la classifica di riferimento per valutare i progressi nei large language models (LLM) open-source. Questa mossa arriva in un momento cruciale per l’evoluzione dell’AI, con un apparente rallentamento nei miglioramenti di prestazioni nonostante il continuo rilascio di nuovi modelli. La leaderboard è stata riprogettata per introdurre metriche di valutazione più complesse e analisi dettagliate, al fine di meglio differenziare i modelli di punta e identificare aree di miglioramento. Tra i cambiamenti chiave: l’introduzione di dataset più impegnativi per testare il ragionamento avanzato e l’applicazione di conoscenze del mondo reale, l’implementazione di valutazioni del dialogo multi-turno, l’espansione dei test in lingue non inglesi e l’incorporazione di test per il few-shot learning e il seguire istruzioni. Questi sforzi si affiancano all’iniziativa parallela dell’LMSYS Chatbot Arena, che enfatizza la valutazione dinamica e interattiva dei modelli in scenari reali. Insieme, queste iniziative mirano a creare un quadro di valutazione più sofisticato ed esaustivo per guidare l’evoluzione dei foundation models e dei large language models.

Llama-Agents — framework multi-agent dal team di Llama-Index

Il team di LlamaIndex ha annunciato il lancio di “Llama Agents”, un potente framework open-source per costruire sistemi AI multi-agente in produzione. Questo framework consente di integrare agenti in pipeline di Recupero Augmentato da Generazione (RAG) per migliorare la ricerca conversazionale e il recupero dei dati. Llama Agents sfrutta tecniche avanzate come l’uso di agenti di livello superiore e sotto-agenti per gestire grandi set di documenti, migliorando la precisione e la rilevanza delle risposte attraverso il riordinamento e la sintesi delle risposte. Questo approccio facilita la scalabilità e l’intelligenza dei sistemi AI, rendendoli più efficienti e affidabili per varie applicazioni aziendali e tecnologiche che sfruttano large language models e deep learning.

The Prompt Report: A Systematic Survey of Prompting Techniques

Ricercatori dell’Università del Maryland hanno pubblicato un ampio studio sulle tecniche di “prompting” per i large language models e foundation models. Il rapporto fornisce una tassonomia di oltre 200 tecniche di prompting, organizzate in sei categorie principali: apprendimento in-contesto, zero-shot, generazione di pensieri, decomposizione, ensemble e autocritica. Vengono inoltre discussi gli aspetti di sicurezza e allineamento nell’uso di queste tecniche. Lo studio include anche due case study, uno sulla valutazione comparativa di diverse tecniche su un benchmark standard e uno sull’ingegneria dei prompt per identificare segnali di rischio di suicidio in testi. Questo lavoro rappresenta un importante passo avanti nella comprensione e nell’utilizzo efficace delle capacità dei modelli di linguaggio avanzati.

Per qualsiasi commento, contattateci pure! Alla prossima newsletter, Il Team di Generative AI — Italia 🇮🇹

--

--