[ Leggi dalla fonte originale]
Il settore dell’intelligenza artificiale sta affrontando un problema enorme: come gestire grandi finestre di contesto senza dimenticare elementi e non aumentare a dismisura il costo computazionale?
Tre ricercatori di Google hanno trovato la risposta “copiando” il meccanismo di gestione della memoria a lungo termine del nostro cervello, e creato i Titani. Si tratta di una famiglia di architetture per modelli IA in grado potenzialmente di sostituire l’attuale Transformer.
Qual è il problema delle architetture attuali
Gli attuali modelli IA LLM basati su architetture di tipo Transformer (sia Gemini che ChatGPT) hanno un problema: con sequenze di token molto lunghe tendono a dimenticare i dati, il che porta a generare allucinazioni o comunque errori e mancanze.
Questo perché questo tipo di architettura impiega il meccanismo di auto-attenzione che sfrutta una complessità lineare per calcolare le relazioni tra i token. Il vantaggio di questa soluzione è di trovare modelli complessi nelle sequenze di token, ma a un costo: man mano che la sequenza cresce, il costo computazionale e di memoria aumentano in modo quadratico.
A un certo punto si arriva a un limite, e, semplificando, possiamo dire che il modello comincia a perdere di vista troppi dati, e quindi produce allucinazioni. Ovvero genera un output non basato sui dati forniti.
Di recente si è pensato a sviluppare architetture alternative in grado di scalare senza aumentare così tanto i costi di calcolo, ma Ali Behrouz, Peilin Zhong e Vahab Mirrokni di Google hanno pensato a una soluzione diversa.
Secondo loro, i modelli lineari comprimono i dati contestuali e tendono a perdere dettagli importanti. La risposta è un’architettura con diversi componenti di memoria che possono essere coordinati per utilizzare le conoscenze esistenti, memorizzare nuovi fatti e imparare le astrazioni dal loro contesto.
Ecco i Titan, che copiano il meccanismo della memoria a lungo termine del cervello
Cosa sono i Titan
Per questo sono nati i Titan, una nuova famiglia di architetture per modelli IA che sfrutta il funzionamento del cervello umano, con “moduli distinti e interconnessi“, in cui “ognuno è responsabile di un componente per il processo di apprendimento“.
Nell’articolo pubblicato su arXiv, i ricercatori mostrano come i Titan combinano la memoria a breve, a lungo termine e di lavoro per gestire le grandi finestre di contesto.
Come funzionano i Titan: la memoria a lungo termine
In questa architettura è stato implementato un modulo di memoria neurale a lungo termine che può apprendere nuove informazioni al momento dell’inferenza senza le inefficienze del meccanismo di attenzione.
Questo perché invece di memorizzare informazioni durante l’apprendimento, il modulo di memoria neurale impara una funzione in grado di memorizzare nuovi fatti durante l’inferenza e adattare dinamicamente il processo di memorizzazione in base ai dati che incontra.
Per capire come funziona questo sistema dobbiamo capire come funziona la nostra memoria a lungo termine: il processo di codifica viene influenzato dalle caratteristiche dello stimolo e da nostri fattori emotivi o cognitivi. In pratica, ricordiamo meglio a lungo termine eventi significativi o che ci colpiscono (o che siamo motivati a ricordare).
Il concetto di sorpresa
Con i Titan, i ricercatori di Google hanno sviluppato un sistema simile per risolvere il problema di generalizzazione di cui soffrono altre architetture di rete neurale.
In pratica il modulo di memoria sceglie quali informazioni vale la pena memorizzare utilizzando il concetto di “sorpresa”: più una sequenza di token differisce dal tipo di informazioni memorizzate nei pesi del modello e nella memoria esistente, più è sorprendente e quindi vale la pena memorizzare.
Questo consente al modulo di fare un uso efficiente della sua memoria limitata e di memorizzare solo pezzi di dati che aggiungono informazioni utili a ciò che il modello già sa.
Attenzione, però: ci sono eventi che stimolano l’attenzione ma se non hanno una particolare rilevanza vengono scordati. Per gestire sequenze di dati molto lunghe, il modulo di memoria neurale ha un meccanismo di dimenticanza adattivo che gli consente di rimuovere le informazioni che non sono più necessarie.
La lezione dei Transformer
Non viene però scordata la lezione dei Transformer. Il modulo di memoria può essere infatti complementare al meccanismo di attenzione dei modelli Transformer, che i ricercatori descrivono come “moduli di memoria a breve termine“. Questi moduli si occupano della dimensione della finestra di contesto corrente.
Come funzionano i Titan: le tre varianti
Come sono strutturati i Titan
Quindi i Titan sono una famiglia di architetture che incorpora i nuovi moduli di memoria neurale con blocchi Transformer. Il modello è composto da tre moduli:
Il modulo Core funziona da memoria a breve termine e utilizza il meccanismo di attenzione dei Transformer per occuparsi del segmento corrente dei token di input che il modello sta elaborando nell’immediato
Il modulo di memoria a lungo termine (Long-Term Memory) utilizza l’architettura di memoria neurale per memorizzare le informazioni oltre il contesto attuale
Il modulo di memoria persistente (Persistent Memory) è un tipo di memoria statica, in quanto i parametri apprendibili rimangono fissi dopo l’allenamento e memorizzano la conoscenza indipendente dal tempo (potremmo assimilarla alla fase di ritenzione della memoria a lungo termine del nostro cervello, quando il ricordo viene consolidato)
In questo modo i moduli di attenzione e memoria sono in grato di completarsi a vicenda.
Da un lato, i moduli attenzione utilizzano il contesto storico e attuale per determinare quali parti della finestra di contesto memorizzare nella memoria a lungo termine. Dall’altro, la memoria a lungo termine è in grado di fornire conoscenze storiche non accessibili all’attuale contesto di attenzione.
Le tre varianti
Tre sono le varianti di questo tipo di architettura. Memory as a Context (MAC), in cui la memoria viene trattata come un contesto alle informazioni attuali.
In questa versione, il modello recupera le informazioni storiche dalla memoria a lungo termine e le combina con il contesto attuale usando l’attenzione. La sorpresa viene utilizzata per la memoria a lungo termine, e il decadimento adattativo per liberare spazio.
In Memory as a Gate (MAG) il modulo di memoria viene utilizzato in parallelo con un meccanismo di attenzione. Questa soluzione sfrutta un meccanismo non lineare, in cui un gate è in grado di limitare l’influenza di un tipo di memoria in base alla rilevanza del contesto (per esempio se i dati dalla memoria a breve termine, come una sequenza recente, sono in contrasto con la memoria a lungo termine).
Qui la memoria agisce direttamente per liberare spazio per il modello.
Memory as a Layer (MAL) è invece una variante in cui il modulo di memoria viene utilizzato come livello separato nella rete neurale, comprimendo il contesto passato e attuale prima di passarlo al modulo di attenzione.
Questa soluzione consente al modello ci concentrarsi sulle informazioni giudicate più significative, snellendo il calcolo.
Come si comportano i Titan e le differenze con i Transformer
Risultati eccezionali nei benchmark
Fin qui tutto bene, ma quali sono i risultati dei Titan rispetto ai Transformer? I ricercatori hanno eseguito test su piccola scala su modelli Titan, che vanno da 170 milioni a 760 milioni di parametri, su una vasta gamma di compiti, tra cui la modellazione linguistica e le attività linguistiche a sequenza lunga.
I Titan hanno dimostrato una forte performance nella modellazione del linguaggio rispetto ad altri modelli e hanno superato sia i Transformer che le reti neurali ricorrenti (RNN) con dimensioni simili.
La differenza di prestazioni è particolarmente pronunciata nelle attività su lunghe sequenze, sia del tipo “aghi nel pagliaio”, dove il modello deve recuperare pezzi di informazioni da una sequenza molto lunga, che BABILong, dove il modello deve ragionare attraverso fatti distribuiti in documenti molto lunghi.
Infatti, in questi compiti, Titan ha superato i modelli molto più ampi, come GPT-4 e GPT-4o-mini, e un modello Llama-3 migliorato con la generazione aumentata di recupero (RAG). Stiamo parlando di modelli di miliardi di parametri, contro i milioni dei Titan.
In particolare, nel benchmark BABILong, la variante Memory as Context (MAC) ha ottenuto risultati eccezionali (la variante MAG è leggermente dietro, mentre MAL ha presentato prestazioni inferiori).
I ricercatori sono stati in grado di estendere la finestra di contesto di Titans fino a 2 milioni di token mantenendo i costi di memoria a un livello modesto.
Il futuro: Gemini ha già vinto e ChatGPT è spacciato?
I vantaggi dei modelli Titan sono quindi:
Gestione di documenti lunghi, come libri, documenti legali o documenti scientifici
Previsioni da dati di serie temporali, come le previsioni del tempo o del mercato azionario
Migliore ragionamento in compiti che richiedono comprensione e ragionamento su lunghe sequenze, come rispondere a domande complesse o risolvere enigmi.
Al momento i modelli però devono essere ancora testati a dimensioni maggiori, e i ricercatori hanno dichiarato l’intenzione di rilasciare il codice PyTorch e JAX per la loro formazione e valutazione.
In generale, comunque, il compito di questi modelli sarà limitato a specifici contesti, soprattutto aziendali dove funzionano meglio di tecniche come i RAG, e non andranno per forza a sostituire ovunque l’architettura Transformer.
Nel medio termine (di qui a diciotto mesi), alcuni esperti si aspettano che i modelli Titan abbiano implicazioni reali per un’IA più robusta, permettendo il tracciamento degli errori in enormi database, diminuendo le dimenticanze e migliorando il processo decisionale con una base storica approfondita.
Google non ha inoltre detto nulla circa il passaggio di Gemini alla nuova architettura Titan. Logicamente sembra trattarsi di una transizione naturale, ma non sappiamo quando dovrebbe avvenire e soprattutto non è affatto detto che nel frattempo la concorrenza non faccia altrettanto (o qualcosa di simile).
C’è già chi sostiene che ChatGPT abbia i mesi contati: noi al momento non siamo dello stesso avviso, ma è innegabile che la finestra di contesto sia un problema e che chi lo risolverà per primo ed efficacemente avrà un bel vantaggio, soprattutto negli usi più “professionali” (passateci la semplificazione) dell’intelligenza artificiale.
Gemini, ChatGPT e gli altri: le app per l’IA
L’argomento è estremamente complesso, ed è facile perdersi. Per avvicinarsi a questo mondo, date un’occhiata ai nostri approfondimenti sull’IA: vi chiarirete senz’altro le idee e troverete le risposte a molte domande!