KINDLE HOME

Titans e MIRAS

Memoria a Lungo Termine per l'Intelligenza Artificiale
Google Research | Dicembre 2025

Articolo originale

C'è un limite fondamentale nei modelli di linguaggio attuali: la finestra di contesto. GPT-4 può "ricordare" circa 128.000 token. Claude arriva a 200.000. Sembra tanto, ma per certi compiti — analizzare un intero codebase, processare anni di conversazioni, ragionare su documenti lunghi migliaia di pagine — non basta.

Google Research ha pubblicato due innovazioni che affrontano questo problema: Titans, un'architettura neurale, e MIRAS, il framework teorico che la sottende. Insieme, promettono di portare la memoria dei modelli AI a milioni di token.

Il Problema della Memoria

I Transformer, l'architettura dietro GPT e Claude, hanno un problema: l'attenzione scala quadraticamente con la lunghezza del contesto. Raddoppia il contesto, quadruplica il costo computazionale. È per questo che le finestre di contesto hanno un limite pratico.

Le RNN (Recurrent Neural Networks) risolvevano questo problema comprimendo tutto il contesto in un vettore di dimensione fissa. Ma comprimere significa perdere informazione. Una RNN che ha "letto" un milione di token non ricorda davvero tutto — ha una sintesi lossy.

Titans cerca il meglio di entrambi i mondi: la scalabilità lineare delle RNN con la capacità di ricordare dei Transformer.

L'Innovazione: Memoria come Rete Neurale

L'idea chiave è semplice nella formulazione, profonda nelle implicazioni: invece di comprimere il contesto in un vettore, usa una rete neurale come memoria.

Un Multi-Layer Perceptron (MLP) può memorizzare pattern complessi nei suoi pesi. Titans usa un MLP come "memoria a lungo termine" che si aggiorna continuamente mentre processa nuovi dati.

Questo dà al sistema una capacità espressiva molto maggiore di un semplice vettore. Non è più compressione lossy — è apprendimento continuo.

La Metrica della Sorpresa

Ma se memorizzi tutto, la memoria esplode. Serve un meccanismo per decidere cosa è importante ricordare.

Titans usa una "metrica della sorpresa": confronta quanto l'input attuale è diverso da quello che la memoria si aspettava. Se la differenza è alta (sorpresa alta), l'informazione viene memorizzata con priorità. Se è bassa (informazione attesa, ridondante), viene trattata con meno peso.

È simile a come funziona la memoria umana: ricordiamo gli eventi inaspettati, dimentichiamo la routine.

Gestione della Memoria

Due meccanismi aggiuntivi prevengono il degrado:

  • Momentum: cattura sia l'importanza immediata che quella recente, evitando che informazioni importanti ma "vecchie" vengano sovrascritte
  • Forgetting (weight decay): per sequenze estremamente lunghe, un meccanismo di "dimenticanza" adattiva scarta informazioni obsolete

MIRAS: Il Framework Unificato

MIRAS (Memory In Recurrent Attention-like Structures) è il framework teorico che generalizza questo approccio. Definisce quattro scelte di design:

  1. Architettura della memoria: vettori, matrici, o reti profonde
  2. Bias attenzionale: l'obiettivo di apprendimento interno
  3. Gate di ritenzione: il bilanciamento tra nuovo apprendimento e ritenzione
  4. Algoritmo di memoria: i metodi di ottimizzazione usati

Da questo framework emergono tre varianti con proprietà diverse: YAAD (robusto agli outlier), MONETA (vincoli matematici più stretti), MEMORA (stabilità basata su probabilità).

Risultati

I numeri sono impressionanti:

Language modeling: Titans supera Mamba-2 e altre baseline mantenendo training parallelizzabile e inferenza a costo lineare.

BABILong benchmark: Su task di ragionamento con contesto estremamente lungo, Titans batte tutti i modelli testati — incluso GPT-4 — pur avendo molti meno parametri.

Scala fino a 2+ milioni di token di contesto.

Non è solo language modeling: l'architettura funziona anche per genomica e time-series forecasting.

Cosa Significa

Se questi risultati reggono in produzione, le implicazioni sono significative:

Un modello che può davvero ricordare milioni di token può analizzare interi codebase senza chunking. Può mantenere il contesto di conversazioni che durano mesi. Può processare documentazione tecnica completa senza perdere dettagli.

La "memoria" dei modelli AI è sempre stata un'approssimazione: attention window, RAG, chunking. Titans propone qualcosa di più vicino a vera memoria persistente — informazione che viene integrata nei pesi del modello, non solo recuperata da un database esterno.

È ancora ricerca. Non è ancora nei prodotti che usiamo. Ma indica una direzione: AI con memoria che scala, che impara continuamente, che non dimentica quello che ha letto ieri per far spazio a quello che legge oggi.


Paper: Titans (Google Research)
Framework: MIRAS
Dicembre 2025

- FINE -
1