C'è un limite fondamentale nei modelli di linguaggio attuali: la finestra di contesto. GPT-4 può "ricordare" circa 128.000 token. Claude arriva a 200.000. Sembra tanto, ma per certi compiti — analizzare un intero codebase, processare anni di conversazioni, ragionare su documenti lunghi migliaia di pagine — non basta.
Google Research ha pubblicato due innovazioni che affrontano questo problema: Titans, un'architettura neurale, e MIRAS, il framework teorico che la sottende. Insieme, promettono di portare la memoria dei modelli AI a milioni di token.
I Transformer, l'architettura dietro GPT e Claude, hanno un problema: l'attenzione scala quadraticamente con la lunghezza del contesto. Raddoppia il contesto, quadruplica il costo computazionale. È per questo che le finestre di contesto hanno un limite pratico.
Le RNN (Recurrent Neural Networks) risolvevano questo problema comprimendo tutto il contesto in un vettore di dimensione fissa. Ma comprimere significa perdere informazione. Una RNN che ha "letto" un milione di token non ricorda davvero tutto — ha una sintesi lossy.
Titans cerca il meglio di entrambi i mondi: la scalabilità lineare delle RNN con la capacità di ricordare dei Transformer.
L'idea chiave è semplice nella formulazione, profonda nelle implicazioni: invece di comprimere il contesto in un vettore, usa una rete neurale come memoria.
Un Multi-Layer Perceptron (MLP) può memorizzare pattern complessi nei suoi pesi. Titans usa un MLP come "memoria a lungo termine" che si aggiorna continuamente mentre processa nuovi dati.
Questo dà al sistema una capacità espressiva molto maggiore di un semplice vettore. Non è più compressione lossy — è apprendimento continuo.
Ma se memorizzi tutto, la memoria esplode. Serve un meccanismo per decidere cosa è importante ricordare.
Titans usa una "metrica della sorpresa": confronta quanto l'input attuale è diverso da quello che la memoria si aspettava. Se la differenza è alta (sorpresa alta), l'informazione viene memorizzata con priorità. Se è bassa (informazione attesa, ridondante), viene trattata con meno peso.
È simile a come funziona la memoria umana: ricordiamo gli eventi inaspettati, dimentichiamo la routine.
Due meccanismi aggiuntivi prevengono il degrado:
MIRAS (Memory In Recurrent Attention-like Structures) è il framework teorico che generalizza questo approccio. Definisce quattro scelte di design:
Da questo framework emergono tre varianti con proprietà diverse: YAAD (robusto agli outlier), MONETA (vincoli matematici più stretti), MEMORA (stabilità basata su probabilità).
I numeri sono impressionanti:
Language modeling: Titans supera Mamba-2 e altre baseline mantenendo training parallelizzabile e inferenza a costo lineare.
BABILong benchmark: Su task di ragionamento con contesto estremamente lungo, Titans batte tutti i modelli testati — incluso GPT-4 — pur avendo molti meno parametri.
Scala fino a 2+ milioni di token di contesto.
Non è solo language modeling: l'architettura funziona anche per genomica e time-series forecasting.
Se questi risultati reggono in produzione, le implicazioni sono significative:
Un modello che può davvero ricordare milioni di token può analizzare interi codebase senza chunking. Può mantenere il contesto di conversazioni che durano mesi. Può processare documentazione tecnica completa senza perdere dettagli.
La "memoria" dei modelli AI è sempre stata un'approssimazione: attention window, RAG, chunking. Titans propone qualcosa di più vicino a vera memoria persistente — informazione che viene integrata nei pesi del modello, non solo recuperata da un database esterno.
È ancora ricerca. Non è ancora nei prodotti che usiamo. Ma indica una direzione: AI con memoria che scala, che impara continuamente, che non dimentica quello che ha letto ieri per far spazio a quello che legge oggi.
Paper: Titans (Google Research)
Framework: MIRAS
Dicembre 2025