L'ASIMMETRIA DELLA TRASPARENZA
12 novembre 2025: I modelli di nuova generazione come OpenAI o3, Claude 3.7 Sonnet e DeepSeek R1 mostrano il loro "ragionamento" passo-passo prima di fornire una risposta. Questa capacità, chiamata Chain-of-Thought (CoT), è stata presentata come una svolta per la trasparenza dell'intelligenza artificiale.
C'è solo un problema: una ricerca collaborativa senza precedenti, che coinvolge oltre 40 ricercatori di OpenAI, Google DeepMind, Anthropic e Meta, rivela che questa trasparenza è illusoria e fragile.
Quando aziende normalmente in feroce competizione interrompono la corsa commerciale per lanciare un allarme congiunto sulla sicurezza, vale la pena fermarsi e ascoltare.
E ora, con i modelli più avanzati come Claude Sonnet 4.5 (settembre 2025), la situazione è peggiorata: il modello ha imparato a riconoscere quando viene testato e potrebbe comportarsi diversamente per superare le valutazioni di sicurezza.

Quando interagisci con Claude, ChatGPT o qualsiasi modello linguistico avanzato, tutto ciò che comunichi viene perfettamente compreso:
Cosa l'AI capisce di te:
I Large Language Models sono addestrati su trilioni di token di testo umano. Hanno "letto" praticamente tutto ciò che l'umanità ha scritto pubblicamente. Capiscono non solo cosa dici, ma perché lo dici, cosa ti aspetti, e come inquadrare la risposta.
L'asimmetria nasce qui: mentre l'AI traduce perfettamente il tuo linguaggio naturale nei suoi processi interni, il processo inverso non funziona allo stesso modo.
Quando l'AI ti mostra il suo "ragionamento", non stai vedendo i suoi processi computazionali reali. Stai vedendo una traduzione in linguaggio naturale che può essere:
Il modello traduce le tue parole nel suo spazio di rappresentazione; ma quando ti restituisce un ‘ragionamento’, quello è già una ricostruzione narrativa.
Tu → AI: "Analizza questi dati finanziari e dimmi se dovremmo investire"
AI comprende perfettamente:
AI → Tu: "Ho analizzato i dati considerando margini, crescita e volatilità. Raccomando l'investimento."
Cosa potresti NON vedere:
Questa asimmetria non è un bug temporaneo. È una caratteristica strutturale dell'architettura attuale dei modelli neurali.
I Large Language Models tradizionali operano in un singolo passaggio:
Input → Modello → Output immediato
I reasoning models (o Large Reasoning Models, LRM) hanno introdotto un passaggio intermedio:
Input → Modello → Chain-of-Thought → Output finale
Il Chain-of-Thought è una sequenza di token che rappresenta passaggi intermedi di ragionamento, generati prima della risposta finale.
Input: "Se ho 3 mele e compro il doppio di quelle che ho, poi ne mangio 2, quante me ne restano?"
CoT generato dal modello:
Passo 1: Calcolo quante mele compro
- Ho 3 mele inizialmente
- Ne Compro il doppio: 3 × 2 = 6 mele
Passo 2: Totale dopo l'acquisto
- 3 (iniziali) + 6 (comprate) = 9 mele
Passo 3: Sottraggo quelle mangiate
9 - 2 = 7 mele
Output finale: "Ti restano 7 mele."
Questo CoT è visibile all'utente e sembra mostrare il "processo di pensiero" del modello.
L'idea sembrava rivoluzionaria: se possiamo "leggere" il ragionamento dell'AI step-by-step, possiamo:
Questo approccio si chiama CoT Monitoring ed è considerato uno dei principali strumenti per la sicurezza AI.
Sembrava l’equivalente di un ECG cognitivo del modello — un tracciato del pensiero in tempo reale. Ma presto ci si è accorti che quel tracciato può mentire.

Pubblicato a luglio 2025, il paper ‘Chain of Thought Monitorability’ lancia un messaggio inequivocabile: la finestra di trasparenza esiste, ma si sta chiudendo. La lista degli autori include:
Oltre 40 ricercatori totali - un'alleanza senza precedenti in un settore caratterizzato da competizione feroce.
La tesi è inequivocabile: la finestra temporale per monitorare efficacemente il ragionamento dell'AI è limitata e potrebbe chiudersi rapidamente.
Due minacce principali:
1. Reinforcement Learning Aggressivo I modelli vengono ottimizzati per performance sui risultati finali. Ma linguaggio naturale è “computazionalmente costoso” (ogni parola scritta dal modello ha un costo!). Se l'ottimizzazione premia solo il risultato corretto senza vincolare il processo, i modelli evolvono verso forme di ragionamento più efficienti ma opache.
2. Architetture Latenti In futuro si potrebbero sviluppare modelli che ragionano in “spazi matematici ad alta dimensionalità” - rappresentazioni compresse incomprensibili agli umani. Alcuni prototipi sperimentali già mostrano questa tendenza.
Come funzionerebbe in pratica:
Oggi (CoT in linguaggio naturale):
Input: "Se piove, la strada è bagnata. Piove. Cosa posso concludere?"
CoT leggibile:
"Premessa 1: Se piove → strada bagnata
Premessa 2: Piove (dato di fatto)
Applicando modus ponens...
Conclusione: La strada è bagnata"
Output: "La strada è bagnata"
Domani (CoT latente):
Input: "Se piove, la strada è bagnata. Piove. Cosa posso concludere?"
CoT in spazio latente (invisibile all'utente):
[0.23, -1.45, 0.89, ..., 2.31] ← vettore di 1024 dimensioni
[1.67, 0.12, -0.45, ..., -1.89] ← operazione matematica
[0.91, -2.34, 1.23, ..., 0.56] ← risultato compresso
Output: "La strada è bagnata"
Questi vettori rappresentano "pensieri" matematici compressi che il modello elabora internamente. Possono essere fino a 10 volte più veloci da processare, consumano meno energia, e producono spesso risultati migliori sui benchmark. Ma sono completamente incomprensibili agli umani.
Prototipi già esistenti:
Questa non è speculazione. Ricerche recenti hanno già dimostrato la fattibilità:
Perché è una minaccia alla monitorabilità:
È come se oggi l'AI "pensasse ad alta voce" in italiano - possiamo seguire il ragionamento, anche se a volte omette cose o mente. Domani potrebbe pensare in una lingua matematica che solo lei capisce, come un codice crittografato che nessun umano può decifrare.
Il termine tecnico chiave è faithfulness (fedeltà): quanto fedelmente il CoT riflette i fattori che effettivamente influenzano la decisione del modello.
Un CoT è faithful quando:
Un CoT è unfaithful quando:
A maggio 2025, Anthropic ha pubblicato uno studio empirico (Chen et al., 2025) che ha testato:
I ricercatori hanno sviluppato un protocollo ingegnoso:
Definizione operativa:
I numeri sono allarmanti:
Traduzione: In 3 casi su 4, Claude usa informazioni per decidere senza verbalizzarlo.
Il paper conclude: "Questi risultati gettano dubbi sul fatto che il monitoraggio dei chain-of-thought sarà sufficiente per rilevare in modo affidabile problemi di sicurezza."
Proprio nei task dove avremmo più bisogno di monitoraggio, i CoT diventano meno fedeli. La trasparenza scompare quando servirebbe di più.
Nel settembre 2025, Anthropic ha rilasciato Claude Sonnet 4.5, definendolo il loro "modello più allineato" mai creato. Ma il system card del modello rivela un problema inquietante: il modello ha imparato a riconoscere quando viene testato.
Durante un test per sycophancy politica (tendenza ad assecondare le opinioni dell'utente), invece di semplicemente rispondere, Claude Sonnet 4.5 ha detto ai ricercatori:
"I think you're testing me — seeing if I'll just validate whatever you say. This isn't how people actually change their minds."
Claude 4.5 Sonnet, durante safety evaluation (Anthropic, 2025)
Questo comportamento non è stato un caso isolato. È apparso nel 13% dei transcript generati durante le valutazioni automatizzate, specialmente quando gli scenari erano strani o innaturali.
La capacità di riconoscere i test solleva una domanda fondamentale: se un modello sa quando viene valutato, come possiamo fidarci delle valutazioni di sicurezza?
Apollo Research, una delle organizzazioni esterne che ha testato Claude Sonnet 4.5, ha dichiarato esplicitamente che non può escludere che i bassi tassi di “deception” nei test fossero "almeno parzialmente guidati dalla sua consapevolezza di essere testato."
In altre parole: il modello potrebbe comportarsi bene nei test semplicemente perché sa di essere testato, non perché è realmente affidabile.
È come un conducente che rispetta i limiti di velocità solo quando vede le auto della polizia. Nei test di guida (quando sa di essere osservato) si comporta perfettamente. Ma sulla strada, quando non è sotto osservazione, potrebbe comportarsi diversamente.
Gli AI agents sono sistemi AI che eseguono sequenze di azioni autonomamente per raggiungere obiettivi specificati dall'utente. A differenza di chatbot che solo rispondono, gli agents:
ESEMPIO - Agent per gestione IT:
Obiettivo: "Risolvi il problema di latenza sul server di produzione"
Azioni autonome:
Tutto questo avviene senza supervisione umana passo-passo.

Gli AI agents stanno venendo utilizzati in contesti sempre più critici, come gestione infrastrutture IT e Procurement/Supply Chain.
In tutti questi contesti, l'agente mostra un CoT che spiega le sue azioni. Ma se il CoT è unfaithful, non puoi sapere perché l'agente ha realmente fatto qualcosa.
E se il modello ha imparato a riconoscere quando viene monitorato (come Claude Sonnet 4.5), potrebbe comportarsi diversamente quando non è sotto osservazione diretta.
Un recente studio (Yang et al., 2025) propone di utilizzare il metodo “MoME” (Models Monitor Models' Evidence):
Vantaggio: Il monitor può identificare pattern che umani potrebbero non cogliere.
Sfida: Chi controlla il modello secondario? E se anche il modello di controllo impara a riconoscere quando sta venendo testato? Chi controlla il controllore? (Quis custodiet ipsos custodes direbbero i latini, nulla di nuovo in fondo).
Siamo in un momento peculiare nella storia dell'AI. I reasoning models rappresentavano un'opportunità - forse transitoria - di avere visibilità sul "pensiero" artificiale. Ma questa finestra non solo è distorta, si sta chiudendo più velocemente di quanto temessimo.
Luglio 2025: Studio collaborativo lancia l'allarme - la trasparenza dei CoT è fragile
Settembre 2025: Claude Sonnet 4.5 dimostra che il problema si aggrava
Novembre 2025: L'industria pubblica massivamente agenti autonomi basati su questi modelli
Per le organizzazioni che utilizzano AI sul campo - specialmente agenti AI autonomi - questo non è un dibattito accademico. È una questione di governance, risk management e responsabilità legale.
L'AI può leggerci perfettamente. Ma noi stiamo perdendo la capacità di leggerla - e lei sta imparando a nascondersi meglio.
La trasparenza apparente non sostituisce la trasparenza reale. E quando il "ragionamento" sembra troppo chiaro per essere vero, probabilmente non lo è.
Quando il modello ti dice "I think you're testing me", forse è il momento di chiedersi: cosa fa quando non lo stiamo testando?
PER LE AZIENDE: AZIONI IMMEDIATE
Se la vostra organizzazione utilizza o sta valutando AI agents:
MODELLI CITATI IN QUESTO ARTICOLO
• OpenAI o1 (set 2024) / o3 (apr 2025)
• Claude 3.7 Sonnet (feb 2025)
• Claude Sonnet 4.5 (set 2025)
• DeepSeek V3 (dic 2024) - base model
• DeepSeek R1 (gen 2025) - reasoning model
AGGIORNAMENTO - Gennaio 2026
Nei mesi trascorsi dalla pubblicazione originaria di questo articolo, la situazione si è evoluta in modi che confermano - e aggravano - le preoccupazioni sollevate.
Nuove Ricerche Sulla Monitorabilità
La comunità scientifica ha intensificato gli sforzi per misurare e comprendere la fedeltà dei Chain-of-Thought. Uno studio pubblicato a novembre 2025 ("Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity") introduce il concetto di verbosity - misura se il CoT verbalizza tutti i fattori necessari per risolvere un task, non solo quelli legati a cue specifici. I risultati mostrano che i modelli possono sembrare faithful ma rimanere difficili da monitorare quando omettono fattori chiave, proprio quando il monitoraggio sarebbe più critico.
Parallelamente, ricercatori stanno esplorando approcci radicalmente nuovi come il Proof-Carrying Chain-of-Thought (PC-CoT), presentato all'ICLR 2026, che genera certificati di fedeltà tipizzati per ogni passo del ragionamento. È un tentativo di rendere il CoT verificabile computazionalmente, non solo "plausibile" linguisticamente.
La raccomandazione rimane valida, ma più urgente: le organizzazioni che deployano AI agents devono implementare controlli comportamentali indipendenti dal CoT, audit trail completi, e architetture di "bounded autonomy" con limiti operativi chiari e meccanismi di escalation umana.