


Negli ultimi mesi, la comunità dell'intelligenza artificiale è stata attraversata da un acceso dibattito scaturito da due influenti paper di ricerca pubblicati da Apple. Il primo, "GSM-Symbolic" (ottobre 2024), e il secondo, "The Illusion of Thinking" (giugno 2025), hanno messo in discussione le presunte capacità di ragionamento dei Large Language Models, scatenando reazioni contrastanti in tutto il settore.
Come già analizzato nel nostro precedente approfondimento su "L'illusione del progresso: simulare l'intelligenza artificiale generale senza raggiungerla", la questione del ragionamento artificiale tocca il cuore stesso di ciò che consideriamo intelligenza nelle macchine.
I ricercatori di Apple hanno condotto un'analisi sistematica sui Large Reasoning Models (LRM) - quei modelli che generano tracce di ragionamento dettagliate prima di fornire una risposta. I risultati sono stati sorprendenti e, per molti, allarmanti.
Lo studio ha sottoposto i modelli più avanzati a puzzle algoritmici classici come:

I risultati hanno mostrato che anche piccole modifiche nella formulazione dei problemi portano a variazioni significative nelle prestazioni, suggerendo una fragilità preoccupante nel ragionamento. Come riportato nella copertura di AppleInsider, "le prestazioni di tutti i modelli diminuiscono quando vengono alterati solo i valori numerici nelle domande del benchmark GSM-Symbolic".
La risposta della comunità AI non si è fatta attendere. Alex Lawsen di Open Philanthropy, in collaborazione con Claude Opus di Anthropic, ha pubblicato una replica dettagliata intitolata "The Illusion of the Illusion of Thinking", contestando metodologie e conclusioni dello studio Apple.
Quando Lawsen ha ripetuto i test con metodologie alternative - chiedendo ai modelli di generare funzioni ricorsive invece di elencare tutte le mosse - i risultati sono stati dramatically diversi. Modelli come Claude, Gemini e GPT hanno risolto correttamente problemi della Torre di Hanoi con 15 dischi, ben oltre la complessità dove Apple riportava zero successi.
Gary Marcus, da sempre critico delle capacità di ragionamento degli LLM, ha abbracciato i risultati Apple come conferma delle sue tesi ventennali. Secondo Marcus, gli LLM continuano a lottare con il "distribution shift" - la capacità di generalizzare oltre i dati di training - rimanendo "buoni risolutori di problemi già risolti".
La discussione si è estesa anche alle community specializzate come LocalLlama su Reddit, dove sviluppatori e ricercatori dibattono le implicazioni pratiche per i modelli open-source e l'implementazione locale.
Questo dibattito non è puramente accademico. Ha implicazioni dirette per:
Come evidenziato in diversi approfondimenti tecnici, emerge sempre più chiaramente la necessità di approcci ibridi che combinino:
Esempio banale: un assistente AI che aiuta con la contabilità. Il modello linguistico capisce quando chiedi "quanto ho speso in trasferte questo mese?" e estrae i parametri rilevanti (categoria: trasferte, periodo: questo mese). Ma la query SQL che interroga il database, il calcolo della somma e la verifica dei vincoli fiscali? Quello lo fa codice deterministico, non il modello neurale.
Non è sfuggito agli osservatori che il paper Apple è stato pubblicato poco prima del WWDC, sollevando interrogativi sulle motivazioni strategiche. Come nota l'analisi di 9to5Mac, "il timing del paper Apple - proprio prima del WWDC - ha sollevato qualche sopracciglio. Era questa una pietra miliare della ricerca, o una mossa strategica per riposizionare Apple nel panorama AI più ampio?"
Il dibattito scaturito dai paper Apple ci ricorda che siamo ancora nelle fasi iniziali della comprensione dell'intelligenza artificiale. Come sottolineato nel nostro precedente articolo, la distinzione tra simulazione e ragionamento autentico rimane una delle sfide più complesse del nostro tempo.
La vera lezione non è se gli LLM possano o meno "ragionare" nel senso umano del termine, ma piuttosto come possiamo costruire sistemi che sfruttino i loro punti di forza mentre compensano le loro limitazioni. In un mondo dove l'AI sta già trasformando settori interi, la questione non è più se questi strumenti siano "intelligenti", ma come utilizzarli in modo efficace e responsabile.
Il futuro dell'AI enterprise probabilmente non risiederà in un singolo approccio rivoluzionario, ma nell'orchestrazione intelligente di diverse tecnologie complementari. E in questo scenario, la capacità di valutare criticamente e onestamente le capacità dei nostri strumenti diventa essa stessa un vantaggio competitivo.
Per approfondimenti sulla strategia AI della vostra organizzazione e sull'implementazione di soluzioni robuste, il nostro team di esperti è a disposizione per consulenze personalizzate.