Newsletter

Il problema della Fragola

"Quante 'r' in strawberry?" — GPT-4o risponde "due", un bambino di sei anni sa che sono tre. Il problema è la tokenizzazione: il modello vede [str][aw][berry], non lettere. OpenAI non l'ha risolto con o1—l'ha aggirato insegnando al modello a "pensare prima di parlare". Risultato: 83% vs 13% alle Olimpiadi di Matematica, ma 30 secondi invece di 3 e costi triplicati. I modelli linguistici sono strumenti probabilistici straordinari—ma per contare serve ancora un umano.

Dal Problema "Strawberry" al Modello o1: Come OpenAI Ha Risolto (Parzialmente) il Limite della Tokenizzazione

Nell'estate del 2024, un meme virale su internet metteva in imbarazzo i modelli linguistici più avanzati al mondo: "Quante 'r' ci sono nella parola 'strawberry'?" La risposta corretta è tre, ma GPT-4o rispondeva ostinatamente "due". Un errore apparentemente banale che rivelava una limitazione fondamentale dei modelli linguistici: la loro incapacità di analizzare le singole lettere all'interno delle parole.

Il 12 settembre 2024, OpenAI ha rilasciato o1—internamente conosciuto con il nome in codice "Strawberry"—il primo modello della nuova serie di "reasoning models" progettati specificamente per superare questo tipo di limitazioni. E sì, il nome non è casuale: come ha confermato un ricercatore OpenAI, o1 finalmente riesce a contare correttamente le 'r' in "strawberry".

Ma la soluzione non è quella che l'articolo originale immaginava. OpenAI non ha "insegnato" al modello ad analizzare le parole lettera per lettera. Ha invece sviluppato un approccio completamente diverso: insegnare al modello a "ragionare" prima di rispondere.

Il Problema del Conteggio: Perché i Modelli Sbagliano

Il problema rimane radicato nella tokenizzazione—il processo fondamentale con cui i modelli linguistici elaborano il testo. Come spiegato in un articolo tecnico pubblicato su arXiv nel maggio 2025 ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), i modelli non vedono le parole come sequenze di lettere ma come "token"—unità di significato convertite in numeri.

Quando GPT-4 processa la parola "strawberry", il suo tokenizzatore la divide in tre parti: [str][aw][berry], ciascuna con un ID numerico specifico (496, 675, 15717). Per il modello, "strawberry" non è una sequenza di 10 lettere ma una sequenza di 3 token numerici. È come se leggesse un libro dove ogni parola è sostituita da un codice—e poi qualcuno gli chiedesse di contare le lettere in un codice che non ha mai visto scritto.

Il problema si aggrava con parole composte. "Timekeeper" viene spezzato in token separati, rendendo impossibile per il modello determinare la posizione esatta delle lettere senza un processo di ragionamento esplicito. La frammentazione influenza non solo il conteggio delle lettere ma anche la comprensione della struttura interna delle parole.

La Soluzione o1: Ragionare Prima di Rispondere

OpenAI o1 ha risolto il problema in modo inaspettato: invece di modificare la tokenizzazione—cosa tecnicamente difficile e che comprometterebbe l'efficienza del modello—ha insegnato al sistema a "pensare prima di parlare" usando una tecnica chiamata "chain of thought reasoning" (ragionamento a catena di pensieri).

Quando chiedi a o1 quante 'r' ci sono in "strawberry", il modello non risponde immediatamente. Passa diversi secondi—a volte anche minuti per domande complesse—elaborando internamente una "catena di ragionamento" nascosta all'utente. Questo processo gli permette di:

  1. Riconoscere che la domanda richiede analisi a livello di carattere
  2. Sviluppare una strategia per scomporre la parola
  3. Verificare la risposta attraverso approcci diversi
  4. Correggere eventuali errori prima di fornire la risposta finale

Come ha spiegato Noam Brown, ricercatore OpenAI, in una serie di post su X: "o1 è addestrato con reinforcement learning a 'pensare' prima di rispondere tramite una catena di pensiero privata". Il modello riceve ricompense durante l'addestramento per ogni passo corretto nel processo di ragionamento, non solo per la risposta finale corretta.

I risultati sono impressionanti ma costosi. In un esame di qualificazione per le Olimpiadi Internazionali di Matematica, o1 ha risolto correttamente l'83% dei problemi contro il 13% di GPT-4o. Su domande di livello dottorato in scienze, ha raggiunto il 78% di accuratezza contro il 56% di GPT-4o. Ma questa potenza ha un prezzo: o1 impiega 30+ secondi per rispondere a domande che GPT-4o risolve in 3 secondi, e costa 15 dollari per milione di token in input contro 5 dollari di GPT-4o.

Chain of Thought: Come Funziona Davvero

La tecnica non è magica ma metodica. Quando riceve un prompt, o1 genera internamente una lunga sequenza di "pensieri" che non vengono mostrati all'utente. Per il problema delle 'r' in "strawberry", il processo interno potrebbe essere:

"Prima devo capire la struttura della parola. Strawberry potrebbe essere tokenizzata come [str][aw][berry]. Per contare le 'r', devo ricostruire la parola completa a livello di carattere. Str contiene: s-t-r (1 'r'). Aw contiene: a-w (0 'r'). Berry contiene: b-e-r-r-y (2 'r'). Totale: 1+0+2 = 3 'r'. Verifico: strawberry = s-t-r-a-w-b-e-r-r-y. Conto le 'r': posizione 3, posizione 8, posizione 9. Confermato: 3 'r'."

Questo ragionamento interno è nascosto per design. OpenAI vieta esplicitamente agli utenti di tentare di rivelare la catena di pensiero di o1, monitorando i prompt e potenzialmente revocando l'accesso a chi viola questa regola. L'azienda cita motivi di sicurezza AI e vantaggio competitivo, ma la decisione è stata criticata come perdita di trasparenza da sviluppatori che lavorano con modelli linguistici.

Limiti Persistenti: o1 Non È Perfetto

Nonostante i progressi, o1 non ha risolto completamente il problema. Ricerca pubblicata su Language Log nel gennaio 2025 ha testato vari modelli su una sfida più complessa: "Scrivi un paragrafo dove la seconda lettera di ogni frase compone la parola 'CODE'".

o1 standard (20 dollari al mese) ha fallito, contando erroneamente la prima lettera di ogni parola iniziale come "seconda lettera". o1-pro (200 dollari al mese) ha risolto il problema... dopo 4 minuti e 10 secondi di "pensiero". DeepSeek R1, il modello cinese che ha scosso il mercato a gennaio 2025, ha fatto lo stesso errore di o1 standard.

Il problema fondamentale rimane: i modelli continuano a vedere il testo attraverso token, non lettere. o1 ha imparato a "lavorare intorno" a questa limitazione attraverso il ragionamento, ma non l'ha eliminata. Come ha osservato un ricercatore su Language Log: "La tokenizzazione è parte dell'essenza di cosa sono i modelli linguistici; per qualsiasi risposta sbagliata la spiegazione è precisamente 'beh, tokenizzazione'".

Ricerca Accademica: Emergenza della Comprensione a Livello di Carattere

Un paper significativo pubblicato su arXiv nel maggio 2025 ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models") analizza questo fenomeno da una prospettiva teorica. I ricercatori hanno creato 19 task sintetici che isolano il ragionamento a livello di carattere in contesti controllati, dimostrando che queste capacità emergono improvvisamente e solo in fase avanzata dell'addestramento.

Lo studio propone che l'apprendimento della composizione dei caratteri non sia fondamentalmente diverso dall'apprendimento della conoscenza di senso comune—emerge attraverso processi di "percolazione concettuale" quando il modello raggiunge una massa critica di esempi e connessioni.

I ricercatori suggeriscono una modifica architettonica leggera che migliora significativamente il ragionamento a livello di carattere preservando i vantaggi induttivi dei modelli basati su subword. Tuttavia, queste modifiche rimangono sperimentali e non sono state implementate nei modelli commerciali.

Implicazioni Pratiche: Quando Fidarsi e Quando No

Il caso "strawberry" insegna una lezione importante sull'affidabilità dei modelli linguistici: sono strumenti probabilistici, non calcolatori deterministici. Come ha osservato Mark Liberman su Language Log: "Dovreste essere cauti nel fidarvi della risposta di qualsiasi sistema AI attuale in compiti che coinvolgono il conteggio di cose".

Questo non significa che i modelli siano inutili. Come ha notato un commentatore: "Il fatto che un gatto faccia lo stupido errore di spaventarsi per un cetriolo non significa che non dovremmo fidarci del gatto per il compito molto più difficile di tenere i roditori fuori dall'edificio". I modelli linguistici non sono lo strumento giusto se vuoi contare sistematicamente le lettere, ma sono eccellenti per processare automaticamente migliaia di trascrizioni podcast ed estrarre nomi di ospiti e conduttori.

Per compiti che richiedono precisione assoluta—atterrare una navicella su Marte, calcolare dosaggi farmaceutici, verificare conformità legale—i modelli linguistici attuali rimangono inadeguati senza supervisione umana o verifica esterna. La loro natura probabilistica li rende potenti per pattern matching e generazione creativa, ma inaffidabili per compiti dove l'errore non è accettabile.

Il Futuro: Verso Modelli che Ragionano per Ore

OpenAI ha dichiarato che intende sperimentare con modelli o1 che "ragionano per ore, giorni o persino settimane" per aumentare ulteriormente le loro capacità di ragionamento. A dicembre 2024 è stato annunciato o3 (il nome o2 è stato saltato per evitare conflitti di trademark con l'operatore mobile O2), e a marzo 2025 è stata rilasciata l'API di o1-pro, il modello AI più costoso di OpenAI fino ad oggi, al prezzo di 150 dollari per milione di token in input e 600 dollari per milione in output.

La direzione è chiara: invece di rendere i modelli sempre più grandi (scaling), OpenAI sta investendo nel farli "pensare" più a lungo (test-time compute). Questo approccio potrebbe essere più sostenibile energeticamente e computazionalmente rispetto all'addestramento di modelli sempre più massicci.

Ma rimane una domanda aperta: questi modelli stanno davvero "ragionando" o semplicemente simulando ragionamento attraverso pattern statistici più sofisticati? Ricerca di Apple pubblicata nell'ottobre 2024 ha riportato che modelli come o1 potrebbero replicare passi di ragionamento dai propri dati di addestramento. Cambiando numeri e nomi in problemi matematici, o semplicemente rieseguendo lo stesso problema, i modelli performavano significativamente peggio. Aggiungendo informazioni estranee ma logicamente irrilevanti, le performance crollavano del 65% per alcuni modelli.

Conclusione: Strumenti Potenti con Limiti Fondamentali

Il problema "strawberry" e la soluzione o1 rivelano sia il potenziale che i limiti intrinseci dei modelli linguistici attuali. OpenAI ha dimostrato che attraverso addestramento mirato e tempo di elaborazione aggiuntivo, i modelli possono superare alcune limitazioni strutturali della tokenizzazione. Ma non l'hanno eliminata—l'hanno aggirata.

Per utenti e sviluppatori, la lezione pratica è chiara: comprendere come funzionano questi sistemi—cosa fanno bene e dove falliscono—è fondamentale per usarli efficacemente. I modelli linguistici sono strumenti straordinari per compiti probabilistici, pattern matching, generazione creativa e sintesi di informazioni. Ma per compiti che richiedono precisione deterministica—contare, calcolare, verificare fatti specifici—rimangono inaffidabili senza supervisione esterna o strumenti complementari.

Il nome "Strawberry" resterà come promemoria ironico di questa limitazione fondamentale: anche i sistemi AI più avanzati del mondo possono inciampare su domande che un bambino di sei anni risolverebbe istantaneamente. Non perché siano stupidi, ma perché "pensano" in modi profondamente diversi da noi—e forse dovremmo smettere di aspettarci che pensino come umani.

Fonti:

  • OpenAI - "Learning to Reason with LLMs" (blog post ufficiale, settembre 2024)
  • Wikipedia - "OpenAI o1" (voce aggiornata gennaio 2025)
  • Cosma, Adrian et al. - "The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models", arXiv:2505.14172 (maggio 2025)
  • Liberman, Mark - "AI systems still can't count", Language Log (gennaio 2025)
  • Yang, Yu - "Why Large Language Models Struggle When Counting Letters in a Word?", Medium (febbraio 2025)
  • Orland, Kyle - "How does DeepSeek R1 really fare against OpenAI's best reasoning models?", Ars Technica
  • Brown, Noam (OpenAI) - Serie di post su X/Twitter (settembre 2024)
  • TechCrunch - "OpenAI unveils o1, a model that can fact-check itself" (settembre 2024)
  • 16x Prompt - "Why ChatGPT Can't Count How Many Rs in Strawberry" (aggiornato giugno 2025)

Resources for business growth