L'addestramento dei modelli di intelligenza artificiale rappresenta una delle sfide più complesse nell'ambito dello sviluppo tecnologico contemporaneo. Molto più che una semplice questione algoritmica, l'addestramento efficace di un modello richiede un approccio metodico e multidisciplinare che integra dati, scienza dei dati, conoscenza del dominio e ingegneria del software. Come evidenziato da James Luke nel suo fondamentale testo "Beyond Algorithms: Delivering AI for Business", il successo di un'implementazione di IA dipende molto più dalla gestione dei dati e dalla progettazione sistemica che dagli algoritmi stessi. Il panorama è in rapida evoluzione, con innovazioni come il modello DeepSeek-R1 che stanno ridefinendo costi e accessibilità.
Contrariamente a quanto spesso si crede, la quantità di dati non è sempre l'elemento determinante per il successo. La qualità e la rappresentatività dei dati sono significativamente più importanti. In questo contesto, risulta fondamentale integrare diverse fonti:
Questa integrazione crea una base formativa completa che cattura scenari reali mantenendo al contempo standard etici e di privacy.
Il processo di "data wrangling" (letteralmente "domare i dati") rappresenta fino all'80% dell'impegno richiesto nei progetti di intelligenza artificiale. Questa fase comporta:
La scelta dell'architettura del modello deve essere guidata dalla natura specifica del problema da risolvere, piuttosto che da tendenze o preferenze personali. Diverse tipologie di problemi richiedono diversi approcci:
L'ottimizzazione architettonica richiede una valutazione sistematica tra diverse configurazioni, con particolare attenzione al bilanciamento tra prestazioni e requisiti computazionali, un aspetto diventato ancora più rilevante con l'avvento di modelli come DeepSeek-R1 che offrono capacità di ragionamento avanzate a costi significativamente inferiori.
La distillazione è emersa come uno strumento particolarmente potente nell'ecosistema attuale dell'IA. Questo processo permette di creare modelli più piccoli e specifici che ereditano le capacità di ragionamento di modelli più grandi e complessi, come DeepSeek-R1.
Come evidenziato nel caso di DeepSeek, l'azienda ha distillato le proprie capacità di ragionamento su diversi modelli più piccoli, inclusi modelli open-source della famiglia Llama di Meta e della famiglia Qwen di Alibaba. Questi modelli più piccoli possono essere successivamente ottimizzati per compiti specifici, accelerando la tendenza verso modelli veloci e specializzati.
Sam Witteveen, sviluppatore di machine learning, osserva: "Stiamo iniziando a entrare in un mondo in cui le persone utilizzano modelli multipli. Non usano solo un modello per tutto il tempo." Questo include anche modelli chiusi a basso costo come Gemini Flash e GPT-4o Mini, che "funzionano molto bene per l'80% dei casi d'uso."
Invece di addestrare modelli separati per capacità correlate, l'apprendimento multi-task consente ai modelli di condividere conoscenze tra diverse funzioni:
Per le aziende che operano in domini molto specifici, dove le informazioni non sono ampiamente disponibili sul web o nei libri tipicamente utilizzati per l'addestramento dei modelli linguistici, il fine-tuning supervisionato (SFT) rappresenta un'opzione efficace.
DeepSeek ha dimostrato che è possibile ottenere buoni risultati con "migliaia" di set di dati di domande e risposte. Ad esempio, l'ingegnere IBM Chris Hay ha mostrato come ha messo a punto un piccolo modello utilizzando i propri dataset specifici per la matematica, ottenendo risposte estremamente rapide che superavano le prestazioni del modello o1 di OpenAI sugli stessi compiti.
Le aziende che desiderano addestrare un modello con ulteriore allineamento a preferenze specifiche – ad esempio, rendere un chatbot di supporto clienti empatico ma conciso – vorranno implementare tecniche di apprendimento per rinforzo (RL). Questo approccio è particolarmente utile se un'azienda vuole che il suo chatbot adatti il tono e le raccomandazioni in base al feedback dell'utente.
Per la maggior parte delle aziende, il RAG (Retrieval-Augmented Generation) rappresenta il percorso più semplice e sicuro. Si tratta di un processo relativamente diretto che consente alle organizzazioni di ancorare i loro modelli con dati proprietari contenuti nei propri database, garantendo che gli output siano accurati e specifici per il dominio.
Questo approccio aiuta anche a contrastare alcuni dei problemi di allucinazione associati ai modelli come DeepSeek, che attualmente allucinano nel 14% dei casi rispetto all'8% del modello o3 di OpenAI, secondo uno studio condotto da Vectara.
La combinazione di distillazione dei modelli e RAG è dove risiede la magia per la maggior parte delle aziende, essendo diventata incredibilmente facile da implementare, anche per coloro con competenze limitate in scienza dei dati o programmazione.
Un'IA efficace non si misura solo in termini di accuratezza grezza, ma richiede un quadro di valutazione completo che consideri:
L'impatto più immediato del rilascio di DeepSeek è la sua aggressiva riduzione dei prezzi. Il settore tecnologico si aspettava che i costi diminuissero nel tempo, ma pochi avevano previsto quanto rapidamente sarebbe accaduto. DeepSeek ha dimostrato che modelli potenti e aperti possono essere sia economici che efficienti, creando opportunità per una sperimentazione diffusa e un'implementazione conveniente.
Amr Awadallah, CEO di Vectara, ha sottolineato questo punto, notando che il vero punto di svolta non è solo il costo di addestramento, ma il costo di inferenza, che per DeepSeek è circa 1/30 di quello dei modelli o1 o o3 di OpenAI per costo di inferenza per token. "I margini che OpenAI, Anthropic e Google Gemini sono stati in grado di catturare dovranno ora essere ridotti di almeno il 90% perché non possono rimanere competitivi con prezzi così alti," ha detto Awadallah.
Non solo, questi costi continueranno a diminuire. Il CEO di Anthropic, Dario Amodei, ha recentemente affermato che il costo di sviluppo dei modelli continua a diminuire a un ritmo di circa 4 volte ogni anno. Ne consegue che anche il tasso che i fornitori di LLM addebitano per il loro utilizzo continuerà a diminuire.
"Mi aspetto pienamente che il costo arrivi a zero," ha detto Ashok Srivastava, CDO di Intuit, un'azienda che ha spinto fortemente l'IA nelle sue offerte di software fiscali e contabili come TurboTax e Quickbooks. "...e la latenza arrivi a zero. Diventeranno semplicemente capacità di base che potremo utilizzare."
DeepSeek e Deep Research di OpenAI sono più che semplici nuovi strumenti nell'arsenale dell'IA – sono segnali di un profondo cambiamento in cui le aziende implementeranno masse di modelli costruiti per scopi specifici, estremamente economici, competenti e radicati nei dati e nell'approccio dell'azienda stessa.
Per le aziende, il messaggio è chiaro: gli strumenti per costruire potenti applicazioni di IA specifiche per un dominio sono a portata di mano. Si rischia di rimanere indietro se non si sfruttano questi strumenti. Ma il vero successo deriverà da come si curano i dati, si sfruttano tecniche come RAG e distillazione e si innova oltre la fase di pre-addestramento.
Come ha dichiarato Packer di AmEx: le aziende che gestiscono correttamente i propri dati saranno quelle che guideranno la prossima ondata di innovazione nell'IA.