13 settembre 2024 | 13.51
LETTURA: 4 minuti
OpenAI ha annunciato il rilascio di o1, il primo di una serie di LLM di “ragionamento” addestrati per rispondere a domande complesse più velocemente di un essere umano. Insieme a o1, viene rilasciata anche o1-mini, una versione più piccola ed economica. Per OpenAI, o1 rappresenta un passo avanti verso l’obiettivo a lungo termine di un’intelligenza artificiale simile a quella umana. In termini pratici, il modello è in grado di scrivere codice e risolvere problemi a più fasi in modo più efficiente rispetto ai modelli precedenti. Tuttavia, è anche più costoso e lento da utilizzare rispetto a GPT-4o. OpenAI definisce questo rilascio di o1 come un’anteprima per sottolineare il suo stato iniziale di sviluppo.
L’accesso a o1-preview e o1-mini è disponibile da dal 12 settembre per gli utenti ChatGPT Plus e Team, mentre gli utenti Enterprise ed Edu avranno accesso all’inizio della prossima settimana. OpenAI prevede di estendere l’accesso a o1-mini a tutti gli utenti gratuiti di ChatGPT, ma non ha ancora stabilito una data di rilascio. L’accesso per gli sviluppatori a o1 è particolarmente costoso: nell’API, o1-preview costa 15 dollari per 1 milione di token di input e 60 dollari per 1 milione di token di output. In confronto, GPT-4o costa 5 dollari per 1 milione di token di input e 15 dollari per 1 milione di token di output.L’addestramento alla base di o1 è fondamentalmente diverso da quello dei suoi predecessori, come spiega Jerry Tworek, responsabile della ricerca di OpenAI. Sebbene l’azienda mantenga riservati i dettagli esatti, Tworek afferma che o1 “è stato addestrato utilizzando un algoritmo di ottimizzazione completamente nuovo e un nuovo set di dati di addestramento specificamente adattato per esso”. Mentre i precedenti modelli GPT sono stati addestrati a imitare i modelli presenti nei dati di addestramento, con o1 OpenAI ha addestrato il modello a risolvere i problemi in modo autonomo utilizzando una tecnica nota come apprendimento per rinforzo, che insegna al sistema attraverso premi e penalità. Il modello utilizza poi una “catena di pensiero” per elaborare le query, in modo simile a come gli esseri umani elaborano i problemi passo dopo passo.Grazie a questa nuova metodologia di addestramento, OpenAI afferma che il modello dovrebbe essere più accurato. “Abbiamo notato che questo modello commette meno errori”, afferma Tworek. Tuttavia, il problema persiste. “Non possiamo dire di aver risolto del tutto qualsiasi problema di comprensione”. La principale caratteristica che distingue questo nuovo modello da GPT-4o è la sua capacità di affrontare problemi complessi, come la codifica e la matematica, in modo molto più efficace rispetto ai suoi predecessori, fornendo anche spiegazioni sul suo ragionamento. “Il modello è sicuramente migliore di me nel risolvere il test di matematica AP, e io ho studiato matematica all’università”, afferma Bob McGrew, responsabile della ricerca di OpenAI. McGrew riferisce che OpenAI ha anche testato o1 su un esame di qualificazione per le Olimpiadi Internazionali di Matematica, e mentre GPT-4o ha risolto correttamente solo il 13% dei problemi, o1 ha ottenuto un punteggio dell’83%.Nelle competizioni di programmazione online note come Codeforces, questo nuovo modello ha raggiunto l’89° percentile dei partecipanti, e OpenAI sostiene che il prossimo aggiornamento di questo modello avrà prestazioni “simili a quelle di studenti di dottorato in compiti impegnativi di fisica, chimica e biologia”. Allo stesso tempo, o1 non è così capace come GPT-4o in molte aree. Non è altrettanto performante nella conoscenza fattuale del mondo e non ha la capacità di navigare sul web o elaborare file e immagini. Tuttavia, l’azienda ritiene che rappresenti un nuovo inizio per l’intelligenza artificiale: è stato chiamato o1 per indicare un “reset del contatore a 1”.Sebbene non sia ancora possibile testare o1 direttamente, McGrew e Tworek hanno fornito una dimostrazione durante una presentazione live. Hanno chiesto al modello di risolvere un enigma matematico complesso, e il modello ha fornito una risposta corretta dopo 30 secondi di elaborazione. L’interfaccia è stata progettata per mostrare i passaggi del ragionamento mentre il modello pensa. Ciò che colpisce non è tanto il fatto che mostri il suo lavoro, ma quanto deliberatamente o1 sembri imitare il pensiero umano. Frasi come “Sono curioso di sapere”, “Sto pensando a” e “Ok, vediamo” creano l’illusione passo dopo passo di un processo di pensiero.