Il Q* di OpenAI non è mai stato visto prima, ma il Q* di numerose startup è qui

2024-07-31

Quanto siamo lontani dall'intelligenza artificiale in grado di "pensare lentamente"?

Autore｜Stephanie Palazzolo

Compilazione |.Wan Chen

Editore｜Jingyu

L’anno scorso, prima e dopo il temporaneo licenziamento di Sam Altman, i ricercatori di OpenAI hanno inviato una lettera congiunta al consiglio di amministrazione, sottolineando che il misterioso progetto dal nome in codice Q potrebbe minacciare tutta l’umanità. OpenAI ha riconosciuto Q* in una lettera interna ai dipendenti e ha descritto il progetto come un "sistema autonomo sovrumano".

Anche se Q* non è stato ancora visto, nel mondo circolano sempre voci a riguardo.

Lu Yifeng, ingegnere senior di Google DeepMind, una volta ha fatto un'ipotesi a Geek Park da un punto di vista professionale: il modello deve rendersi conto di quali problemi non è sicuro e cosa dovrebbe fare dopo. In questo momento, il modello potrebbe aver bisogno di navigare in Internet, leggere libri, fare esperimenti, pensare ad alcune idee inspiegabili e discutere con altri come gli umani.

Quest'anno, quando faccio domande nelle app di assistenza AI dei principali produttori di modelli, sento che le risposte sono più affidabili rispetto all'anno scorso. Molti produttori hanno anche affermato che stanno lavorando duramente per far riflettere di più i modelli e migliorarli ulteriormente le loro capacità di ragionamento. Come sono i progressi finora?

Per quanto riguarda le questioni di cui sopra, la giornalista di The Information Stephanie Palazzolo, nell'articolo "How OpenAI's Smaller Rivals Are Developing Their Own AI That 'Reasons'", ha discusso i modelli delle startup esistenti per migliorare le capacità di ragionamento dei modelli, inclusa la società cinese Q*. Organizzato da Geek Park, è il seguente:

Concorrenti più piccoli di OpenAI

Sviluppa la tua IA “ragionante”.

Escludendo le bolle, l’utilità di questa ondata di intelligenza artificiale è un argomento che quest’anno è stato più volte esaminato sotto i riflettori.

Il principio del modello grande è quello di generare unità di parole una per una in base alla previsione della probabilità, ma ripetere a pappagallo le parole basate sul corpus alimentato durante l'addestramento e inventare allucinazioni quando si incontrano domande mai viste prima, ovviamente non è ciò che tutti si aspetta. Migliorare ulteriormente le capacità di ragionamento del modello è diventato fondamentale.

A questo proposito, dobbiamo ancora vedere progressi da OpenAI e Google, ma alcune startup e singoli individui affermano di aver escogitato alcuni metodi "economici" (hack economici) per ottenere alcune forme di capacità di ragionamento dell'IA.

Queste scorciatoie includono la suddivisione di un problema complesso in passaggi più semplici e la richiesta al modello di decine di domande aggiuntive per aiutarlo ad analizzare tali passaggi.

Ad esempio, quando viene chiesto di redigere un post sul blog su un nuovo prodotto, l'applicazione AI attiva automaticamente domande aggiuntive, come chiedere al modello di grandi dimensioni di valutare le sue risposte e le aree di miglioramento. Naturalmente, nell'interfaccia utente non è possibile vedere queste azioni eseguite dal modello in background.

Questo è simile al metodo socratico di insegnare agli studenti a pensare in modo critico alle loro convinzioni o argomenti. Quest'ultimo adotta un metodo di insegnamento basato su domande e risposte. Quando comunica con gli studenti, Socrate non darà risposte direttamente, ma guiderà gli studenti a scoprire i problemi da soli e a rivelare le contraddizioni e le carenze delle loro opinioni ponendo costantemente domande. , e correggilo gradualmente per trarre la conclusione corretta.

Con questo collegamento l'applicazione AI può chiedere al modello grande di riscrivere il post del blog sopra, tenendo conto del feedback che si è appena dato durante la scrittura. Questo processo viene spesso chiamato riflessione e un imprenditore di applicazioni di intelligenza artificiale ha affermato che spesso porta a risultati migliori.

Oltre all'approccio riflessivo, gli sviluppatori possono anche seguire Google e provare Una tecnica chiamata campionamento. Durante il campionamento, gli sviluppatori migliorano la capacità dei modelli di grandi dimensioni di produrre risposte creative e casuali ponendo la stessa domanda decine o addirittura 100 volte e quindi selezionando la risposta migliore.

Ad esempio, un'app di assistente alla programmazione potrebbe chiedere a un modello di grandi dimensioni di fornire 100 risposte diverse alla stessa domanda, quindi l'app esegue tutti questi frammenti di codice. L'app finale dell'assistente alla programmazione selezionerà il codice che produce la risposta corretta e selezionerà automaticamente il codice più conciso.

Meta ha evidenziato alcune tecniche simili nel suo recente articolo Llama 3.

Ma questa soluzione alternativa, ovvero richiamare un modello linguistico di grandi dimensioni 100 volte o chiedergli di produrre una tale quantità di testo e codice, è estremamente lenta e costosa. Probabilmente è questo il motivo per cui alcuni sviluppatori hanno criticato l'assistente di programmazione realizzato da Cognition, una startup che utilizza queste tecnologie, per le sue prestazioni lente.

Anche gli sviluppatori hanno notato questo problema e stanno cercando di risolverlo.il modo èSelezionare esempi del modello che mostrano una buona capacità di ragionamento per un problema specifico e "reimmetterli" nel modellodati di allenamentoConcentrati sulla risoluzione di questo problema. Come ha affermato un imprenditore, questo approccio è simile all’apprendimento delle tabelline alle scuole elementari. Inizialmente, gli studenti potrebbero dover calcolare manualmente ciascun problema di moltiplicazione. Ma col tempo, e memorizzando queste tabelline, le risposte diventano quasi parte dell'intuizione dello studente.

Per sviluppare questo tipo di intelligenza artificiale, gli sviluppatori hanno bisogno del controllo su modelli di grandi dimensioni. Ma è difficile ottenere un senso di controllo dai modelli closed source di OpenAI o Anthropic, quindi è più probabile che utilizzino un modello a peso aperto come Llama 3 (peso aperto è un termine nel mondo open source, che significa codice con un alto grado di apertura).

I due metodi precedenti potrebbero essere le tecnologie utilizzate da OpenAI alla base della sua svolta nel ragionamento. Naturalmente OpenAI non ha ancora rilasciato Q*, noto anche come progetto "Strawberry".

La Q della Cina*

Anche gli sviluppatori e i ricercatori cinesi stanno gradualmente padroneggiando queste tecnologie.

I ricercatori cinesi della Skywork AI e della Nanyang Technological University hanno pubblicato un articolo su questo tema nel giugno di quest'anno. In questo articolo hanno anche chiamato la tecnologia Q* in onore di una versione di OpenAI che non avevano mai visto prima.

La tecnologia Q* cinese consente a modelli di grandi dimensioni di risolvere problemi con più passaggi, come puzzle logici complessi.

il modo è"Cercando" in ogni passaggio della risposta il miglior passaggio successivo che il modello di grandi dimensioni dovrebbe provare, anziché seguire i passaggi per raggiungere una conclusione (questo metodo è noto anche come ricerca ad albero Monte Carlo ed è stato utilizzato in precedenza in Google AlphaGo) . Ciò si ottiene attraverso un’equazione speciale chiamata modello del valore Q che aiuta il modello più ampio a stimare la ricompensa futura di ogni possibile passaggio successivo o la probabilità che la risposta finale sia corretta.

I ricercatori dicono che intendono rilasciare pubblicamente la tecnologia questo autunno.

Alex Graveley, CEO di Minion AI, una startup di agenti intelligenti ed ex capo architetto di GitHub Copilot, ha affermato che ci stanno ancora provando Insegnare al modello linguistico a tornare indietro di un passo quando si rende conto che qualcosa è andato storto.Afferma che questa consapevolezza può verificarsi quando un modello di grandi dimensioni produce una risposta errata o gli viene chiesto di riflettere sui suoi passaggi intermedi (simile all'esempio nel post del blog sopra), rendendosi conto che era stato commesso un errore.

Ci sono altri tentativi nel settore, incluso il documento “Quiet-STaR” pubblicato dalla Stanford University e Notbad AI a marzo. Proprio come gli esseri umani si fermano a pensare ai propri pensieri prima di parlare o scrivere, questo articolo spiega come insegnare a grandi modelli linguistici per generare informazioni sui passaggi di "pensiero" interno che intraprendono in problemi di ragionamento complessi per aiutarli a prendere decisioni migliori.

La tecnologia Q*/Strawberry di OpenAI potrebbe avere un vantaggio, ma tutti gli altri sembrano fare a gara per recuperare il ritardo.

*Fonte immagine principale: GulfNews

chiese il geek

Pensi che siamo lontani?

Quanto dista l'intelligenza artificiale in grado di "pensare lentamente"?

Misurazione effettiva della registrazione delle chiamate beta di iOS 18.1, il telefono Android può ancora ricevere richieste di registrazione.

Metti mi piace e seguiAccount video Geek Park，

notizia

Il Q* di OpenAI non è mai stato visto prima, ma il Q* di numerose startup è qui

introduzione

le mie informazioni di contatto