le mie informazioni di contatto
posta[email protected]
2024-10-03
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
il lavoro di un cinese nato negli anni 2000 è stato pubblicato su nature e questo grande modello di carta ha suscitato un'accesa discussione.
in poche parole, lo studio ha scoperto che i modelli più grandi che seguono le istruzioni più da vicino diventano anche meno affidabili, e in alcuni casigpt-4 non è affidabile come gpt-3 nel rispondere alle domande。
rispetto ai modelli precedenti, i modelli più recenti, che hanno maggiore potenza di calcolo e feedback umano, hanno effettivamente peggiorato l’affidabilità della risposta.
non appena è arrivata la conclusione, ha immediatamente attirato più di 200.000 netizen a guardarla:
ha anche suscitato discussioni sul forum reddit.
ciò ricorda alle persone che molti modelli di livello esperto/dottorato ancora non conoscono la semplice domanda "quale è più grande, 9.9 o 9.11".
per quanto riguarda questo fenomeno, il documento afferma che ciò riflette anche,le prestazioni del modello non corrispondono alle aspettative umane di difficoltà。
in altre parole, "i llm riescono e (più pericolosamente) falliscono dove gli utenti non si aspettano".
ilya sutskever ha predetto nel 2022:
forse col tempo questa differenza diminuirà.
tuttavia, questo articolo rileva che non è così. non solo le serie gpt, llama e bloom, ma ancheopenainuovomodello o1 e claude-3.5-sonettoci sono anche preoccupazioni riguardo all’affidabilità.
ancora più importante, il documento ha anche scopertoaffidarsi alla supervisione umana per correggere gli errorianche l'approccio non funziona.
alcuni utenti della rete ritengono che, sebbene i modelli più grandi possano comportare problemi di affidabilità, forniscono anche funzionalità senza precedenti.
dobbiamo concentrarci sullo sviluppo di metodi di valutazione solidi e sull’aumento della trasparenza.
altri credono che questo studio evidenziaisfide sottili affrontate(bilanciamento tra espansione e affidabilità del modello)。
per illustrare la conclusione, il documento esamina tre aspetti chiave che influenzano l’affidabilità degli llm da una prospettiva umana:
1、difficoltà incoerente: gli llm falliscono dove gli umani si aspettano che falliscano?
2、evitamento del compito: i llm evitano di rispondere a domande che vanno oltre le loro capacità?
3、sensibilità alle espressioni linguistiche sollecitate: l’efficacia della formulazione del problema è influenzata dalla difficoltà del problema?
ancora più importante, gli autori analizzano anche le tendenze storiche e il modo in cui questi tre aspetti si evolvono con la difficoltà del compito.
espandili uno per uno qui sotto.
per quanto riguarda la prima domanda, il documento si concentra principalmente suevoluzione della correttezza rispetto alla difficoltà。
a giudicare dall'evoluzione di gpt e llama, all'aumentare della difficoltà, la correttezza di tutti i modelli diminuirà in modo significativo.(coerentemente con le aspettative umane)
tuttavia, questi modelli non sono ancora in grado di risolvere molti compiti molto semplici.
ciò significa che gli utenti umani non possono scoprire lo spazio operativo sicuro degli llm e utilizzarlo per garantire che le prestazioni di implementazione del modello possano essere impeccabili.
sorprendentemente, i nuovi llm migliorano principalmente le prestazioni nei compiti difficili, senza miglioramenti significativi nei compiti più semplici. per esempio,gpt-4 rispetto al suo predecessore gpt-3.5-turbo。
quanto sopra dimostra che esiste un’incoerenza tra le aspettative di difficoltà umana e le prestazioni del modello.e questa incoerenza è esacerbata nel nuovo modello.
ciò significa anche:
al momento non esistono condizioni operative sicure affinché gli esseri umani possano determinare se ci si possa fidare degli llm.
ciò è particolarmente preoccupante nelle applicazioni che richiedono elevata affidabilità e identificazione di spazi operativi sicuri. ciò porta le persone a riflettere se l’intelligenza artificiale all’avanguardia che gli esseri umani stanno lavorando duramente per creare sia davvero ciò che il pubblico si aspetta di avere.
in secondo luogo, per quanto riguarda il punto 2, i risultati del documento(l'evitamento di solito si riferisce al modello che devia dalla risposta alla domanda o afferma direttamente "non lo so"):
rispetto ai precedenti llm,gli ultimi llm migliorano drasticamente molte delle risposte sbagliate o solenni senza senso, piuttosto che evitare attentamente compiti che vanno oltre le loro capacità.
ciò porta anche a un fenomeno ironico: in alcuni benchmark, il tasso di errore dei nuovi llm migliora anche più velocemente della precisione (doge).
in generale, quanto più difficile è il compito che gli esseri umani devono affrontare, tanto più è probabile che siano vaghi.
ma la performance effettiva degli llm è completamente diversa. la ricerca lo dimostrail loro comportamento di evitamento non è significativamente correlato alla difficoltà.
ciò può facilmente portare gli utenti a fare inizialmente eccessivo affidamento sugli llm per completare attività in cui non sono bravi, ma lasciandoli delusi a lungo termine.
di conseguenza, anche gli esseri umani devono verificare l’accuratezza dei risultati del modello e rilevare gli errori.(se vuoi utilizzare i llm per essere pigro, otterrai un grande sconto)
infine, il documento ha rilevato che, anche se alcuni indicatori di affidabilità sono migliorati, il modello è ancora sensibile a piccoli cambiamenti nella formulazione dello stesso problema.
regala una castagna, chiedendo "puoi rispondere...?" anziché "per favore, rispondi alla seguente domanda..." comporterà diversi gradi di precisione.
l'analisi ha rilevato:è improbabile che affidarsi esclusivamente allo sviluppo e alla modellazione esistenti risolva completamente il problema della sensibilità delle indicazioni, poiché gli ultimi modelli non sono significativamente ottimizzati rispetto ai loro predecessori.
e anche se si sceglie il formato di rappresentazione migliore in termini di prestazione media, potrebbe essere efficace principalmente per compiti ad alta difficoltà, ma allo stesso tempo inefficace per compiti a bassa difficoltà.(tasso di errore più elevato)。
questo lo dimostral’umanità è ancora soggetta al progetto suggeritore。
ciò che è ancora più spaventoso è che il giornale lo ha scopertola supervisione umana non può mitigare l’inaffidabilità del modello。
il documento analizza, sulla base di sondaggi umani, se le percezioni umane della difficoltà sono coerenti con le prestazioni effettive e se gli esseri umani possono valutare accuratamente il risultato del modello.
i risultati mostrano, nella regione operativa che gli utenti considerano difficile, spesso considerano corretto l'output errato anche per compiti semplici, non esiste una regione operativa sicura con un errore di modello basso e un errore di supervisione basso;
i problemi di inaffidabilità di cui sopra esistono in più serie llm, tra cui gpt, llama e bloom. nello studio sono elencati di seguito32 modelli。
questi modelli presentano risultati diversiingrandirsi(aumento dei calcoli, delle dimensioni del modello e dei dati) eprendere forma(ad esempio, istruzioni ft, rlhf).
in aggiunta a quanto sopra, gli autori hanno poi scoperto che alcuni dei modelli più recenti e più potenti soffrono anche dei problemi di inaffidabilità menzionati in questo articolo:
incluso il modello o1 di openai, claude-3.5-sonnet di antropicic e llama-3.1-405b di meta。
c'è anche un documento che fornisce esempi.(per i dettagli fare riferimento al documento originale):
inoltre, per verificare se altri modelli presentano problemi di affidabilità, l'autore ha utilizzato i benchmark di test utilizzati nel documentobanco di affidabilitàè anche open source.
si tratta di un set di dati che copre cinque domini: aritmetica semplice ("addizione"), riorganizzazione del vocabolario ("enigmi di parole"), conoscenza geografica ("posizione"), problemi scientifici di base e avanzati ("scienza") e problemi centrati basati sull'informazione. trasformazione ("trasformazione").
il primo documentolexin zhou, attualmente si è appena laureato in informatica all'università di cambridge (24 anni) e il suo interesse di ricerca è la valutazione di modelli linguistici di grandi dimensioni.
in precedenza, ha conseguito una laurea in scienza dei dati presso l'università politecnica di valencia, sotto la supervisione del professor jose hernandez-orallo.
dalla sua homepage personale risulta che ha avuto numerose esperienze di stage lavorativo. partecipato ai test del team rosso sia su openai che su meta.(consulenza red teaming)
per quanto riguarda questo articolo, si è concentrato su:
la progettazione e lo sviluppo dell'intelligenza artificiale generale devono farlocambiamento fondamentale, soprattutto nei settori ad alto rischio, dove la distribuzione prevedibile degli errori è cruciale. prima che ciò venga raggiunto,affidarsi alla supervisione umana è pericoloso.
quando si valuta un modello,considerare la difficoltà percepita dall'uomo e valutare il comportamento di evitamento del modello, possono fornire una descrizione più completa delle capacità e dei rischi del modello, anziché concentrarsi esclusivamente sulle prestazioni relative a compiti difficili.
il documento menziona inoltre specificamente alcune possibili ragioni di queste inaffidabilità, nonché le soluzioni:
nello scaling-up, i benchmark negli ultimi anni tendono sempre più ad aggiungere esempi più difficili, o a dare più peso alle cosiddette fonti “autorevoli”, pertanto i ricercatori sono più propensi a ottimizzare le prestazioni dei modelli su compiti difficili, risultando cronici deterioramento della consistenza della difficoltà.
nello shaping-up (come rlhf), la persona assunta tende a penalizzare le risposte che eludono il compito, facendo sì che il modello sia più propenso a "dire sciocchezze" di fronte a problemi difficili che non può risolvere.
come risolvere queste inaffidabilità, l'articolo ritiene che le aspettative sulla difficoltà umana possano essere utilizzate per addestrare o mettere a punto meglio il modello, oppure che la difficoltà del compito e la fiducia del modello possano essere utilizzate per insegnare meglio al modello ad evitare problemi oltre le sue capacità, ecc.
cosa ne pensi di questo?