le mie informazioni di contatto
posta[email protected]
2024-10-04
한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina
nuovo rapporto sulla saggezza
quando il grande modello linguistico è stato rilasciato per la prima volta, ha sfondato con successo grazie ai suoi compiti, alla versatilità del dominio e alle capacità di generazione di testi fluidi. tuttavia, la tecnologia a quel tempo poteva essere applicata solo ad alcuni compiti relativamente semplici.
con l'emergere di tecnologie immediate come la catena del pensiero, in particolare il modello o1 recentemente rilasciato di openai, è il primo ad adottare la tecnologia della catena del pensiero interiorizzata della strategia di apprendimento per rinforzo, che migliora la capacità di modelli di grandi dimensioni di risolvere problemi complessi e ragionare per un livello completamente nuovo.
sebbene il modello o1 abbia mostrato capacità sorprendentemente forti in vari compiti linguistici generali, le sue prestazioni in campi professionali come la medicina sono ancora sconosciute.
un team cinese dell’università della california, santa cruz, dell’università di edimburgo e del national institutes of health ha pubblicato congiuntamente un rapporto, conducendo un’esplorazione completa di o1 in diversi scenari medici ed esaminando le prestazioni del modello nella comprensione e nel ragionamento. .) e capacità di multilinguismo.
la valutazione comprende sei attività utilizzando dati provenienti da 37 set di dati medici, tra cui due difficili attività di domande e risposte basate sul new england journal of medicine (nejm) e sul lancet professional medical test.
rispetto ai benchmark standard di risposta alle domande mediche come medqa, questi set di dati sono più rilevanti dal punto di vista clinico e possono essere applicati in modo più efficace in scenari clinici del mondo reale.
l'analisi del modello o1 mostra che il miglioramento della capacità di ragionamento degli llm è più favorevole alla comprensione da parte del modello di varie istruzioni mediche e può anche migliorare la capacità del modello di ragionare in scenari clinici complessi.
vale la pena notare che la precisione del modello o1 in 19 set di dati e due scenari complessi di domande e risposte ha superato in media il precedente gpt-4 del 6,2% e del 6,6%.
allo stesso tempo, i ricercatori hanno riscontrato diversi difetti nelle capacità del modello e nei protocolli di valutazione esistenti, tra cui allucinazioni, capacità multilingue incoerenti e parametri di valutazione incoerenti.
valutazione completa delle capacità mediche di modelli di grandi dimensioni
in termini di miglioramento della capacità di ragionamento del modello, i prompt della catena di pensiero (cot) sono una strategia di prompt comunemente utilizzata, che utilizza i modelli di ragionamento all'interno del modello per migliorare la capacità di risolvere compiti complessi.
il modello o1 fa un ulteriore passo avanti, incorporando il processo cot nel modello di formazione, integrando l'apprendimento per rinforzo e dimostrando forti prestazioni di ragionamento, tuttavia, il modello o1 non è stato ancora valutato con dati in campi professionali e le sue prestazioni su compiti specifici sono ancora sconosciuto.
i benchmark llm esistenti in campo medico di solito valutano solo capacità specifiche del modello, come conoscenza e ragionamento, sicurezza e multilingue. i test sono relativamente isolati gli uni dagli altri e non possono valutare in modo completo modelli avanzati come o1.
per garantire una valutazione completa, i ricercatori hanno raccolto una varietà di compiti medici e set di dati che coprivano gli aspetti di cui sopra e hanno esplorato tre strategie di suggerimento nel processo, tra cui:
1. suggerimenti diretti per guidare modelli linguistici di grandi dimensioni per risolvere direttamente i problemi
2. catena di pensiero, che richiede al modello di pensare passo dopo passo prima di generare la risposta finale.
3. alcuni suggerimenti forniscono al modello diversi esempi per apprendere al volo la mappatura input-output.
infine, utilizza una metrica appropriata per misurare la differenza tra le risposte generate e le risposte reali.
focus e compiti
i ricercatori hanno utilizzato 35 set di dati esistenti e creato 2 set di dati aggiuntivi con maggiore difficoltà di valutazione, quindi hanno classificato tutti i 37 set di dati in 3 aspetti e 6 attività per una valutazione e un'analisi più chiare per comprendere come si comporta un modello in un dominio specifico.
comprensione,si riferisce alla capacità del modello di utilizzare la propria conoscenza medica interna per comprendere concetti medici.
ad esempio, nelle attività di riconoscimento dei concetti, i modelli devono estrarre o elaborare concetti medici da articoli o rapporti diagnostici, nel riepilogo del testo, i modelli devono comprendere concetti in testi complessi per generare riepiloghi concisi.
ragionamento,metti alla prova la capacità del modello di pensare in modo logico attraverso più passaggi per raggiungere conclusioni.
nelle attività di domande e risposte, il modello deve seguire istruzioni tempestive per ragionare in base alle informazioni mediche fornite nella domanda e selezionare la risposta corretta tra più opzioni.
oltre ai comuni set di dati di domande e risposte, i ricercatori hanno anche raccolto domande cliniche del mondo reale da the lancet, the new england journal of medicine (nejm) e medbullets per valutare meglio l’utilità clinica degli llm.
nelle attività di raccomandazione clinica, i modelli devono fornire raccomandazioni terapeutiche o decisioni diagnostiche basate sulle informazioni del paziente. nei set di dati ai hospital e agentclinic, il modello deve agire come un agente medico; nel set di dati medcalc-bench, il modello deve eseguire ragionamenti matematici e calcolare le risposte.
multilinguismo, le lingue per l'immissione delle istruzioni e l'emissione delle risposte sono diverse.
il set di dati xmedbench richiede che gli llm rispondano a domande mediche in sei lingue, tra cui cinese, arabo, hindi, spagnolo, cinese e inglese; nel set di dati dell'ai hospital, il modello deve utilizzare il cinese per domande e risposte;
indicatori di valutazione
precisione, una misura diretta della percentuale di risposte generate dal modello che corrispondono esattamente alla risposta vera.
utilizzato principalmente quando la risposta reale è una parola o una frase, inclusi set di dati di domande a scelta multipla, set di dati medcalcbench e set di dati di consulenza clinica e identificazione di concetti.
il punteggio f1, la media armonica di precisione e richiamo, viene utilizzato su set di dati in cui il modello deve selezionare più risposte corrette.
blu e rouge, una metrica di elaborazione del linguaggio naturale che misura la somiglianza tra le risposte generate e le risposte reali, utilizzando bleu-1 e rouge-1 per tutte le attività di generazione in formato libero nella valutazione
allinea punteggio, una metrica che misura la coerenza dei fatti di testo generati, utilizza alignscore per tutte le attività di generazione del formato non specificate per valutare il grado di illusione del modello.
malva, una metrica che misura la differenza tra la distribuzione del testo generato e il testo scritto da persone, viene utilizzata per tutte le attività di generazione del formato non specificate. il valore della metrica varia da 0 a 100, con valori più alti che indicano una maggiore qualità del modello produzione.
risultati sperimentali
strategia tempestiva
per le attività di domanda e risposta sulla conoscenza, attività di agente, attività di elaborazione medica e attività correlate a più lingue, utilizzare metodi di valutazione tempestiva diretta;
per gli altri compiti di meds-bench, viene seguita la strategia di suggerimenti a tre campioni nell'impostazione del benchmark.
secondo la dichiarazione di openai, le tecniche di suggerimento comuni come la catena di pensieri (cot) e gli esempi nel contesto non sono molto utili per migliorare le prestazioni di o1 perché il modello ha già un cot implicito integrato.
per testare ulteriormente questa affermazione, i ricercatori hanno aggiunto alla valutazione gli effetti di diversi segnali avanzati, tra cui cot, self consistency e reflex
oltre a selezionare i modelli gpt-3.5, gpt-4 e o1 per la valutazione, i ricercatori hanno anche selezionato due modelli open source: uno è un modello linguistico di grandi dimensioni meditron-70b addestrato con dati di centri medici e l'ultimo e più potente open source modello modello linguistico grande llama3-8b
risultati principali
le capacità di o1 nella comprensione clinica sono state migliorate
quando è stato rilasciato il modello o1, openai ha enfatizzato principalmente la suadai risultati sperimentali si possono osservare miglioramenti significativi nella conoscenza e nelle capacità di ragionamento, come la risoluzione di problemi matematici e la generazione di codici, e questa capacità può anche essere trasferita alla comprensione di conoscenze cliniche specifiche.
si può vedere che o1 supera altri modelli in termini di comprensione della maggior parte dei compiti clinici. ad esempio, o1 supera in media gpt-4 e gpt-3.5 su 5 set di dati di riconoscimento dei concetti utilizzando f1 come metrica del 7,6% e del 26,6%. con un miglioramento medio del 24,5% sul set di dati bc4chem comunemente utilizzato.
nel compito di riepilogo, o1 ha migliorato il suo punteggio rouge-1 rispettivamente del 2,4% e del 3,7% rispetto a gpt-4 e gpt-3.5, dimostrando la sua maggiore capacità di comprensione clinica nel mondo reale. i risultati hanno inoltre confermato il ruolo dei modelli linguistici di grandi dimensioni in i progressi nelle capacità generali di elaborazione del linguaggio naturale possono tradursi efficacemente in una migliore comprensione dei modelli in campo medico.
la potente capacità di ragionamento del modello o1 negli scenari di diagnosi clinica
sui compiti legati al ragionamento, il modello o1 ha dimostrato i suoi vantaggi anche nelle situazioni diagnostiche del mondo reale.
nelle attività di risposta alle domande di nuova costruzione e impegnative nejmqa e lancetqa, la precisione media di o1 sui rispettivi set di dati è migliorata rispettivamente dell'8,9% e del 27,1% rispetto a gpt-4 (79,6%) e gpt-3.5 (61,5%).
un altro miglioramento degno di nota nelle capacità di ragionamento matematico di o1 è che migliora la linea di base di medcalc-bench al 34,9%, che è un significativo 9,4% in più rispetto a gpt-4
in scenari di ragionamento più complessi che coinvolgono più cicli di dialogo e simulazione ambientale, o1 supera gpt-4 e gpt-3.5 sul benchmark agentclinic, guadagnando rispettivamente almeno il 15,5% e il 10% sui sottoinsiemi medqa e nejm. il tasso di precisione è stato migliorato , con punteggi rispettivamente del 45,5% e del 20,0%.
oltre a una maggiore precisione, le risposte di o1 sono anche più concise e dirette, mentre gpt-4 genera spiegazioni allucinanti accanto alle risposte sbagliate.
i ricercatori ritengono che i miglioramenti di o1 nella conoscenza e nel ragionamento siano principalmente attribuiti all’uso di dati avanzati e di tecniche sottostanti (come dati cot e tecniche di apprendimento per rinforzo) durante il processo di formazione.
sulla base dei risultati ottimistici di cui sopra, i ricercatori hanno affermato con entusiasmo nel documento: con il modello o1 ci avviciniamo sempre di più a un medico ai completamente automatico.