2024-10-04
한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina
neuer weisheitsbericht
als das große sprachmodell zum ersten mal veröffentlicht wurde, gelang ihm der durchbruch mit seiner aufgabenvielfalt, seiner domänenvielfalt und seinen reibungslosen textgenerierungsfunktionen. allerdings konnte die technologie damals nur auf einige relativ einfache aufgaben angewendet werden.
mit dem aufkommen von prompt-technologien wie der denkkette, insbesondere dem neu veröffentlichten o1-modell von openai, ist es das erste unternehmen, das die internalisierte denkkettentechnologie der reinforcement-learning-strategie übernimmt, die die fähigkeit großer modelle zur lösung komplexer probleme und argumente verbessert ein ganz neues level.
obwohl das o1-modell überraschend starke fähigkeiten bei verschiedenen allgemeinen sprachaufgaben gezeigt hat, ist seine leistung in berufsfeldern wie der medizin noch unbekannt.
ein chinesisches team der university of california, santa cruz, der university of edinburgh und der national institutes of health veröffentlichte gemeinsam einen bericht, in dem es eine umfassende untersuchung von o1 in verschiedenen medizinischen szenarien durchführte und die leistung des modells in bezug auf verständnis und argumentation untersuchte . ) und mehrsprachigkeitsfähigkeiten.
die bewertung umfasst sechs aufgaben unter verwendung von daten aus 37 medizinischen datensätzen, darunter zwei schwierige frage-und-antwort-aufgaben basierend auf dem new england journal of medicine (nejm) und dem lancet professional medical test.
im vergleich zu standard-benchmarks zur beantwortung medizinischer fragen wie medqa sind diese datensätze klinisch relevanter und können in realen klinischen szenarien effektiver angewendet werden.
die analyse des o1-modells zeigt, dass die verbesserung der argumentationsfähigkeit von llms dem verständnis des modells für verschiedene medizinische anweisungen förderlicher ist und auch die argumentationsfähigkeit des modells in komplexen klinischen szenarien verbessern kann.
es ist erwähnenswert, dass die genauigkeit des o1-modells in 19 datensätzen und zwei komplexen frage- und antwortszenarien die des vorherigen gpt-4 um durchschnittlich 6,2 % und 6,6 % übertraf.
gleichzeitig stellten die forscher mehrere mängel in den modellfähigkeiten und bestehenden bewertungsprotokollen fest, darunter halluzinationen, inkonsistente mehrsprachigkeitsfähigkeiten und inkonsistente bewertungsmetriken.
umfassende bewertung der medizinischen fähigkeiten großer modelle
im hinblick auf die verbesserung der denkfähigkeit des modells sind chain-of-think (cot)-eingabeaufforderungen eine häufig verwendete eingabeaufforderungsstrategie, die die argumentationsmuster innerhalb des modells nutzt, um die fähigkeit zur lösung komplexer aufgaben zu verbessern.
das o1-modell geht noch einen schritt weiter, indem es den cot-prozess in das modelltraining einbettet, verstärkendes lernen integriert und eine starke argumentationsleistung demonstriert. das o1-modell wurde jedoch noch nicht anhand von daten in berufsfeldern evaluiert, und seine leistung bei bestimmten aufgaben ist noch vorhanden unbekannt.
bestehende llm-benchmarks im medizinischen bereich bewerten normalerweise nur spezifische fähigkeiten des modells, wie z. b. wissen und argumentation, sicherheit und mehrsprachigkeit. die tests sind relativ isoliert voneinander und können fortgeschrittene modelle wie o1 nicht umfassend bewerten.
um eine umfassende bewertung zu gewährleisten, sammelten die forscher eine vielzahl medizinischer aufgaben und datensätze zu den oben genannten aspekten und untersuchten dabei drei anregungsstrategien, darunter:
1. direkte aufforderungen, um große sprachmodelle anzuleiten, um probleme direkt zu lösen
2. denkkette, die erfordert, dass das modell schritt für schritt denkt, bevor es die endgültige antwort generiert.
3. few-shot-hinweise stellen dem modell mehrere beispiele zur verfügung, um die eingabe-ausgabe-zuordnung im laufenden betrieb zu erlernen.
verwenden sie abschließend eine geeignete metrik, um den unterschied zwischen den generierten antworten und den tatsächlichen antworten zu messen.
fokus und aufgaben
die forscher nutzten 35 vorhandene datensätze und erstellten zwei zusätzliche datensätze mit höherem schwierigkeitsgrad für die auswertung und klassifizierten dann alle 37 datensätze in drei aspekte und sechs aufgaben für eine klarere auswertung und analyse, um zu verstehen, wie ein modell in einem bestimmten bereich funktioniert.
verständnis,bezieht sich auf die fähigkeit des modells, sein internes medizinisches wissen zu nutzen, um medizinische konzepte zu verstehen.
bei konzepterkennungsaufgaben müssen modelle beispielsweise medizinische konzepte aus artikeln oder diagnoseberichten extrahieren oder ausarbeiten. bei der textzusammenfassung müssen modelle konzepte in komplexen texten verstehen, um prägnante zusammenfassungen zu erstellen.
argumentation,testen sie die fähigkeit des modells, mehrere schritte logisch zu durchdenken, um schlussfolgerungen zu ziehen.
bei frage-und-antwort-aufgaben muss das modell sofortigen anweisungen folgen, um auf der grundlage der in der frage bereitgestellten medizinischen informationen zu argumentieren und aus mehreren optionen die richtige antwort auszuwählen.
zusätzlich zu allgemeinen frage- und antwortdatensätzen sammelten die forscher auch reale klinische fragen von the lancet, dem new england journal of medicine (nejm) und medbullets, um den klinischen nutzen von llms besser bewerten zu können.
bei klinischen empfehlungsaufgaben müssen modelle behandlungsempfehlungen oder diagnostische entscheidungen auf der grundlage von patienteninformationen bereitstellen. in den datensätzen ai hospital und agentclinic muss das modell als medizinischer agent fungieren; im datensatz medcalc-bench muss das modell mathematische überlegungen anstellen und antworten berechnen.
mehrsprachigkeit, die sprachen für die eingabe von anweisungen und die ausgabe von antworten sind unterschiedlich.
der xmedbench-datensatz erfordert, dass llms medizinische fragen in sechs sprachen beantworten, darunter chinesisch, arabisch, hindi, spanisch, chinesisch und englisch. im ai hospital-datensatz muss das modell chinesisch für fragen und antworten verwenden.
bewertungsindikatoren
genauigkeit, ein direktes maß für den prozentsatz der vom modell generierten antworten, die genau mit der wahren antwort übereinstimmen.
wird hauptsächlich verwendet, wenn die eigentliche antwort ein wort oder eine phrase ist, einschließlich multiple-choice-fragendatensätzen, medcalcbench-datensätzen sowie datensätzen für klinische beratung und konzeptidentifizierung.
der f1-score, das harmonische mittel aus präzision und erinnerung, wird für datensätze verwendet, bei denen das modell mehrere richtige antworten auswählen muss.
bleu und rouge, eine metrik zur verarbeitung natürlicher sprache, die die ähnlichkeit zwischen generierten antworten und echten antworten misst, wobei bleu-1 und rouge-1 für alle freiform-generierungsaufgaben in der bewertung verwendet werden
alignscore, eine metrik, die die konsistenz generierter textfakten misst, verwendet alignscore für alle nicht spezifizierten formatgenerierungsaufgaben, um den grad der modellillusion zu bewerten.
mauve, eine metrik, die den unterschied zwischen der verteilung von generiertem text und von menschen geschriebenem text misst, wird für alle nicht spezifizierten formatgenerierungsaufgaben verwendet. der wert der metrik reicht von 0 bis 100, wobei höhere werte eine höhere qualität des modells anzeigen ausgabe.
experimentelle ergebnisse
schnelle strategie
verwenden sie für wissensfrage- und -antwortaufgaben, agentenaufgaben, medizinische computeraufgaben und mehrsprachige aufgaben direkte eingabeaufforderungsbewertungsmethoden.
für andere aufgaben aus meds-bench wird die drei-proben-prompting-strategie im benchmark-setting befolgt.
laut aussage von openai sind gängige aufforderungstechniken wie chain of thoughts (cot) und examples in context nicht sehr hilfreich bei der verbesserung der o1-leistung, da das modell bereits über ein implizites cot verfügt.
um diese behauptung weiter zu testen, fügten die forscher der bewertung die auswirkungen mehrerer fortgeschrittener hinweise hinzu, darunter cot, selbstkonsistenz und reflex
zusätzlich zur auswahl der gpt-3.5-, gpt-4- und o1-modelle zur evaluierung wählten die forscher auch zwei open-source-modelle aus: eines ist ein großes sprachmodell meditron-70b, das mit daten medizinischer zentren trainiert wurde, und das neueste und leistungsstärkste open-source-modell modell großes sprachmodell llama3-8b
hauptergebnisse
die fähigkeiten von o1 zum klinischen verständnis wurden verbessert
bei der veröffentlichung des o1-modells hat openai vor allem darauf wert gelegtauch aus experimentellen ergebnissen lassen sich deutliche verbesserungen des wissens und der denkfähigkeiten wie mathematische problemlösung und codegenerierung beobachten, und diese fähigkeit lässt sich auch auf das spezifische klinische wissensverständnis übertragen.
es ist ersichtlich, dass o1 andere modelle hinsichtlich des verständnisses der meisten klinischen aufgaben übertrifft. beispielsweise übertrifft o1 gpt-4 und gpt-3,5 bei 5 konzepterkennungsdatensätzen mit 7,6 % bzw. 26,6 %. höher, mit einer durchschnittlichen verbesserung von 24,5 % gegenüber dem häufig verwendeten bc4chem-datensatz.
bei der zusammenfassungsaufgabe verbesserte o1 seinen rouge-1-score um 2,4 % bzw. 3,7 % im vergleich zu gpt-4 und gpt-3.5 und bewies damit seine verbesserte fähigkeit zum klinischen verständnis in der praxis. die ergebnisse bestätigten auch die rolle großer sprachmodelle fortschritte in den allgemeinen fähigkeiten zur verarbeitung natürlicher sprache können effektiv zu einem verbesserten modellverständnis im medizinischen bereich führen.
die leistungsstarke argumentationsfähigkeit des o1-modells in klinischen diagnoseszenarien
bei schlussfolgerungsbezogenen aufgaben hat das o1-modell seine vorteile auch in realen diagnosesituationen unter beweis gestellt.
in den neu erstellten und anspruchsvollen frage-antwort-aufgaben nejmqa und lancetqa ist die durchschnittliche genauigkeit von o1 in den jeweiligen datensätzen im vergleich zu gpt-4 (79,6 %) und gpt-3,5 (61,5 %) um 8,9 % bzw. 27,1 % verbessert.
eine weitere bemerkenswerte verbesserung der mathematischen denkfähigkeiten von o1 besteht darin, dass es die medcalc-bench-basislinie auf 34,9 % verbessert, was deutlich 9,4 % höher ist als bei gpt-4
in komplexeren argumentationsszenarien mit mehreren dialog- und umgebungssimulationsrunden übertrifft o1 gpt-4 und gpt-3.5 im agentclinic-benchmark und gewinnt bei den medqa- und nejm-teilmengen um mindestens 15,5 % bzw. 10 %. die genauigkeitsrate wurde verbessert mit werten von 45,5 % bzw. 20,0 %.
neben einer höheren genauigkeit sind die antworten von o1 auch prägnanter und direkter, während gpt-4 neben falschen antworten auch halluzinatorische erklärungen generiert.
die forscher glauben, dass die verbesserungen des wissens und des denkens von o1 hauptsächlich auf die verwendung verbesserter daten und zugrunde liegender techniken (wie cot-daten und techniken des verstärkenden lernens) während des trainingsprozesses zurückzuführen sind.
basierend auf den oben genannten optimistischen ergebnissen stellten die forscher in dem papier begeistert fest: „mit dem o1-modell kommen wir einem vollautomatischen ki-arzt immer näher.“