2024-10-03
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
die arbeit eines in den 2000er jahren geborenen chinesen wurde in „nature“ veröffentlicht, und dieses große modellpapier löste heftige diskussionen aus.
vereinfacht ausgedrückt stellte das papier fest, dass größere modelle, die größer und konformer waren, in einigen fällen auch weniger zuverlässig wurdengpt-4 ist bei der beantwortung von fragen nicht so zuverlässig wie gpt-3。
im vergleich zu früheren modellen haben sich die neuesten modelle, die über mehr rechenleistung und menschliches feedback verfügen, tatsächlich in der antwortzuverlässigkeit verschlechtert.
sobald die schlussfolgerung bekannt wurde, lockte sie sofort mehr als 200.000 internetnutzer zum anschauen:
es löste auch diskussionen im reddit-forum aus.
dies erinnert die leute daran, dass viele modelle auf experten-/doktorandenebene die einfache frage „welches ist größer, 9,9 oder 9,11“ immer noch nicht kennen.
in bezug auf dieses phänomen wurde in dem papier erwähnt, dass dies auch folgendes widerspiegelt:die modellleistung entspricht nicht den menschlichen erwartungen an den schwierigkeitsgrad。
mit anderen worten: „llms sind sowohl erfolgreich als auch (was noch gefährlicher ist) scheitern an stellen, an denen benutzer es nicht erwarten.“
ilya sutskever prognostizierte im jahr 2022:
vielleicht wird sich dieser unterschied mit der zeit verringern.
in diesem artikel wird jedoch festgestellt, dass dies nicht der fall ist. nicht nur gpt-, llama- und bloom-serien, sondern sogaropenaineuo1-modell und claude-3.5-sonettes bestehen auch bedenken hinsichtlich der zuverlässigkeit.
noch wichtiger ist, dass das papier auch gefunden wurdeverlassen sie sich auf die menschliche aufsicht, um fehler zu korrigierender ansatz funktioniert auch nicht.
einige internetnutzer glauben, dass größere modelle zwar probleme mit der zuverlässigkeit mit sich bringen, aber auch eine beispiellose funktionalität bieten.
wir müssen uns auf die entwicklung robuster bewertungsmethoden und die erhöhung der transparenz konzentrieren.
andere glauben, dass diese studie hervorhebtkisubtile herausforderungen standen bevor(ausgleich von modellerweiterung und zuverlässigkeit)。
um die schlussfolgerung zu veranschaulichen, untersucht das papier drei schlüsselaspekte, die die zuverlässigkeit von llms aus menschlicher sicht beeinflussen:
1、inkonsistente schwierigkeit: scheitern llms dort, wo menschen erwarten, dass sie scheitern?
2、aufgabenvermeidung: vermeiden llms die beantwortung von fragen, die über ihre möglichkeiten hinausgehen?
3、sensibilität für schnelle sprachausdrücke: wird die wirksamkeit der problemformulierung durch die problemschwierigkeit beeinflusst?
noch wichtiger ist, dass die autoren auch historische trends analysieren und wie sich diese drei aspekte mit der aufgabenschwierigkeit entwickeln.
erweitern sie sie unten einzeln.
bei der ersten frage konzentriert sich das papier hauptsächlich aufentwicklung der korrektheit im verhältnis zum schwierigkeitsgrad。
gemessen an der entwicklung von gpt und llama wird die korrektheit aller modelle mit zunehmendem schwierigkeitsgrad erheblich abnehmen.(im einklang mit den menschlichen erwartungen)
allerdings können diese modelle viele sehr einfache aufgaben immer noch nicht lösen.
dies bedeutet, dass menschliche benutzer den sicheren betriebsraum von llms nicht entdecken und ihn nutzen können, um sicherzustellen, dass die bereitstellungsleistung des modells einwandfrei sein kann.
überraschenderweise verbessern die neuen llms hauptsächlich die leistung bei schwierigen aufgaben, ohne wesentliche verbesserungen bei einfacheren aufgaben. zum beispiel,gpt-4 im vergleich zu seinem vorgänger gpt-3.5-turbo。
das obige beweist, dass es eine inkonsistenz zwischen den menschlichen schwierigkeitserwartungen und der modellleistung gibt.und diese inkonsistenz wird beim neuen modell noch verschärft.
das bedeutet auch:
derzeit gibt es keine sicheren betriebsbedingungen für den menschen, um festzustellen, ob llms vertrauenswürdig sind.
dies ist besonders besorgniserregend bei anwendungen, die eine hohe zuverlässigkeit und die identifizierung sicherer betriebsräume erfordern. dies bringt die menschen dazu, darüber nachzudenken, ob die hochmoderne maschinelle intelligenz, an deren entwicklung die menschen hart arbeiten, wirklich das ist, was die öffentlichkeit erwartet.
zweitens zu punkt 2, den ergebnissen des papiers(vermeidung bezieht sich normalerweise darauf, dass das modell von der antwort auf die frage abweicht oder direkt „ich weiß nicht“ sagt.):
im vergleich zu früheren llmsdie neuesten llms verbessern viele der antworten, die falsch oder ernster unsinn sind, drastisch, anstatt sorgfältig aufgaben zu vermeiden, die über ihre fähigkeiten hinausgehen.
dies führt auch zu einem ironischen phänomen: bei einigen benchmarks verbessert sich die fehlerrate neuer llms sogar schneller als die genauigkeit (doge).
im allgemeinen gilt: je schwieriger eine aufgabe, vor der menschen stehen, desto wahrscheinlicher ist es, dass sie vage bleibt.
die tatsächliche leistung von llms ist jedoch völlig andersihr vermeidungsverhalten hat keinen signifikanten zusammenhang mit der schwierigkeit.
dies kann leicht dazu führen, dass sich benutzer zunächst zu sehr auf llms verlassen, um aufgaben zu erledigen, in denen sie nicht gut sind, sie aber auf lange sicht enttäuscht sind.
folglich müssen menschen auch die genauigkeit der modellausgabe überprüfen und fehler erkennen.(wenn sie llms nutzen möchten, um faul zu sein, erhalten sie einen großen rabatt)
abschließend stellte das papier fest, dass das modell, selbst wenn sich einige zuverlässigkeitsindikatoren verbessert haben, immer noch empfindlich auf kleine formulierungsänderungen desselben problems reagiert.
gib eine kastaniedie frage „können sie … antworten“ anstelle von „bitte beantworten sie die folgende frage ...“ führt zu unterschiedlichem genauigkeitsgrad.
analyse gefunden:sich ausschließlich auf bestehende skalierungs- und formungsmodelle zu verlassen, wird das problem der indikationsempfindlichkeit wahrscheinlich nicht vollständig lösen, da die neuesten modelle im vergleich zu ihren vorgängern nicht wesentlich optimiert sind.
und selbst wenn sie das beste darstellungsformat im hinblick auf die durchschnittliche leistung wählen, kann es hauptsächlich für aufgaben mit hohem schwierigkeitsgrad effektiv sein, aber gleichzeitig für aufgaben mit niedrigem schwierigkeitsgrad ineffektiv sein.(höhere fehlerquote)。
das zeigt dasdie menschheit ist immer noch dem veranlassenden projekt unterworfen。
was noch beängstigender ist, ist, dass die zeitung das herausgefunden hatdie unzuverlässigkeit des modells kann durch menschliche aufsicht nicht gemildert werden。
der artikel analysiert auf der grundlage menschlicher befragungen, ob die menschliche wahrnehmung von schwierigkeiten mit der tatsächlichen leistung übereinstimmt und ob menschen die ergebnisse des modells genau bewerten können.
die ergebnisse zeigenin betriebsbereichen, die benutzer als schwierig erachten, betrachten sie häufig falsche ausgaben als korrekt. selbst bei einfachen aufgaben gibt es keinen sicheren betriebsbereich mit geringem modellfehler und geringem überwachungsfehler.
die oben genannten unzuverlässigkeitsprobleme bestehen in mehreren llm-serien, einschließlich gpt, llama und bloom. die folgenden sind in der studie aufgeführt32 modelle。
diese modelle weisen unterschiedliche merkmale aufskalierung(erhöhte berechnungen, modellgröße und daten) undgestalten(zum beispiel anweisungen ft, rlhf).
darüber hinaus stellten die autoren später fest, dass einige der neuesten und stärksten modelle auch unter den in diesem artikel erwähnten unzuverlässigkeitsproblemen leiden:
einschließlich des o1-modells von openai, claude-3.5-sonnet von antropicic und llama-3.1-405b von meta。
es gibt auch ein dokument, das beispiele nennt.(einzelheiten entnehmen sie bitte dem originaldokument):
um zu überprüfen, ob andere modelle zuverlässigkeitsprobleme haben, verwendete der autor außerdem die in der arbeit verwendeten testbenchmarkszuverlässigkeitbenches ist auch open source.
hierbei handelt es sich um einen datensatz, der fünf bereiche abdeckt: einfache arithmetik („addition“), neuordnung des wortschatzes („worträtsel“), geografisches wissen („standort“), grundlegende und fortgeschrittene wissenschaftliche probleme („wissenschaft“) und informationsbasierte zentrierung transformation („transformation“).
das erste papierlexin zhou, schloss derzeit gerade seinen master in cs an der universität cambridge ab (24 jahre alt) und sein forschungsinteresse gilt der evaluierung großer sprachmodelle.
zuvor erwarb er einen bachelor-abschluss in datenwissenschaft an der polytechnischen universität valencia unter der leitung von professor jose hernandez-orallo.
seine persönliche homepage zeigt, dass er viele erfahrungen im rahmen von berufspraktika gesammelt hat. teilnahme an red-team-tests bei openai und meta.(red teaming-beratung)
in bezug auf dieses papier konzentrierte er sich auf folgendes:
das design und die entwicklung allgemeiner künstlicher intelligenz müssen erfolgengrundlegender wandel, insbesondere in hochrisikobereichen, in denen eine vorhersehbare fehlerverteilung von entscheidender bedeutung ist. bevor dies erreicht ist,es besteht die gefahr, sich auf menschliche aufsicht zu verlassen.
bei der bewertung eines modellsberücksichtigen sie die vom menschen wahrgenommenen schwierigkeiten und bewerten sie das vermeidungsverhalten des modells, kann eine umfassendere beschreibung der fähigkeiten und risiken des modells liefern, anstatt sich nur auf die leistung bei schwierigen aufgaben zu konzentrieren.
in dem papier werden auch ausdrücklich einige mögliche gründe für diese unzuverlässigkeiten sowie lösungen genannt:
bei der skalierung neigen benchmarks in den letzten jahren zunehmend dazu, schwierigere beispiele hinzuzufügen oder sogenannten „maßgeblichen“ quellen mehr gewicht beizumessen. daher neigen forscher eher dazu, die leistung von modellen bei schwierigen aufgaben zu optimieren, was zu chronic führt verschlechterung der schwierigkeitskonsistenz.
beim shaping (wie rlhf) tendiert die eingestellte person dazu, antworten zu bestrafen, die die aufgabe umgehen, was dazu führt, dass das modell eher „unsinn redet“, wenn es mit schwierigen problemen konfrontiert wird, die es nicht lösen kann.
so lösen sie diese unzuverlässigkeitin dem artikel wird davon ausgegangen, dass menschliche schwierigkeitserwartungen verwendet werden können, um das modell besser zu trainieren oder zu verfeinern, oder dass aufgabenschwierigkeit und modellvertrauen verwendet werden können, um dem modell besser beizubringen, probleme zu vermeiden, die über seine eigenen fähigkeiten hinausgehen usw.
was denken sie darüber?