nachricht

google deepmind demonstriert die genrm-technologie: feinabstimmung von llms als belohnungsmodelle zur verbesserung der generativen ki-schlussfolgerungsfunktionen

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house berichtete am 3. september, dass das google deepmind-team am 27. august ein papier auf arxiv veröffentlicht habe, in dem es den generativen verifizierer genrm vorstellte und demonstrierte und auf kreative weise ein belohnungsmodell zur verbesserung der generativen ki-schlussfolgerungsfunktionen vorschlug.

in der ki-branche ist der aktuelle mainstream-ansatz zur verbesserung großer sprachmodelle (llms) der best-of-n-modus, d. h. die vom llm generierten n kandidatenlösungen werden vom verifizierer sortiert und die beste lösung ausgewählt .

solche llm-basierten validatoren werden normalerweise als diskriminierende klassifikatoren zur bewertung von lösungen trainiert, können jedoch nicht die textgenerierungsfähigkeiten vorab trainierter llms nutzen.

um diese einschränkung zu überwinden, versuchte das deepmind-team, das nächste token-vorhersageziel zu verwenden, um den verifizierer zu trainieren, während er die verifizierung und lösungsgenerierung durchführt.

der generative verifizierer (genrm) des deepmind-teams bietet im vergleich zu herkömmlichen verifizierern vor allem die folgenden vorteile:

nahtlose integration von befehlsanpassungen

unterstützen sie die gedankenkette

nutzung zusätzlicher inferenzzeitberechnungen durch mehrheitsabstimmung

bei der verwendung von gemma-basierten validatoren für algorithmische und mathematische denkaufgaben in der grundschule übertrifft genrm diskriminierende validatoren und llm-als-richter-validatoren und verbessert den prozentsatz der mit best-of-n gelösten probleme um 16–64 %.

wie google deepmind berichtet, markiert der vorsprung von genrm gegenüber kategorialen belohnungsmodellen eine entscheidende entwicklung bei belohnungssystemen mit künstlicher intelligenz, insbesondere im hinblick auf ihre fähigkeit, durch neue modelle erlernte betrugsfälle zu verhindern. dieser fortschritt unterstreicht die dringende notwendigkeit, die belohnungsmodelle zu verbessern, um die ki-ergebnisse an die standards der sozialen verantwortung anzupassen.