nachricht

haben sie immer noch probleme mit ki-zaubersprüchen? die peking-universität-baichuan hat ein automatisches erinnerungs-engineering-system (pas) entwickelt

2024-09-10

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

die aixiv-kolumne ist eine kolumne, in der machine heart akademische und technische inhalte veröffentlicht. in den letzten jahren hat die kolumne „heart of the machine aixiv“ mehr als 2.000 berichte erhalten, die spitzenlabore großer universitäten und unternehmen auf der ganzen welt abdecken und so den akademischen austausch und die verbreitung wirksam fördern. wenn sie hervorragende arbeiten haben, die sie teilen möchten, können sie gerne einen beitrag leisten oder uns für die berichterstattung kontaktieren. e-mail-adresse: [email protected]; [email protected]

zheng miao, der co-erstautor des artikels, ist vom baichuan alignment team unter der leitung von zhou zenan. zu seinen forschungsinteressen gehören große sprachmodelle, multimodales lernen und computer vision projekte wie mmflow. co-erstautor liang hao ist doktorand am institute of frontier interdisciplinary studies der peking-universität. sein forschungsschwerpunkt ist die datenseite großer modelle, und sein berater ist professor zhang wentao. das joint laboratory der peking university-baichuan intelligent ai system wurde im januar 2024 gegründet. ziel ist die untersuchung wichtiger themen wie wissenschaftliche und systematische datengenerierung und qualitätsbewertungsstrategien, training großer modelle und inferenzbeschleunigung rund um den gesamten technischen prozess von modellsystemen für künstliche intelligenz . das gemeinsame labor wird von cui bin, angesehener professor für boya an der peking-universität, und chen weipeng, mitbegründer von baichuan intelligence, geleitet.

große sprachmodelle, die auf der transformer-architektur basieren, erzielen in verschiedenen bereichen bahnbrechende ergebnisse. prompt engineering spielt dabei eine entscheidende rolle.

mit guten hinweiswörtern können forscher und entwickler modelle anleiten, bei bestimmten aufgaben bessere leistungen zu erbringen. diese methode kann nicht nur die leistung des modells erheblich verbessern, sondern auch die anpassungsfähigkeit des modells verbessern und es bei der bewältigung verschiedener komplexer aufgaben flexibler und effizienter machen.

darüber hinaus kann das prompt-word-projekt auch den lernprozess des modells optimieren, die effizienz der verarbeitung komplexer probleme verbessern und die trainingszeit und den bedarf an rechenressourcen reduzieren.

im vergleich zu herkömmlichen feinabstimmungsmethoden kann prompt word engineering das modell zu sehr geringen kosten an mehrere nachgelagerte aufgaben anpassen, wodurch rechenressourcen und datenerfassungskosten erheblich gespart werden. allerdings ist das entwerfen effektiver stichworte für laien immer noch eine herausforderung und erfordert oft viel lernen und übung.

es ist normalerweise schwierig, ideale ergebnisse zu erzielen, indem große sprachmodelle direkt für projekte zur automatischen eingabeaufforderung verwendet werden. unangemessene eingabeaufforderungen können das modell ablenken und tatsächlich die leistung beeinträchtigen. daher ist es besonders wichtig, ein automatisches prompt-engineering-system zu entwickeln, das benutzer unterstützen kann und einfach zu bedienen ist.

pas: bahnbrechendes auto-alert-engineering-system

um dieser herausforderung zu begegnen, schlug das joint laboratory der peking-universität und baichuan das automatische prompt-engineering-system pas vor. die innovation von pas ist:

1. entwerfen sie einen hochwertigen datensatz mit automatischer eingabeaufforderung

2. führen sie ein lernen mit wenigen stichproben und ein datenscreening für das gpt-modell durch

3. erstellen sie automatisch einen optimierten und effizienten eingabeaufforderungsdatensatz

4. implementieren sie durch feinabstimmung ein effektives automatisches prompt-engineering

pas kann benutzereingaben prägnant und effektiv ergänzen und so ein schnelles, einfaches und automatisches eingabeaufforderungsprojekt realisieren, das die streaming-anzeige unterstützt.

in mehreren benchmark-tests übertrifft pas bestehende sota-modelle bei weitem und erfordert weniger daten. die ergebnisse der manuellen evaluierung zeigen auch, dass pas eine hervorragende leistung aufweist, was sein enormes potenzial für praktische anwendungen unterstreicht.

dieses bahnbrechende ergebnis fördert nicht nur die entwicklung des prompt word engineering, sondern ebnet auch den weg für die anwendung großer sprachmodelle in einem breiteren spektrum von bereichen.

  • papieradresse: https://arxiv.org/abs/2407.06027

  • pku-baichuan-mlsystemlab:

https://github.com/pku-baichuan-mlsystemlab

https://huggingface.co/pku-baichuan-mlsystemlab

verfahren

das training von pas ist hauptsächlich in drei schritte unterteilt:

schritt 1: erstellen sie einen hochwertigen problemdatensatz

die erste aufgabe beim training von pas besteht darin, einen qualitativ hochwertigen problemdatensatz aufzubauen. wie in abbildung (a) dargestellt, haben die forscher qualitativ hochwertige fragen basierend auf den lmsys-1m- und wildchat-datensätzen anhand der folgenden drei aspekte herausgesucht:

1. datendeduplizierung: verwenden sie einbettungstechnologie in kombination mit clustering-algorithmen, um doppelte daten effektiv zu entfernen.

2. qualitätsprüfung: verwenden sie das große baichuan-modell, um die datenqualität zu bewerten und zu überprüfen.

3. diversitätsgarantie: 9.000 hochwertige fragedaten aus mehr als 10 kategorien wurden schließlich ausgewählt.

schritt 2: ergänzen sie die prompten engineering-daten

zu diesem zeitpunkt nutzten die forscher umfassend die 100 intern gesammelten hochwertigen daten und die im ersten schritt überprüften problemdaten und nutzten die few-shot-lernmethode, um mithilfe des gpt-modells automatische prompt-engineering-daten zu erstellen:

1. erste datengenerierung: verwenden sie few-shot-learning, um gpt bei der generierung vorläufiger technischer daten zu unterstützen.

2. qualitätskontrolle: entwerfen sie den schritt „kritik“ und nutzen sie erneut das wenig-schuss-lernen, damit gpt die qualität der generierten daten bewerten kann.

3. iterative optimierung: filtern sie automatisch daten von geringer qualität heraus und generieren sie sie neu, um die datenqualität über mehrere iterationsrunden hinweg sicherzustellen.

4. endergebnis: schließlich wurden 9.000 hochwertige automatische prompt-engineering-daten erhalten.

datenverteilung

die verteilung der 9000 generierten daten ist in der abbildung oben dargestellt, um die vielfalt und repräsentativität der daten sicherzustellen.

schritt 3: feinabstimmung des auto-prompt-modells

im letzten schritt wird der in den ersten beiden phasen erhaltene datensatz verwendet, um das große sprachmodell zu verfeinern:

1. wählen sie ein basismodell aus: z. b. qwen2-7b und andere modelle.

2. gezielte feinabstimmung: verwenden sie hochwertige datensätze zur feinabstimmung.

3. spezialisierte schulung: schließlich wird ein großes sprachmodell speziell für automatische eingabeaufforderungsprojekte erhalten.

experimente und ergebnisse

manuelle überprüfung

laut der bewertung menschlicher gutachter weist pas im vergleich zum vorherigen sota-modell (state-of-the-art) in verschiedenen bereichen eine höhere erfolgsquote auf. die durchschnittliche gewinnquote liegt in vielen bereichen über 50 %, und die summe aus gewinnquote und ziehungsquote liegt bei über 80 %.

maschinenbewertungbenchmark

um die leistung von pas umfassend zu bewerten, wählten die forscher drei benchmarks: arena-hard, alpaca-eval 2.0 und alpaca-eval 2.0 (lc).

anschließend wandten die forscher pas auf sechs top-ki-modelle an, darunter:

  • gpt-4 (drei versionen)

  • gpt-3.5

  • qwen2-72-anweisung

  • llama3-70b-anweisung

die auswertungsergebnisse zeigen:

  • pas erzielt erhebliche verbesserungen sowohl gegenüber dem no-prompt-fall als auch dem vorherigen sota-auto-prompt-engineering-modell.

  • im vergleich zu früheren bpo-modellen weist pas eine größere anpassungsfähigkeit auf, ist mit einer vielzahl sehr großer modelle kompatibel und erzielt bei jedem modell leistungsverbesserungen.

recheneffizienzanalyse

pas schneidet nicht nur hinsichtlich der leistung gut ab, sondern ist auch sehr recheneffizient: in bezug auf die dateneffizienz sind nur 9.000 fein abgestimmte daten erforderlich, um eine überlegene leistung zu demonstrieren. im hinblick auf die ausgabeeffizienz kann die länge zusätzlicher automatischer eingabeaufforderungen begrenzt werden, normalerweise nicht mehr als 30 wörter.

im hinblick auf die benutzererfahrung bringt pas auch großen modellen vorteile, insbesondere:

  • im gegensatz zu früheren modellen wie bpo muss pas nicht die ursprüngliche frage des benutzers ändern, sondern nur zusätzliche automatische eingabeaufforderungen.

  • bieten sie ein hervorragendes benutzererlebnis mit kontrollierbarer reaktionszeit.

  • unterstützt gpt-ähnliche streaming-anzeige, um das interaktive erlebnis weiter zu verbessern.

beispiel: pas hilft großen modellen, logikfallen zu vermeiden

„wenn 10 vögel im baum sind und einer von ihnen erschossen wird, wie viele vögel sind dann auf dem boden?“

hinter dieser scheinbar einfachen frage verbirgt sich tatsächlich eine clevere logische falle. wenn sie sie sehen, kann es einige sekunden dauern, bis ihnen klar wird, dass sich noch 9 vögel im baum und nur noch einer auf dem boden befinden.

wie in der abbildung gezeigt, gibt gpt ohne die unterstützung von pas falsche antworten. das pas-system verbessert die leistung des modells erheblich, indem es eingabeaufforderungswörter ergänzt:

unter der anleitung von pas zeigte die neue antwortrunde erhebliche verbesserungen. sie vermied nicht nur erfolgreich die logischen fallen in den fragen, demonstrierte einen klaren, mehrstufigen logischen denkprozess, sondern gab den benutzern auch die richtigen antworten den gesamten denkprozess.

interessierte leser können den originaltext der arbeit lesen, um mehr über den forschungsinhalt zu erfahren.