Das Q* von OpenAI gab es noch nie zuvor, aber das Q* einer Reihe von Startup-Unternehmen ist hier

2024-07-31

Wie weit sind wir von einer KI entfernt, die „langsam denken“ kann?

Autorin｜Stephanie Palazzolo

Zusammenstellung |. Wan Chen

Herausgeber｜Jingyu

Letztes Jahr, vor und nach der vorübergehenden Entlassung von Sam Altman, schickten OpenAI-Forscher einen gemeinsamen Brief an den Vorstand, in dem sie darauf hinwiesen, dass das mysteriöse Projekt mit dem Codenamen Q die gesamte Menschheit bedrohen könnte. OpenAI würdigte Q* in einem internen Brief an die Mitarbeiter und beschrieb das Projekt als „übermenschliches autonomes System“.

Obwohl Q* noch nicht gesehen wurde, gibt es auf der Welt immer wieder Gerüchte darüber.

Lu Yifeng, ein leitender Ingenieur bei Google DeepMind, hat einmal aus professioneller Sicht eine Vermutung zu Geek Park aufgestellt: Das Modell muss erkennen, bei welchen Problemen es sich nicht sicher ist und was es als nächstes tun soll. Zu diesem Zeitpunkt muss das Modell möglicherweise im Internet surfen, Bücher lesen, Experimente durchführen, sich unerklärliche Ideen ausdenken und mit anderen wie Menschen diskutieren.

Wenn ich dieses Jahr Fragen in den KI-Assistenten-Apps großer Modellhersteller stelle, habe ich das Gefühl, dass die Antworten zuverlässiger sind als im letzten Jahr. Viele Hersteller sagten auch, dass sie hart daran arbeiten, die Modelle stärker zum Nachdenken zu bringen und weiter zu verbessern ihre Denkfähigkeiten. Wie ist der bisherige Fortschritt?

In Bezug auf die oben genannten Probleme diskutierte The Information-Reporterin Stephanie Palazzolo in dem Artikel „How OpenAI's Smaller Rivals Are Develop Your Own AI That ‚Reasons‘“ die Modelle bestehender Startup-Unternehmen zur Verbesserung der Modellschlussfähigkeiten, darunter das chinesische Unternehmen Q*. Es wird von Geek Park organisiert und ist wie folgt:

Kleinere Konkurrenten zu OpenAI

Entwickeln Sie Ihre eigene „logische“ KI

Wie nützlich diese KI-Welle ist, abgesehen von Blasen, ist ein Thema, das in diesem Jahr wiederholt im Rampenlicht stand.

Das Prinzip des großen Modells besteht darin, Worteinheiten einzeln auf der Grundlage von Wahrscheinlichkeitsvorhersagen zu generieren. Das Nachplappern von Wörtern auf der Grundlage des während des Trainings zugeführten Korpus und das Erfinden von Halluzinationen bei der Begegnung mit Fragen, die noch nie zuvor gesehen wurden, ist jedoch offensichtlich nicht jedermanns Sache erwartet. Die weitere Verbesserung der Argumentationsfähigkeiten des Modells ist von entscheidender Bedeutung.

In dieser Hinsicht haben wir noch keine Fortschritte von OpenAI und Google gesehen, aber einige Startups und Einzelpersonen sagen, dass sie einige „billige“ Methoden (billige Hacks) entwickelt haben, um bestimmte Formen von KI-Folgefähigkeiten zu erreichen.

Zu diesen Abkürzungen gehört es, ein komplexes Problem in einfachere Schritte zu unterteilen und dem Modell Dutzende zusätzlicher Fragen zu stellen, um es bei der Analyse dieser Schritte zu unterstützen.

Wenn man beispielsweise darum bittet, einen Blog-Beitrag über ein neues Produkt zu verfassen, löst die KI-Anwendung automatisch zusätzliche Abfragen aus, indem sie beispielsweise das große Modell auffordert, seine Antworten und Verbesserungsmöglichkeiten zu bewerten. Natürlich können Sie in der Benutzeroberfläche diese vom Modell im Hintergrund ausgeführten Aktionen nicht sehen.

Dies ähnelt der sokratischen Methode, Schülern beizubringen, kritisch über ihre Überzeugungen oder Argumente nachzudenken. Letzterer verwendet eine Frage-und-Antwort-Lehrmethode. Bei der Kommunikation mit den Schülern wird Sokrates die Schüler nicht direkt dazu anleiten, Probleme selbst zu entdecken und die Widersprüche und Mängel in ihren Ansichten aufzudecken, indem er ständig Fragen stellt. , und korrigieren Sie es nach und nach, um die richtige Schlussfolgerung zu ziehen.

Mit diesem Link kann die KI-Anwendung das große Modell auffordern, den obigen Blog-Beitrag unter Berücksichtigung des Feedbacks, das es sich gerade selbst beim Schreiben gegeben hat, neu zu schreiben. Dieser Prozess wird oft als Reflexion bezeichnet, und ein KI-Anwendungsunternehmer sagte, er führe oft zu besseren Ergebnissen.

Neben dem reflektierenden Ansatz können Entwickler auch Google folgen und es versuchen Eine Technik namens Sampling. Beim Sampling verbessern Entwickler die Fähigkeit großer Modelle, kreative und zufällige Antworten zu liefern, indem sie dieselbe Frage Dutzende oder sogar 100 Mal stellen und dann die beste Antwort auswählen.

Beispielsweise kann eine Programmierassistenten-App ein großes Modell auffordern, 100 verschiedene Antworten auf dieselbe Frage zu geben, und dann führt die App alle diese Codeausschnitte aus. Die endgültige Programmierassistent-App wählt den Code aus, der die richtige Antwort liefert, und wählt automatisch den prägnantesten Code aus.

Meta hat in seinem jüngsten Artikel zu Llama 3 einige ähnliche Techniken hervorgehoben.

Aber diese Problemumgehung – ein großes Sprachmodell 100 Mal aufzurufen oder es so viel Text und Code ausgeben zu lassen – ist extrem langsam und teuer. Das ist wahrscheinlich der Grund, warum einige Entwickler den Programmierassistenten von Cognition, einem Startup, das diese Technologien nutzt, wegen seiner langsamen Leistung kritisiert haben.

Auch Entwickler haben dieses Problem erkannt und versuchen, es zu lösen.der Weg istWählen Sie Beispiele des Modells aus, die eine gute Argumentationsfähigkeit für ein bestimmtes Problem zeigen, und „füttern“ Sie sie an das Modell zurückTrainingsdatenKonzentrieren Sie sich auf die Lösung dieses Problems. Wie ein Unternehmer sagte, ähnelt dieser Ansatz dem Erlernen des Einmaleins in der Grundschule. Zu Beginn müssen die Schüler möglicherweise jedes Multiplikationsproblem manuell berechnen. Aber mit der Zeit, wenn sie sich diese Multiplikationstabellen einprägen, werden die Antworten fast Teil der Intuition des Schülers.

Um diese Art von KI zu entwickeln, benötigen Entwickler die Kontrolle über große Modelle. Aber es ist schwierig, ein Gefühl der Kontrolle über die Closed-Source-Modelle von OpenAI oder Anthropic zu bekommen, daher verwenden sie eher ein Modell mit offener Gewichtung wie Llama 3 (offene Gewichtung ist ein Begriff in der Open-Source-Welt und bedeutet Code mit einem hohen Wert). Grad der Offenheit).

Die beiden oben genannten Methoden könnten die Technologien sein, die OpenAI für seinen Durchbruch in der Argumentation verwendet hat. Natürlich hat OpenAI Q*, das auch als „Strawberry“-Projekt bekannt ist, noch nicht veröffentlicht.

Chinas Q*

Auch chinesische Entwickler und Forscher beherrschen diese Technologien nach und nach.

Forscher des chinesischen Skywork AI und der Nanyang Technological University haben im Juni dieses Jahres einen Artikel zu diesem Thema veröffentlicht. In diesem Artikel nannten sie die Technologie auch Q*, zu Ehren einer Version von OpenAI, die sie noch nie zuvor gesehen hatten.

Chinas Q*-Technologie ermöglicht es großen Modellen, Probleme in mehreren Schritten zu lösen, beispielsweise komplexe Logikrätsel.

der Weg istDurch „Suchen“ bei jedem Schritt der Antwort nach dem besten nächsten Schritt, den das große Modell versuchen sollte, anstatt die Schritte zu befolgen, um zu einer Schlussfolgerung zu gelangen (diese Methode wird auch als Monte-Carlo-Baumsuche bezeichnet und wurde früher in Google AlphaGo verwendet). . Dies wird durch eine spezielle Gleichung namens Q-Wert-Modell erreicht, die dem großen Modell hilft, den zukünftigen Nutzen jedes möglichen nächsten Schritts abzuschätzen – oder die Wahrscheinlichkeit, dass die endgültige Antwort richtig ist.

Die Forscher sagen, dass sie planen, die Technologie im Herbst dieses Jahres öffentlich zu veröffentlichen.

Alex Graveley, CEO von Minion AI, einem Startup für intelligente Agenten und ehemaliger Chefarchitekt von GitHub Copilot, sagte, dass sie es immer noch versuchen Bringen Sie dem Sprachmodell bei, einen Schritt zurückzugehen, wenn es erkennt, dass etwas schief gelaufen ist.Er behauptet, dass dieses Bewusstsein auftreten kann, wenn ein großes Modell eine falsche Antwort liefert oder aufgefordert wird, über seine Zwischenschritte nachzudenken (ähnlich dem Beispiel im obigen Blogbeitrag)., als ihm klar wurde, dass ein Fehler gemacht worden war.

Es gibt weitere Versuche in der Branche, darunter das im März von der Stanford University und Notbad AI veröffentlichte „Quiet-STaR“-Papier. So wie Menschen innehalten, um über ihre Gedanken nachzudenken, bevor sie sprechen oder schreiben, erklärt dieser Artikel, wie man großen Sprachmodellen beibringt, Informationen über die internen „Denk“-Schritte zu generieren, die sie bei komplexen Denkproblemen unternehmen, um bessere Entscheidungen zu treffen.

Die Q*/Strawberry-Technologie von OpenAI hat vielleicht einen Vorsprung, aber alle anderen scheinen aufzuholen.

*Quelle des Kopfbildes: GulfNews

Geek fragte

Glaubst du, wir sind weit voneinander entfernt?

Wie weit ist es von der KI entfernt, die „langsames Denken“ beherrscht?

Tatsächliche Messung der iOS 18.1 Beta-Anrufaufzeichnung, Android-Telefone können weiterhin Aufzeichnungsaufforderungen empfangen.

Liken und folgenGeek Park-Videokonto，

Nachricht

Das Q* von OpenAI gab es noch nie zuvor, aber das Q* einer Reihe von Startup-Unternehmen ist hier

Einführung

meine Kontaktdaten