Ma Yi von der Hong Kong University: Große Modelle ohne Theorie sind wie Blinde, die versuchen, einen Elefanten zu fassen; große Namen versammeln sich, um über den nächsten Schritt von AI

Hong Kong University of Finance and Economics Ma Yi: Große Modelle ohne Theorie sind wie Blinde, die spüren, wie sich große Namen versammeln, um über den nächsten Schritt der KI zu diskutieren

2024-07-24

Der Westwind kommt vom Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

„Ich möchte Ihnen eine Frage stellen. Egal, ob Sie Schüler der Qiuzhen-Akademie oder der Junior-Klasse von Qiu Chengtong sind, wenn Sie diese Frage nicht kennen, sollten Sie nicht in dieser Klasse sein!“

Auf der Internationalen Grundlagenwissenschaftskonferenz 2024 „Basic Science and Artificial Intelligence Forum“, CTO der Lenovo Group und ausländischer Akademiker der Europäischen Akademie der WissenschaftenRui YongSobald diese Worte herauskamen, wurde das gesamte Publikum ein wenig nervös.

Aber dann war die Frage, die er stellte:Welches ist größer, 13,11 oder 13,8?

Hey Leute, fragt einfach, wer diesen Witz noch nicht kennt.

Diesmal geht es jedoch nicht darum, den Wahnsinn des Models zu verspotten. Mehrere KI-Experten aus Wissenschaft und Industrie analysierten eine Reihe von Problemen wie „Modellillusion“ und erfragten ihre Meinungen zu „Was ist der nächste Schritt für künstliche Intelligenz?„Die Meinung von.

Zusammenfassend umfasst es folgende Punkte:

Der nächste Schritt bei der Entwicklung großer Modelle besteht darin, sich vom Suchparadigma „keine abstrakten Fähigkeiten, kein subjektiver Wert und kein emotionales Wissen“ zu lösen.
Kommerzielle Anwendungen hinken dem Maßstabswachstum des Modells selbst hinterher und es fehlt ein Superprodukt, das den Wert der Investition wirklich widerspiegeln kann.
Unter der Einschränkung der Illusion kann der nächste Schritt darin bestehen, darüber nachzudenken, wie die Verallgemeinerung und Interaktivität des Modells erweitert werden kann.
Für den intelligenten Agenten ist es sehr wichtig, die Grenzen seiner Fähigkeiten zu kennen.

Dekan der School of Data der Universität Hongkong und Vorsitzender der Fakultät für Informatik der Universität HongkongDarf ichIn der Diskussion wurde sogar ein Fragezeichen über die derzeit im Mainstream eingesetzte „künstliche Intelligenz“ aufgeworfen:

Die Entwicklung der Technologie der künstlichen Intelligenz hat viele Erfahrungen gesammelt, von denen wir einige erklären können, andere nicht. Jetzt ist die Zeit gekommen, in der die Theorie dringend benötigt wird. Tatsächlich kann man sagen, dass unser Stipendium in den letzten zehn Jahren nicht viele Durchbrüche erzielt hat. Es ist wahrscheinlich, dass die rasante Entwicklung der Industrie und der Ingenieurstechnologie das Tempo der Akademiker beeinflusst hat.

Werfen wir einen Blick darauf, was die Großen konkret gesagt haben.

Was ist die Natur der Intelligenz?

Vor Ort: Dekan der School of Data der Universität Hongkong und Vorsitzender des Fachbereichs Informatik der Universität HongkongDarf ich, hielt eine Grundsatzrede mit dem Titel „Rückkehr zu den Grundlagen der Theorie und Erforschung des Wesens der Intelligenz“.

Die geäußerten Ansichten decken sich mit den am Runden Tisch diskutierten Themen.

Das Thema der Rede von Professor Ma Yi lautete „Rückkehr zu den Grundlagen der Theorie und Erforschung des Wesens der Intelligenz“. Er gab einen Überblick über den historischen Entwicklungsprozess der KI und brachte seine eigenen Ansichten zur aktuellen Entwicklung der KI vor.

Er sprach zunächst über die Entwicklung des Lebens und der Intelligenz.

Seiner persönlichen Ansicht nach ist das Leben der Träger der Intelligenz, und die Fähigkeit des Lebens, zu produzieren und sich weiterzuentwickeln, ist das Ergebnis der Wirkung intelligenter Mechanismen. Und,Die Welt ist nicht zufällig, sie ist vorhersehbarIm Prozess der kontinuierlichen Evolution lernt das Leben immer mehr vorhersehbares Wissen über die Welt.

Das Überleben des Stärksten durch natürliche Selektion ist eine Art Feedback der Intelligenz, ähnlich dem aktuellen Konzept des Reinforcement Learning.

Von Pflanzen über Tiere, Reptilien und Vögel bis hin zum Menschen hat das Leben seine Intelligenz verbessert, aber es gibt ein Phänomen, das zu sein scheint: Je intelligenter das Leben ist, desto länger wird es seinen Eltern nach der Geburt folgen. Warum?

Professor Ma Yi erklärte weiter: Da Gene nicht ausreichen, müssen einige Fähigkeiten erlernt werden. Je stärker die Lernfähigkeit, desto mehr Dinge müssen gelernt werden. Dies ist eine fortgeschrittenere Form der Intelligenz.

Wenn wir individuell lernen, ist es nicht schnell genug oder nicht gut genug, also haben die Menschen die Sprache erfunden und die menschliche Intelligenz wurde zu einer Form der Gruppenintelligenz.

Es wurde Gruppenintelligenz erzeugt und es kam zu einer qualitativen Veränderung.Wir lernen diese vorhersehbaren Phänomene nicht nur aus empirischen Beobachtungen;abstraktes logisches DenkenWir nennen es menschliche Intelligenz oder später künstliche Intelligenz.

Als nächstes sprach er über den Ursprung der maschinellen Intelligenz.

Seit den 1940er Jahren versucht der Mensch, die Intelligenz von Lebewesen, insbesondere von Tieren, durch Maschinen simulieren zu lassen.

Menschen begannen, Neuronen zu modellieren und zu erforschen, „wie die Wahrnehmung des Gehirns funktioniert“. Später entdeckte jeder, dass die Simulation tierischer Nervensysteme aus künstlichen neuronalen Netzen aufgebaut werden sollte, und die Forschung wurde immer komplexer.

Diese Angelegenheit verlief nicht reibungslos. Nach zwei kalten Wintern hat jeder einige Einschränkungen neuronaler Netze entdeckt, und einige Leute bestehen immer noch darauf, diese Herausforderungen zu lösen.

Danach entwickelte sich die Datenrechenleistung und es wurde möglich, neuronale Netze zu trainieren. Es begannen sich immer tiefere Netze zu entwickeln, und ihre Leistung wurde immer besser.

Aber es gibt das größte Problem:Diese Netzwerke sind empirisch konzipiert, und die Box wird immer größer. Die Leute wissen nicht, was darin vor sich geht.

Was ist an einer Blackbox falsch? Aus technischer Sicht ist auch Experience Design möglich und Trial and Error kann fortgeführt werden. Allerdings sind die Kosten hoch, der Zyklus lang und die Ergebnisse schwer zu kontrollieren. Auch:

Solange es ein wichtiges Phänomen auf der Welt gibt, das niemand erklären kann und viele Menschen im Dunkeln bleiben, wird es Panik hervorrufen. Dies geschieht jetzt.

Wie öffnet man also die Black Box? Professor Ma Yi schlug vor, zur ursprünglichen Frage zurückzukehren: Warum studieren? Warum kann sich Leben weiterentwickeln?

Er betonte insbesondere, dass wir über Dinge sprechen müssen, die durch Berechnung realisiert werden können:

Sprechen Sie nicht über etwas Abstraktes. Das ist mein Rat an alle. Sie müssen darüber sprechen, wie man diese Angelegenheit berechnet und ausführt.

Was also lernen?

Professor Ma Yi glaubt, dass wir Dinge lernen sollten, die vorhersehbar und regelmäßig sind.

Wenn Sie beispielsweise einen Stift in der Hand halten und loslassen, weiß jeder, was passieren wird, und wenn Sie sich schnell bewegen, können Sie ihn fangen. Dies war schon vor Newton bekannt. Menschen und Tiere scheinen gute Modelle der Außenwelt zu haben.

Und in der MathematikVorhersehbare Informationen spiegeln sich gleichmäßig in der niedrigdimensionalen Datenstruktur im hochdimensionalen Raum wider.。

Was ist also der einheitliche Berechnungsmechanismus? Professor Ma Yi gab die Antwort:Ähnliche Dinge versammeln sich und verschiedene Arten stoßen sich gegenseitig ab., das Wesentliche ist so einfach.

Wie kann man messen, ob etwas gut gemacht ist? Warum Komprimierung?

Er gab ein Beispiel, wie unten gezeigt. Zum Beispiel ist die Welt zufällig, nichts ist bekannt und alles kann passieren, wenn stattdessen blaue Kugeln verwendet werden, können alle blauen Kugeln in der nächsten Sekunde passieren.

Wenn Sie sich jedoch daran erinnern möchten, dass eines dieser Dinge passiert ist, müssen Sie den gesamten Raum codieren, ihm einen Code geben, und nur der Bereich mit grünen Kugeln kann passieren, und die blauen Kugeln werden viel weniger sein.

Wenn wir wissen, dass die Bereiche, in denen Dinge passieren werden, immer kleiner werden, wissen wir immer weniger über die Welt. Dies wurde in den 1940er Jahren durch die Informationstheorie etabliert.

Um diese Grünflächen besser zu finden, müssen wir sie im Gehirn besser organisieren. Unser Gehirn organisiert also dieses Phänomen und diese niedrigdimensionale Struktur.

Wie kann dies rechnerisch erreicht werden?

Professor Ma Yi sagte, dass dies tatsächlich alle tiefen Netzwerke tun. Dies geschieht, wie der Transformer jetzt, durch Segmentieren und Klassifizieren von Bildern.

Tatsächlich ist jede Schicht des neuronalen Netzwerks soDaten komprimieren。

Dabei spielt die Mathematik eine sehr wichtige Rolle. Sie müssen genau messen, was Sie optimieren möchten. Nachdem Sie diese beiden Dinge getan haben, werden Sie feststellen, dass der Operator, den Sie erhalten, derselbe ist, mit dem Sie ihn gefunden haben Aktuelle Erfahrungen sind bei vielen Betreibern sehr ähnlich.
Ob Transformer, ResNet oder CNN, sie alle tun dies auf unterschiedliche Weise. Und es lässt sich statistisch und geometrisch vollständig erklären, was es tut.

AberDie optimale Lösung der Optimierung selbst ist möglicherweise nicht die richtige Lösung Während des Komprimierungsprozesses können wichtige Informationen verloren gehen. Wie kann nachgewiesen werden, dass die vorhandenen Informationsdimensionen gut sind? Wie kann man beweisen, dass keine Halluzinationen auftreten?

Zurück zu den Grundlagen des Lernens: Warum müssen wir uns an diese Dinge erinnern?Es geht darum, da zu seinDas Gehirn simuliert die physische Welt,Um im physischen Raum bessere Leistungen zu erbringenvorhersagen。

Später erwähnte Ma Yi das Konzept der Ausrichtung:

Bei der Ausrichtung geht es also nicht darum, sich auf Menschen auszurichten, sondern darauf, dass man sich darauf einlässtDas Modell richtet sich nach dem Gelernten aus.

Es reicht nicht aus, eine Autokodierung von innen nach außen zu erlernen. Wie lernen Tiere in der Natur das physikalische Modell der Außenwelt?

Nutzen Sie ständig Ihre eigenen Beobachtungen, um die Außenwelt vorherzusagen, solange diese mit den Beobachtungen übereinstimmenkonsistent , das ist es. Dabei handelt es sich um das Konzept eines geschlossenen Kreislaufs.

Solange es Lebewesen gibt, solange es intelligente Wesen gibt, sind sie alle in einem geschlossenen Kreislauf.

Professor Ma Yi wies dann darauf hin, dass wir von echter Intelligenz noch weit entfernt sind.

Was ist Intelligenz? Menschen verwechseln oft Wissen und Intelligenz. Hat ein System Intelligenz, wenn es Wissen hat? Ein intelligentes System muss die Grundlage für die Selbstverbesserung und die Erweiterung seines eigenen Wissens haben.

Abschließend schloss Professor Ma Yi.

Rückblickend auf die Geschichte: In den 1940er Jahren wollte jeder, dass Maschinen Tiere nachahmen, doch in den 1950er Jahren schlug Turing eines vor – ob Maschinen wie Menschen denken können. Auf der Dartmouth-Konferenz im Jahr 1956 saß eine Gruppe von Menschen zusammen und hatte das Ziel, etwas zu tunDie einzigartige Intelligenz, die Menschen vom Tier unterscheidet：Abstrakte Fähigkeit, symbolische Operationen, logisches Denken, KausalanalyseWarten.

Dafür definierten sie 1956 die künstliche Intelligenz. Später gewannen diese Leute quasi den Turing Award. Wenn Sie also in Zukunft den Turing Award gewinnen möchten, sollten Sie sich dafür entscheiden, der Masse zu folgen oder etwas Einzigartiges zu tun ...

Was haben wir rückblickend in den letzten 10 Jahren gemacht?

Die aktuelle „künstliche Intelligenz“ übernimmt Bilderkennung, Bildgenerierung, Textgenerierung, Komprimierung und Rauschunterdrückung sowie verstärkendes Lernen.Im Grunde tun wir das auf tierischer Ebene., einschließlich der Vorhersage des nächsten Tokens und des nächsten Frame-Bildes.

Es ist nicht so, dass wir später keine Leute hatten, die daran arbeiteten. Aber kein Mainstream-Großmodell.

Er erklärte weiter, dass sich die Leistung vieler Modelle weiter entwickeln wird, wenn genügend Geld und Daten einfließen. Wenn es jedoch über einen längeren Zeitraum keine Theorie gibt, werden Probleme auftreten, genau wie bei einem Blinden, der versucht, es herauszufinden einen Elefanten rausholen.

Professor Ma Yi sagte, dass er mit dem Teilen seiner persönlichen Reise hofft, jungen Menschen etwas Inspiration zu geben.

Sobald wir die Prinzipien haben, können wir mutig entwerfen und müssen nicht mehr darauf warten, dass die nächste Generation ein scheinbar gutes Netzwerk erfindet, sondern können es gemeinsam nutzen. Wo liegen also Ihre Chancen?

Schauen wir uns an, wie andere KI-Experten im Roundtable-Forum auf die Frage „Was ist der nächste Schritt für künstliche Intelligenz?“ geantwortet haben.

Was ist der nächste Schritt für künstliche Intelligenz?

Große Modelle erfordern „Paradigmen“-Änderungen

Mitglied der Royal Academy of Engineering, der European Academy of Sciences, der Hong Kong Academy of Engineering Sciences und Chief Vice-President der Hong Kong University of Science and TechnologyGuo YikeIch denke, wir befinden uns gerade in einem sehr interessanten Moment –

Da das Skalierungsgesetz weithin akzeptiert ist, hat sich der Hundert-Modell-Krieg nach und nach zu einem Ressourcenkrieg entwickelt.Es scheint, dass wir jetzt nur noch zwei Dinge tun müssen. Nachdem wir das Transformer-Modell haben, müssen wir Folgendes lösenGroße RechenleistungUndGroße DatenDas Problem.

Seiner Meinung nach ist dies jedoch nicht der Fall.Die aktuelle Entwicklung der KI steht noch vor vielen Problemen. Eines davon istBegrenzte Rechenleistung und unendliche NachfrageDas Problem.

Wie sollten wir in diesem Fall ein großes Modell bauen? Der Akademiker Guo teilte seine Gedanken anhand einiger Übungen mit.

Zunächst erwähnte Akademiker Guo den Einsatz wirtschaftlicherer MOE bei begrenzter Rechenleistung.Gemischtes ExpertenmodellEs können auch sehr gute Ergebnisse erzielt werden.

Darüber hinaus ist es auch eine schwierige Frage, wie man ein Modell nach dem Training kontinuierlich mit neuen Daten verbessern kann, damit es sich daran erinnern kann, was man sich merken sollte, vergisst, was vergessen werden sollte, und sich bei Bedarf an Dinge erinnern kann, die vergessen wurden.

Der Akademiker Guo ist mit einigen Behauptungen in der Branche nicht einverstanden, dass „die Daten aufgebraucht sind“. „Tatsächlich wurde das Modell nur komprimiert und die komprimierten Daten können in neue Daten regeneriert werden“, also mithilfe von Generativ Modelle zur Generierung von Daten.

Als nächstes müssen nicht alle Modelle von Grund auf erlernt werdenEinbettung von Wissen in das Basismodell ein. Auch in diesem Bereich gibt es noch viel zu tun.

Neben der Rechenleistung gibt es noch ein weiteres Problem des Algorithmus:Die Kultivierung maschineller Intelligenz und die menschliche Intelligenz selbst weisen zwei Polaritäten auf。

Der Akademiker Guo glaubt, dass beim Training großer Modelle das wichtigere Problem nicht vorne, sondern hinten liegt.

Wie in der folgenden Abbildung dargestellt, verläuft der Evolutionspfad des großen Modells vom Selbstlernen > indirektem Wissen > Werten > gesundem Menschenverstand, während der Kultivierungspfad der menschlichen Bildung das Gegenteil ist.

Aus diesem Grund glaubt Akademiemitglied Guo, dass wir aus dem heutigen Suchparadigma großer Modelle ohne „keine abstrakten Fähigkeiten, ohne subjektiven Wert und ohne emotionales Wissen“ aussteigen sollten.

Wir alle wissen, dass die menschliche Sprache nicht nur aus Inhalten besteht, nicht nur aus Informationen, sondern auch aus der menschlichen Natur und der Energie der Informationen. Dies ist eine wichtige Richtung für unsere zukünftige Forschung.

Zusammenfassend lässt sich sagen, dass es für den nächsten Schritt der künstlichen Intelligenz drei Entwicklungsstufen gibt, so Akademiker Guo:

Die erste Stufe basiert auf Authentizität; die zweite Stufe basiert auf Wert. Die Maschine muss in der Lage sein, ihren eigenen Standpunkt auszudrücken und ihren eigenen subjektiven Wert zu bilden, und dieser Standpunkt kann entsprechend ihrer Umgebung geändert werden Erst wenn es Werte hat, kann es verstehen, was Neuheit ist, und nur mit Neuheit kann es etwas schaffen.

Bei der Erstellung dieses Modells stellt die sogenannte Illusion kein Problem dar, denn Illusion ist nur im Paradigmenmodell ein Problem. Das Schreiben eines Romans muss eine Illusion sein, man kann keinen Roman schreiben. Er muss nur Konsistenz bewahren und braucht keine Authentizität, also muss er eigentlich nur einen Wert widerspiegeln Erfordert einen Paradigmenwechsel.

Der Entwicklung großer Modelle fehlt ein „Superprodukt“

Vizepräsident von JD.com, außerordentlicher Professor und Doktorvater an der University of WashingtonEr XiaodongMan geht davon aus, dass die KI im nächsten Schritt vor drei Problemen stehen wird.

Erstens glaubt er, dass die Entwicklung großer Modelle in gewisser Weise in eine Plateauphase eingetreten ist.

Aufgrund der begrenzten Daten- und Rechenleistung kann es sein, dass die Obergrenze erreicht wird und die Rechenressourcen zu einer immer größeren Belastung werden, wenn Verbesserungen lediglich auf der Skala basieren. Folgt man dem jüngsten Preiskampf (Preisschild), ist es sehr wahrscheinlich, dass die wirtschaftlichen Vorteile großer Modelle nicht einmal die Stromrechnung decken können, was natürlich nicht nachhaltig ist.

Zweitens glaubt Professor He, dass die gesamte kommerzielle Anwendung hinter dem Maßstabswachstum des Modells selbst zurückbleibt. Mittel- und langfristig wird dies irgendwann zu einem Problem werden:

Insbesondere wenn wir einen so großen Maßstab sehen, handelt es sich nicht mehr nur um ein wissenschaftliches Problem, sondern wird auch zu einem technischen Problem. Wenn beispielsweise die Parameter die Billionen-Ebene erreichen, erreichen die Anrufdaten die 10-Billionen-Token-Ebene. Dann muss die Frage aufgeworfen werden: der gesellschaftliche Wert, den es mit sich bringt.

Daraus geht Professor He derzeit hervorEs fehlt eine Super-App und ein Super-Produkt, kann den Wert einer Investition wirklich widerspiegeln.

Die dritte Frage ist eine relativ spezifische Frage, nämlichgroße Modellillusion。

Wenn wir ein KI-Industriegebäude auf der Grundlage großer Modelle aufbauen wollen, müssen wir extrem hohe Anforderungen an die grundlegende Illusion großer Modelle stellen. Wenn die Fehlerquote des grundlegenden großen Modells sehr hoch ist, ist es schwer vorstellbar, dass weitere kommerzielle Anwendungen darauf überlagert werden können.
Ernsthafte industrielle Anwendungen müssen die Illusion lösen.

Professor He glaubt, dass der nächste Schritt unter der Einschränkung der Illusion darin bestehen kann, darüber nachzudenken, wie die Verallgemeinerung und Interaktivität des Modells erweitert werden kannmultimodalEs ist eine unvermeidliche Entscheidung.

Bei großen Modellen fehlt das Bewusstsein für „Fähigkeitsgrenzen“

CTO der Lenovo Group, ausländischer Akademiker der Europäischen Akademie der WissenschaftenRui YongAus industrieller Sicht äußerte er seine Ansichten zum nächsten Schritt der KI.

Aus industrieller Sicht sei es wichtiger, wie das Modell umgesetzt werde, sagte er. In Bezug auf die Umsetzung sprach Dr. Rui Yong hauptsächlich über zwei Punkte:

Es reicht nicht aus, ein großes Modell zu haben, wir müssen es entwickelnAgent
Es reicht nicht aus, über ein großes Wolkenmessmodell zu verfügen, Sie benötigen einesHybrid-Framework

Konkret listete Dr. Rui Yong zunächst einige Studien auf und wies darauf hin, dass die Grenzen großer Modelle immer offensichtlicher werden. Beispielsweise zeigt die eingangs erwähnte Frage „Was ist größer, 13,8 oder 13,11“, dass das Modell das Problem nicht wirklich versteht.

Seiner Meinung nach reichen die aktuellen großen Modelle nicht aus, um große Netzwerke mit großer Rechenleistung aufzubauen, um große generative Modelle zu erstellen Entwicklung intelligenter Agenten.

Dr. Rui Yong hob besonders das große Modell hervorFähigkeitsgrenzeFrage.

Heutige große Modelle wissen eigentlich nicht, wo die Grenzen ihrer Leistungsfähigkeit liegen.
Warum haben große Models Halluzinationen und warum reden sie ernsthaft Unsinn? Tatsächlich versucht es nicht, uns zu täuschen, aber es weiß nicht, was es weiß oder was es nicht weiß. Das ist ein sehr wichtiges Thema, daher denke ich, dass der erste Schritt darin besteht, dem Agenten die Grenzen dessen bewusst zu machen seine Fähigkeiten.

Darüber hinaus sagte Dr. Rui Yong, dass Intelligenz allein für die KI-Implementierung nicht ausreiche und große öffentliche Modelle in der Cloud für Unternehmen privatisiert werden müssten. Datengesteuert und wissensgesteuert bilden ein hybrides KI-Modell, und in vielen Situationen sind auch kleine Modelle sehr nützlich. Es gibt auch individuell orientierte Modelle, die persönliche Vorlieben kennen können.

Es wird kein großes Modell sein, das ausschließlich auf Cloud-Tests basiert, sondern ein großes Modell, das hybrides End-Edge und Cloud kombiniert.

Belegung