Sprechen Sie mit dem Deep-Learning-Wissenschaftler Yann LeCun_news darüber, wie man über große Modelle nachdenkt

Lassen Sie uns mit dem Deep-Learning-Wissenschaftler Yann LeCun darüber sprechen, wie man über große Modelle nachdenkt

2024-08-09

Mit der Weiterentwicklung und Popularität der generativen KI-Technologie in den letzten zwei Jahren ist die Verwendung großer Modelle zur Generierung von Inhalten allmählich zu einem Teil des Lebens normaler Menschen geworden. Dieser Vorgang scheint einfach zu sein: Wenn wir eine Anweisung eingeben, kann das große Modell die Antwort direkt für uns ausgeben. Hinter den Kulissen kennt jedoch niemand die internen Arbeitsprinzipien und den Modellentscheidungsprozess. Dies ist die bekannte „Blackbox für maschinelles Lernen“.

Aufgrund der Unerklärlichkeit von Black-Box-Modellen wurde die Sicherheit von KI schon immer in Frage gestellt. Daher begannen Wissenschaftler, die Blackbox großer Modelle zu öffnen, was in der Branche als „White-Box-Forschung“ bezeichnet wird. Einerseits kann das Studium von White-Box-Modellen dazu beitragen, Black-Box-Modelle zu verstehen und dadurch große Modelle zu optimieren und die Effizienz zu verbessern. Andererseits besteht das Ziel der White-Box-Forschung darin, KI, ein Ingenieursthema, in die Wissenschaft zu bringen.

Dieses Mal haben wir eingeladenChen Yubei, Assistenzprofessor, Fakultät für Elektrotechnik und Informationstechnik, University of California, DavisSeine Forschungsinhalte beziehen sich auf das „White-Box-Modell“. Darüber hinaus ist er Postdoktorand von Yann LeCun, Turing-Preisträger und Meta-Chefwissenschaftler. In dieser Folge unterhielt er sich mit uns über die neuesten Forschungsfortschritte bei White-Box-Modellen und teilte uns auch Yann LeCun mit, einen ihm bekannten Wissenschaftler, der die Höhen und Tiefen der KI-Branche miterlebt hat, aber weiterhin konzentriert bleibt .

Grafik von Violet Dashi. Illustrationen von Nadia und Simple Line

Nachfolgend finden Sie ausgewählte Interviews

01 Menschliches Gehirn und großes Modell

„Silicon Valley 101“:Können Sie zunächst kurz die Forschung zum „White-Box-Modell“ vorstellen, die Sie betreiben? Haben Sie bei Ihrer Recherche herausgefunden, wie sich die Eingabe- und Ausgabeprobleme von GPT erklären lassen?

Chen Yubei:Tatsächlich besteht ein relativ großes Ziel in dieser Richtung darin, tiefes Lernen von einem rein empirischen Fach zu einem wissenschaftlichen Fach zu fördern oder das Ingenieurwesen in eine Wissenschaft umzuwandeln, da sich das Ingenieurwesen derzeit relativ schnell entwickelt, die Wissenschaft jedoch relativ langsam. Früher gab es ein Modell namens Worteinbettung, mit dem einige Darstellungen der Sprache erlernt werden konnten.

Eigentlich hatte damals jeder eine Frage: Unsere Aufgabenleistung hat sich verbessert, aber was genau hat dazu geführt, dass sich diese Leistung verbessert hat? Also haben wir damals eine sehr frühe Arbeit gemacht, bei der wir versuchten, diese Darstellungen von Wörtern zu öffnen. Wenn Sie es öffnen, werden Sie einige sehr interessante Phänomene finden.

Wenn Sie beispielsweise das Wort „Apfel“ nehmen, können Sie darin einige Metabedeutungen finden. Beispielsweise kann eine der Bedeutungen „Frucht“ und eine andere „Nachtisch“ bedeuten. Wenn Sie tiefer graben, werden Sie die Bedeutung von „Technologie“ finden Produkte, was sich natürlich auf Apple-Produkte bezieht. Sie werden also feststellen, dass Sie diese Metabedeutungen entlang eines Wortes finden können, und dann können Sie diese Methode auf ein großes Sprachmodell erweitern.

Mit anderen Worten: Nachdem wir ein großes Sprachmodell gelernt haben, können wir nach einigen Metabedeutungen im Modell suchen und dann versuchen, es zu öffnen. Sie finden ein großes Sprachmodell vor, das tatsächlich aus vielen Schichten besteht.

Auf der Primarstufe tritt ein Phänomen namens „Wortdisambiguierung“ auf. Zum Beispiel gibt es im Englischen ein Wort namens „left“. Dieses Wort bedeutet sowohl „Linksdrehung“ als auch die Vergangenheitsform des Verlassens. Dann hängt seine spezifische Bedeutung vom Kontext vor und nach dem Kontext ab. Das Modell vervollständigt die Begriffsklärung in den ersten Schichten.

Mittelfristig werden Sie feststellen, dass einige neue Bedeutungen entstehen. Damals dachten wir, eine sehr interessante Sache hieße „Einheitenumrechnung“. Sobald Sie Kilometer in Meilen umrechnen möchten, wird diese Bedeutung aktiviert Auf diese Weise gibt es viele ähnliche Ebenen dieser Metabedeutung.

Wenn Sie weiter nach oben gehen, werden Sie sogar feststellen, dass es ein Muster zwischen diesen Metabedeutungen gibt. Dieses Muster besteht darin, dass eine wiederholte Bedeutung im Kontext aktiviert wird. Sie können diese Methode verwenden, um die große Sprache zu öffnen . Modelle und kleine Sprachmodelle. Natürlich sind diese Ideen nicht völlig neu. In visuellen Modellen gibt es beispielsweise seit Matthew Zeiler einige ähnliche Untersuchungen.

„Silicon Valley 101“:Wenn wir dieser Denkweise folgen und wissen, wie ein Teil davon funktioniert, können wir ihn dann aus technischer Sicht erheblich optimieren?

Chen Yubei:Ja, das ist eine sehr gute Frage. Ich denke, eine relativ hohe Anforderung an jede Theorie besteht darin, dass sie die Praxis leiten kann. Als wir also Sprachmodelle und Vokabulardarstellungen erstellten, bestand eines unserer Ziele darin, diese Modelle wiederum zu optimieren, nachdem wir sie verstanden hatten ? Tatsächlich ist es möglich.

Wenn Sie beispielsweise eine Meta-Bedeutung in einem großen Sprachmodell finden, wird diese aktiviert, wenn sie eine bestimmte Meta-Bedeutung sieht. Dann kann dieses Neuron als Diskriminator verwendet werden, und Sie können dieses Etwas verwenden, um einige Aufgaben zu erledigen. Durch die Änderung dieser Metabedeutungen wird die Tendenz des Modells angepasst.

Wenn ich es erkennen kann, kann ich es anpassen. Vor kurzem hat Anthropic ähnliche Arbeiten durchgeführt, die darin bestehen, einige Vorurteile zu finden, die möglicherweise im Sprachmodell vorhanden sind, und dann einige Änderungen daran vorzunehmen, um das Modell fairer und sicherer zu machen.

„Silicon Valley 101“:Ich habe gesehen, dass OpenAI letztes Jahr auch eine Studie durchgeführt hat, in der GPT4 verwendet wurde, um GPT2 zu erklären und zu sehen, wie GPT2 funktioniert. Sie fanden beispielsweise heraus, dass das Neuron von GPT 2 aktiviert wird, wenn alle Fragen beantwortet werden, die sich auf die Geschichte der Vereinigten Staaten um 1800 beziehen. Das 12. Neuron in Zeile 5 wird aktiviert, wenn auf Chinesisch geantwortet wird Zeile 12. ist aktiviert.

Wenn das Neuron, das auf Chinesisch antwortet, ausgeschaltet wird, verringert sich seine Fähigkeit, Chinesisch zu verstehen, erheblich. Aber je weiter die Neuronen zurückliegen, zum Beispiel wenn die Neuronen etwa 2000 Zeilen erreichen, desto mehr nimmt ihre Glaubwürdigkeit insgesamt ab. Haben Sie ihre Forschung bemerkt?

OpenAI-Forschung: Lassen Sie GPT4 GPT2-Neuronen erklären

Chen Yubei:Ich habe diesen Artikel noch nicht gelesen, aber diese Methode ist der Operation an den Neuronen des Gehirns sehr ähnlich. Äquivalent zu jetzt, wenn es ein neuronales Netzwerk gibt, bedeutet dieses Netzwerk, dass es in gewisser Weise eine lokale Existenz finden kann, anstatt vollständig verteilt zu sein, und dann können einige Operationen darauf ausgeführt werden. Wenn beispielsweise ein bestimmtes Neuron abgeschnitten wird, kann man davon ausgehen, dass ein bestimmter Teil seiner Fähigkeit relativ verloren geht.
Tatsächlich gilt das Gleiche auch für Menschen mit Epilepsie, die nach einer Operation möglicherweise einige Sprachbarrieren haben, andere menschliche Körperfunktionen scheinen jedoch nicht beeinträchtigt zu sein.

„Silicon Valley 101“:OpenAI und Anthropic untersuchen derzeit die Interpretierbarkeit großer Modelle. Gibt es einen Unterschied zwischen Ihrer und ihrer Forschung?

Chen Yubei:Tatsächlich weiß niemand, ob die Forschung zum White-Box-Modell in Zukunft erfolgreich sein wird. Ich habe es bereits mit meinem Vorgesetzten besprochen, aber alle sind sich einig, dass es einen Versuch wert ist. Wenn wir auf diesen Bereich zurückkommen, geht es bei unserer Forschung eigentlich darum, künstliche Intelligenz zu verstehen, sie durch unser Verständnis zu rekonstruieren und dann grundlegend etwas anderes aufzubauen. Beobachtung, also Interpretierbarkeit, ist meiner Meinung nach nur ein Mittel.
Mit anderen Worten, ob ich dieses Modell öffne, ob ich diese Experimente durchführe oder einige Anpassungen am Modell vornehme, ich denke, das sind einige der Methoden, die wir im Prozess des Verstehens ausprobieren, aber was ist wirklich wichtig an der Whitebox? Das Modell muss immer noch auf das Signal selbst zurückgreifen. Denn egal, ob es sich um ein menschliches Gehirn oder eine Maschine handelt, ihr Lernen basiert im Wesentlichen auf Signalen.

Es gibt einige Strukturen in unserer Welt, und sie müssen auch durch diese Strukturen lernen, und es sind diese Strukturen, die sie lernen. Können wir also die Gesetze hinter diesen Strukturen sowie einige mathematische Werkzeuge zu ihrer Darstellung finden und diese Dinge dann neu organisieren, um ein anderes Modell zu erstellen? Wenn dies gelingt, wird dies meiner Meinung nach Erwartungen hinsichtlich einer Verbesserung der Robustheit, Sicherheit und Zuverlässigkeit unserer Systeme wecken.
Darüber hinaus wird die Effizienz gesteigert. Dies ähnelt ein wenig der Theorie der Thermodynamik, die nach dem Erscheinen der Dampfmaschine entstand und deren Umwandlung von einem rein handwerklichen Fach zu einer Wissenschaft unterstützte. Auf die gleiche Weise scheinen wir heute zum ersten Mal eine Dampfmaschine für Daten zu haben. Nachdem wir unsere Daten vorher nicht verstanden haben, können wir endlich damit beginnen, einige KI-Algorithmen zu entwickeln, um die Muster in den Daten zu erfassen.

„Silicon Valley 101“:Es wird also energieeffizienter sein.

Chen Yubei:Zum Thema Energieeinsparung kann ich Ihnen einige interessante Beispiele nennen. Der erste Punkt ist definitiv die Energieeinsparung, denn das Gehirn entspricht einer Glühbirne mit einem Stromverbrauch von 20 Watt und aktuelle Supercomputer können mehr als eine Million Watt verbrauchen.

Der zweite Punkt ist, dass, wenn wir die Evolution verschiedener Organismen in der Natur betrachten, ihre evolutionäre Effizienz tatsächlich sehr hoch ist. Es gibt zum Beispiel eine besondere Spinnenart namens Springspinne. Sie hat nur wenige Millionen Neuronen, kann aber sehr komplexe dreidimensionale Gruppenlinien bilden, um ihre Beute zu fangen.

Springspinne, Wikipedia

Und eines der interessantesten Dinge für mich ist, wie effizient Menschen Daten nutzen. Das aktuelle Datenvolumen von Llama3 hat etwa 13 Billionen Token erreicht. Doch wie viele Daten kann ein Mensch im Laufe seines Lebens empfangen? Unter der Annahme, dass wir 30 Bilder pro Sekunde erhalten können, die tägliche Aufnahmezeit 12 Stunden beträgt und wir dies 20 Jahre lang tun, können wir wahrscheinlich 10 Milliarden Token erhalten, und der Text kann fast genauso viel erhalten Die Anzahl der Daten ist viel kleiner als die eines großen Modells.
Die Frage ist also: Wie erreichen Menschen durch eine so kleine Datenmenge eine so starke Generalisierungsfähigkeit? Das ist es, was ich an der Leistungsfähigkeit des menschlichen Gehirns erstaunlich finde.

„Silicon Valley 101“:Ist es schwieriger herauszufinden, wie große Modelle funktionieren oder wie das menschliche Gehirn funktioniert? Für mich hört es sich hart an.

Chen Yubei:Beide haben ihre eigenen Schwierigkeiten, sind aber im Ansatz ähnlich. Ob es sich um das menschliche Gehirn oder ein großes Sprachmodell handelt, wir versuchen es zu beobachten und zu sehen, worauf es reagiert.

Diese Methode lässt sich tatsächlich an den Forschungen zum visuellen Kortex von David Hubel und Torsten Weisel erkennen, die in den 1980er Jahren den Nobelpreis für Physiologie erhielten. Sie fanden eine einfache Zelle und versuchten zu untersuchen, wie diese Neuronen Impulse erzeugen, wenn eine Person etwas sieht. Sie analysierten die unterschiedlichen Reaktionszustände von Neuronen beim Betrachten verschiedener Dinge, beispielsweise wenn sie überhaupt nicht reagierten und wenn sie sehr aufgeregt waren. Und dann fanden sie das Empfangsfeld des Neurons.

DH Hubel und TN Wiesel, Gewinner des Nobelpreises für Physiologie oder Medizin 1981

Unser heutiges Studium großer Sprachmodelle ist tatsächlich ähnlich. Wir suchen nach verschiedenen Eingaben und verstehen dann, welche Neuronen innerhalb des Modells an welchen Eingaben interessiert sind. Aber es gibt immer noch Unterschiede.

Der erste Unterschied besteht darin, dass es bei der Beobachtung des menschlichen Gehirns viele Einschränkungen gibt, sei es durch Steckelektroden oder Gehirn-Computer-Schnittstellenmethoden. Ein natürlicher Vorteil großer Sprachmodelle besteht darin, dass die Beobachtungsmethoden nicht mehr eingeschränkt sind Wenn Sie eine bessere Methode benötigen, können Sie sie langfristig analysieren und das Modell mithilfe einiger differenzieller Methoden sogar noch weiter analysieren.

Der Nachteil besteht jedoch darin, dass die Fähigkeiten großer Modelle weitaus geringer sind als die des Gehirns, insbesondere großer Sprachmodelle, da es die Welt nur aus der Sprache lernt und daher unvollständig ist, genau wie bei Menschen andere Sinne außer der Sprache.

Im Gegensatz dazu kann das Gehirn mehrdimensionale Signale verarbeiten und die Sinne sind sehr umfangreich. Manchmal denken wir über eine Frage nach: Ist die Sprache vollständig? Können alle Konzepte in der Sprache unabhängig voneinander existieren, wenn es keine Unterstützung durch andere Sinne gibt, oder benötigen sie die Unterstützung anderer Sinne, um wahres Verständnis zu erreichen?

Wenn sich das Objekt „Kühlschrank“ beispielsweise nicht auf die Wärme- und Kälteempfindungen in der realen Welt bezieht, sondern nur statistische Merkmale wie das Vorhandensein einer Tür beschreibt, ist diese Beschreibung unvollständig.

„Silicon Valley 101“:Tatsächlich fehlt dem aktuellen Großmodell also im Vergleich zum Gehirn noch einiges. Aber weil wir es auseinandernehmen und untersuchen können, denken Sie, dass es immer noch ein wenig über den Ehrgeiz hinausgeht, die Geheimnisse des Gehirns zu entschlüsseln.

Chen Yubei:Die Schwierigkeit, ein großes Sprachmodell zu verstehen, besteht darin, dass es viele Möglichkeiten gibt, es zu beobachten und es besser zu verstehen. Wenn es beispielsweise zwei Maschinen gibt, eine Maschine vollständig beobachtbar und die andere teilweise beobachtbar, dann ist die Maschine, die vollständig beobachtbar ist, intuitiv leichter zu verstehen. Natürlich verfügt sie über einige Fähigkeiten, über die diese Maschine nicht verfügt, sodass sie ein gewisses Verständnis des menschlichen Gehirns nicht ersetzen kann.

„Silicon Valley 101“:Lassen Sie mich dem Publikum auch vorstellen, dass Yubei zuvor Neurowissenschaften studiert hat. Glauben Sie, dass Ihr fachlicher Hintergrund Ihnen bei Ihrer aktuellen Forschung im Bereich KI helfen wird? Gibt es interdisziplinäre Forschungsmethoden, die man voneinander lernen kann?

Chen Yubei:Eigentlich bin ich kein Hauptfach in Computational Neuroscience. Mein Grundstudium absolvierte ich an der Fakultät für Elektronik der Tsinghua-Universität und der Fakultät für Elektrotechnik und Informatik in Berkeley. Das Forschungsinstitut, an dem ich damals arbeitete, war jedoch ein neurowissenschaftliches Forschungsinstitut, sodass mein Mentor ein Experte für Computerwissenschaften war Neurowissenschaften.

Was die Frage gerade betrifft, denke ich, dass das Studium der Neurowissenschaften für mich normalerweise eine Inspiration ist. Denn wenn Sie diese Systeme in der Natur kennen und wissen, was sie leisten können, haben Sie möglicherweise andere Ideen und betrachten das vorliegende Problem noch einmal.

Ein Bild ist beispielsweise ein zweidimensionales Eingangssignal, dessen Pixel horizontal und vertikal sind und dann ein Raster bilden. Aber die menschliche Netzhaut sieht nicht so aus. Erstens handelt es sich um einen Rezeptortyp mit unterschiedlichen Wahrnehmungen. Dieser Rezeptor ist sehr dicht, aber nicht sehr regelmäßig angeordnet. Er ist in der Mitte sehr dicht und wird zu beiden Seiten hin dünner.
Wenn Sie mit einem solchen Eingangssignal konfrontiert werden, versagen zunächst einmal die Faltungs-Neuronalen Netze, an die wir gewöhnt sind, da hier nicht einmal die Faltung definiert ist. Wenn wir also diese Situation in biologischen Systemen sehen, werden wir noch einmal darüber nachdenken, woher diese sogenannten Windungen kommen.

„Silicon Valley 101“:Sie werden die Methode also noch einmal überdenken, ist sie richtig? Muss es so umgesetzt werden?

Chen Yubei:Ja. Angenommen, Sie wachen eines Tages auf und alle Ihre Neuronen sind gestört. Können Sie die Welt noch verstehen? Denn was Sie sehen, ist kein Bild mehr und Sie können dafür kein Faltungs-Neuronales Netzwerk mehr verwenden. Welche Art von Methode benötigen Sie?

Obwohl wir dieses Problem nicht vollständig gelöst haben, sind wir tatsächlich einen Schritt vorwärts gekommen. Obwohl alle meine Neuronen gestört sind, also die Pixel in unserem Rezeptorbild gestört sind, besteht eine gewisse Beziehung zwischen den benachbarten Pixeln. Wenn wir beispielsweise ein Bild betrachten, werden wir feststellen, dass, wenn ein Pixel rot ist, die umgebenden Pixel eher rot sind. Durch diese Beziehung können Sie diese Pixel dann wieder Freunde finden lassen und dann ähnliche hinzufügen Pixel organisieren sich selbst zu bestimmten Beziehungen.

Zu diesem Zeitpunkt können wir dieses Bild durch Hinzufügen einer Struktur wie Transformer im großen Sprachmodell neu darstellen, und die Leistung dieser Darstellung ist ziemlich gut. Dies ist ein Beispiel dafür, wie wir einige unserer aktuellen, von der Natur inspirierten Ingenieurspraktiken noch einmal überprüfen und dann einige andere Methoden vorschlagen.

Black-Box-Modell, AIGC-Bild über Firefly

„Silicon Valley 101“:Es gibt immer noch viele Ähnlichkeiten zwischen der Forschung an großen KI-Modellen und der Neurowissenschaft des menschlichen Gehirns. Wird es Neurowissenschaftler geben, die aus ihrer Sicht bereichsübergreifend mit Ihnen zusammenarbeiten?

Chen Yubei:Tatsächlich gibt es viele Neurowissenschaftler, Statistiker und Mathematiker, die einige Strukturen natürlicher Signale verstehen und auch darauf achten möchten, wie Neuronen im Gehirn funktionieren, und dann beides kombinieren, um zu versuchen, einige minimalistische Darstellungen von Signalen vorzuschlagen.

Im Gehirn gibt es beispielsweise ein Phänomen: Obwohl es viele Neuronen gibt, sind die gleichzeitig arbeitenden Neuronen tatsächlich sehr spärlich. Wenn beispielsweise 1 Million Neuronen vorhanden sind, funktionieren möglicherweise nur einige Tausend.

Auf dieser Grundlage wurde in den frühen Jahren auf dem Gebiet der Neurowissenschaften eine spärliche Codierungsmethode vorgeschlagen. Das heißt, können in diesem Signal auf hoher Ebene einige spärliche niedrigdimensionale Darstellungen gefunden werden? Der auf dieser Idee basierende Algorithmus ist der Darstellung von Neuronen, die Sie im Gehirn beobachten, sehr ähnlich, sodass dies ein unbeaufsichtigter Erfolg in der frühen Computational Neuroscience ist.

Heutzutage trägt unser gesamtes Forschungsgebiet den Namen „Natürliche Signalstatistik“. Sein Ziel ist es, einige grundlegende Strukturen hinter Signalen aufzudecken. Im Vergleich zu großen Modellen ist die Entwicklung einer neurowissenschaftlichen Forschung jedoch nicht so einfach wie Modelle ist tatsächlich relativ langsam. Ich denke tatsächlich, dass es einerseits vielleicht daran liegt, dass das Problem kompliziert ist, andererseits aber auch daran, dass relativ wenige Menschen in diese Richtung investieren.

02 „Aktuelles Überholen“ des Black-Box-Modells

„Silicon Valley 101“:Um es einfach auszudrücken: Es gibt derzeit zu wenige Leute, die sich mit White-Box-Modellen beschäftigen. Aber fällt vor dem Aufkommen großer Modelle auch traditionelles maschinelles Lernen in die Kategorie der White-Box-Modellforschung?

Chen Yubei:Ich denke, diese Aussage kann als richtig angesehen werden. Diese früheren Modelle des maschinellen Lernens sind relativ einfach und relativ verständlich.

„Silicon Valley 101“:Warum kann der aktuelle Forschungsfortschritt des gesamten Black-Box-Modells das White-Box-Modell in Kurven so viel schneller überholen?

Chen Yubei:Wenn diese Frage gestellt wird, werden wir einen Moment nervös sein, bevor wir antworten.

„Silicon Valley 101“:Warum nervös sein?

Chen Yubei:Da diese Frage sehr scharf ist, geht es eigentlich darum, ob es sich um ein White-Box-Modell oder einen verständlichen Weg handelt, den wir aufgeben sollten. Werden wir ab unserer Zeit keine Wissenschaft mehr im Bereich der KI studieren und wird in Zukunft alles zu einem empirischen Thema? Aber das glaube ich noch nicht.
Um auf Ihre Frage zurückzukommen: Was genau ist in diesem Prozess passiert? Der erste Punkt ist, dass das Black-Box-Modell weniger Gepäck hat. Wenn Sie möchten, dass diese Methode funktioniert und diese Methode erklärbar ist, gibt es zu viele Anforderungen. Dann gibt das Black-Box-Modell eine Sache auf, um sie zuerst funktionieren zu lassen.

Der zweite Grund wird von allen relativ ignoriert, nämlich das Wachstum der Daten gegen den Trend oder die Ausweitung des Umfangs.

Richard Sutton hat zuvor einen Blog geschrieben und erwähnt, dass etwas in den letzten 20 Jahren nicht gebrochen wurde, nämlich dass wir Algorithmen finden sollten, die dieses Muster insgesamt erweitern können, wenn wir mehr Daten und mehr Berechnungen haben die Daten. Ich denke, dass dies ein sehr wichtiger Aspekt des Black-Box-Modells oder unseres aktuellen empirischen Fortschritts ist.

Das heißt, wenn wir über größere Datenmengen, bessere Daten, mehr Berechnungen und größere Modelle verfügen, können wir mehr lernen. Wenn wir jedoch auf dieses Problem zurückkommen, verfolgt jeder das White-Box-Modell, nämlich dass das Modell selbst einfach sein muss.

Ein Vergleich zwischen Black Box ML und White Box ML

„Silicon Valley 101“:Warum sollten White-Box-Modelle einfach sein? Bedeutet das, dass es schwierig zu entwerfen ist, wenn es zu komplex ist?
Chen Yubei:Ja. Tatsächlich können in der Theorie nur prägnante Dinge verstanden werden, und sie müssen immer wieder vereinfacht werden. Wenn Menschen jedoch die Einfachheit des Modells anstreben, kann es auch immer wieder zu einer übermäßigen Vereinfachung kommen. Sobald diese übermäßige Vereinfachung auftritt, kann das Modell die Form der Daten nicht vollständig beschreiben. Wenn dann mehr Daten vorhanden sind, kann das Modell nicht weitergeführt werden und seine Fähigkeiten werden eingeschränkt.

Daher denke ich, dass dies auch eine Schwierigkeit ist, mit der jeder in der Vergangenheit beim Studium von White-Box-Modellen und einfachen Modellen konfrontiert war. Wir müssen nicht nur das Modell mit der Arbeit tragen, sondern auch sein interpretierbares Gepäck, und ich muss auch, dass es einfach ist. Wenn Sie all diese Dinge mitbringen, werden Sie feststellen, dass dieses Gepäck zu schwer ist. Wenn Sie zu stark vereinfachen, führen Sie zu Fehlern, die sich anhäufen und Sie später nicht weiterkommen.
„Silicon Valley 101“:Aber jetzt, mit der rasanten Entwicklung von Black-Box-Modellen, versuchen wir erneut, das Problem zu lösen.
Chen Yubei:Ja. Und dieses Mal, wenn wir es lösen, werden wir dieses Problem möglicherweise noch einmal aufgreifen. Das heißt, wir müssen das Modell nicht unbedingt vollständig auf diese Ebene vereinfachen, es kann dennoch die komplexere Seite der Welt darstellen.

Aber gleichzeitig hoffen wir immer noch, dass es relativ verständlich ist. Wenn wir also eines Tages ein White-Box-Modell erreichen können, dann halte ich jeden Versuch davor für eine übermäßige Vereinfachung, aber wir hoffen, dass jede Vereinfachung voranschreiten kann. Wir müssen nicht einmal ein komplett White-Box-Modell erstellen. Vielleicht können wir ein White-Box-Modell erstellen, das nicht so leistungsstark ist wie das große Modell, aber es ist relativ einfach.
Es ist hilfreich für uns, die Essenz des Lernens zu verstehen, und dieses Verständnis kann es uns wiederum ermöglichen, die Effizienz des Trainings großer Modelle zu verbessern. Ich habe bereits mehrere Male mit Yann über Effizienzthemen gesprochen, was bedeutet, dass wir, wenn die Theorie dahinter entwickelt wird, möglicherweise in der Lage sein werden, die Effizienz der Ingenieurspraxis um Größenordnungen zu steigern.
„Silicon Valley 101“:Yanns Standpunkt ist, dass er lieber ein White-Box-Modell oder ein Black-Box-Modell entwickelt?
Chen Yubei:Yann ist ein Wissenschaftler, der für seine technischen Fähigkeiten bekannt ist, daher geht es bei vielen seiner Versuche immer noch darum, dieses Ding zuerst zum Laufen zu bringen. Aber Yann unterstützt auch die White-Box-Modellforschung. Während meiner Diskussion mit ihm war er der Meinung, dass dieser Weg es wert sei, erkundet zu werden, aber er wusste nicht, ob er für ein zu ehrgeiziges Ziel erreichbar sein würde, aber jemand musste es tun.
„Silicon Valley 101“:Es scheint, dass das Black-Box-Modell ein technisches Problem ist, während das White-Box-Modell es wissenschaftlich erklären muss. Obwohl das Input-Output-Verhältnis aus Sicht der Kommerzialisierung nicht so hoch ist, wird dieses Ding, wenn es irgendwann gebaut werden kann, dennoch von großem Wert für die Sicherheit der KI und ihrer zukünftigen kommerziellen Anwendungen sein.
Chen Yubei:Was die Kommerzialisierung angeht, denke ich tatsächlich, dass die ursprüngliche Absicht aller, die KI-Grundlagenforschung betreiben, nicht darin besteht, irgendeine Anwendung zu haben, sondern dass sie von einer relativ reinen Neugier auf das Thema Intelligenz angetrieben werden. Dann könnten einige Muster entdeckt werden , was wiederum in der Ingenieurpraxis hilfreich sein kann. Die Forschung selbst ist nicht auf eine bestimmte Anwendung ausgelegt.

Wenn wir diese Art von White-Box-Modell und diese Art von ultimativer Effizienz verfolgen, werden wir außerdem auch die Frage stellen, ob das große Sprachmodell, das wir jetzt aufbauen, nur durch diese Art von Maßstab oder erreicht werden kann Scaling Law. Ist es in Ordnung, einfach runterzugehen? Das glaube ich nicht. Da Menschen eine so große Datenmenge nicht akzeptieren können, ist es auch ein wichtiges Thema, das wir untersuchen, wie man mit einer kleinen Datenmenge eine relativ hohe Generalisierungsfähigkeit erreichen kann.

„Silicon Valley 101“:Dies sollte auch ein Problem sein, das von Black-Box-Modellforschern untersucht wird. Welche Wissenschaftler und Schulen beschäftigen sich derzeit mit dem White-Box-Modell?

Chen Yubei:Derzeit gibt es hauptsächlich drei Kräfte der KI. Die erste Kraft ist ein Teil der Erfahrungen, die wir im Prozess der Untersuchung dieser technischen Modelle und deren anschließender Visualisierung gesammelt haben, wie etwa das, woran Anthropic und OpenAI kürzlich teilgenommen haben.

Anthropische Forschung: Extrahieren interpretierbarer Merkmale aus dem neuronalen Netzwerk Claude 3 Sonett

Die zweite ist die Computational Neuroscience, die versucht, das menschliche Gehirn zu verstehen und Wege zu finden, auf denen bestimmte Erinnerungen existieren können.

Eine andere Denkrichtung besteht darin, die Grundstruktur des Signals aus einer mathematisch-statistischen Perspektive zu betrachten. Natürlich wird es zwischen diesen drei Typen viele Überschneidungen geben.
„Silicon Valley 101“:Zu welchem Genre gehörst du?
Chen Yubei:Tatsächlich werde ich mehr oder weniger von allen drei Gruppen beeinflusst. Als ich in Berkeley war, gehörte mein Mentor und Lehrer Ma Yi alle der Fakultät für Neurowissenschaften und mathematische Statistik an, und Yann war besser in Ingenieurwissenschaften ausgebildet. Ich halte diese drei Methoden auch für akzeptabel, weil sie letztlich dazu führen werden, dass wir uns in die gleiche Richtung bewegen.
„Silicon Valley 101“:Welche Richtung ist gleich? Gibt es jetzt schrittweise Ergebnisse?
Chen Yubei:Der letzte Schritt besteht darin, das Modell zu verstehen. Es gab bereits einige phasenweise Ergebnisse, beispielsweise ob wir einige Netzwerke sogar mit zwei oder drei Schichten erstellen können, und wir können sehen, was sie auf jeder Schicht lernen. Schließlich habe ich festgestellt, dass Sie, wenn Sie eine Zahl darstellen möchten, alle ihre Striche lernen und dann ähnliche Striche miteinander verbinden und dann Schicht für Schicht die nächste Darstellungsebene konstruieren und schließlich die Zahl finden können.
„Silicon Valley 101“:Wird Ihre aktuelle Forschung zu einer Optimierung des Black-Box-Modells führen?

Chen Yubei:Erstens können Sie mit zunehmendem Verständnis das Black-Box-Modell möglicherweise optimieren und effizienter gestalten. Die zweite besteht darin, verschiedene Black-Box-Modelle zu vereinheitlichen und so viel unnötigen Abfall zu reduzieren. Gleichzeitig gibt es in meinem Labor eine weitere Säule der Arbeit, die nicht nur die Wahrnehmung, sondern auch die Kontrolle untersucht.

Wenn Sie diesen großen Sprachmodellen die Fähigkeit geben, mit der Welt zu interagieren, können Sie dann die gleiche Generalisierungsfähigkeit im Steuerungssystem erreichen? Was bedeutet es? Das heißt, im Wahrnehmungssystem werden Sie feststellen, dass ich Äpfel, Birnen und dann einen Pfirsich gelernt habe. Da ich zuvor ein ähnliches Konzept von Äpfeln und Birnen gelernt habe, kann ich das Konzept von Pfirsichen schnell erlernen.

Kann also im Bereich der Steuerung eine ähnliche Leistung erzielt werden? Wenn ein Roboter beispielsweise lernt, vorwärts zu gehen und auf der Stelle zu springen, kann er dann schnell in einen Roboter verwandelt werden, der vorwärts springt und gleichzeitig geht?

„Silicon Valley 101“: Wenn Sie gebeten würden, eine Schlussfolgerung zu ziehen, denken Sie, dass Sie mithilfe der White-Box-Modellforschung das Geheimnis des Betriebs großer Modelle lüften können? Wo ist der aktuelle Fortschrittsbalken?
Chen Yubei:Tatsächlich weiß keiner von uns, wie lang dieser Fortschrittsbalken ist. Ich habe das Gefühl, dass er tatsächlich weit von diesem Ziel entfernt ist. Es handelt sich nicht unbedingt um eine lineare Entwicklung, sondern möglicherweise eher um einen Quantensprung. Wenn ein neues Verständnis entsteht, können Sie sofort einen großen Schritt vorwärts machen.

Wenn Sie ein White-Box-ChatGPT erstellen möchten, ist dies meiner Meinung nach noch ziemlich weit entfernt, aber wir können möglicherweise ein ziemlich gutes, vollständig verständliches Modell erstellen, das die damaligen Fähigkeiten von AlexNet reproduzieren kann. Dieses Modell kann die Imagenet-Erkennung durchführen, wie es sich Schritt für Schritt in eine Katze und einen Hund verwandelt und welche Struktur diese Katze und dieser Hund dann erzeugen.

Beispiel für WordNet, das von ImageNet verwendet wird

„Silicon Valley 101“:Ist die ImageNet-Erkennung eine White Box oder eine Black Box?

Chen Yubei:Wir haben noch nicht ganz herausgefunden, wie es funktioniert. Einige der frühen Visualisierungen von Matthew Zeiler und Rob Fergus sowie vielen Forschern brachten ein gewisses Verständnis hervor, aber niemand war in der Lage, ein Modell zu erstellen, mit dem wir jeden Schritt verstehen und trotzdem gut arbeiten konnten.
„Silicon Valley 101“:Vielleicht besteht das Ziel des White-Box-Modells darin, inszeniert zu werden. Der erste Schritt besteht beispielsweise darin, zu erklären, wie ImageNet funktioniert. Nachdem das Rätsel gelöst ist, können wir erklären, wie einige kleine Modelle funktionieren, genau wie GPT 2, um zu erklären, wie die größeren Modelle funktionieren Modell funktioniert.
Chen Yubei:Ja. Ich denke, dieser Prozess dauert noch ziemlich lange und es werden mehr Menschen benötigt, die in diese Richtung investieren. Denn die meisten Jobs sind derzeit im Ingenieurbereich angesiedelt. Wenn wir es in Schulen umsetzen, dann muss man tatsächlich ein paar originelle Ideen haben, anstatt zu sagen, man geht maßstabsgetreu, und ich werde maßstabsgetreu vorgehen, dann ist jeder maßstabsgetreu, und am Ende gibt es keinen Unterschied, alles hängt davon ab Wer Welche Maschine ist die beste und wer hat die meisten Daten?

03 Was ich über Yann LeCun weiß

„Silicon Valley 101“:Als nächstes möchte ich mit Ihnen Ihren Postdoktorandenberater Yann LeCun besprechen. Lassen Sie mich zunächst Yann LeCun vorstellen. Er ist ein französischer Informatiker. Er hat viele Beiträge in den Bereichen maschinelles Lernen, Computer Vision, mobile Roboter und Computational Neuroscience geleistet ". "Vater des Internets".

LeCun ist derzeit leitender KI-Wissenschaftler bei Meta und Professor an der New York University. In den 1980er Jahren leistete er Pionierarbeit bei Convolutional Neural Networks (CNN), einer Technologie, die zur Grundlage des modernen Computer Vision wurde. LeCun erhielt zusammen mit Geoffrey Hinton und Yoshua Bengio den Turing Award 2018 für ihre Pionierarbeit im Bereich Deep Learning.
Können Sie unseren nicht-technischen Freunden Yanns wichtigste wissenschaftliche Forschungsergebnisse erklären und erklären, warum er so berühmt ist?

Chen Yubei:Yann beschäftigt sich seit den 1980er Jahren mit der neuronalen Netzwerk-KI und hat viele Höhen und Tiefen und den Niedergang verschiedener Denkschulen erlebt. Er hat jedoch immer auf Deep-Learning-Netzwerken bestanden und ist ein Mensch, der durch die Dunkelheit gegangen ist.

Beispielsweise war es im Jahr 2000 sehr schwierig, Artikel zum Thema Deep Learning zu veröffentlichen. Wie schwierig war das? Wenn in Ihrem Artikel das Wort „Neural“ oder „Netzwerk“ vorkommt, ist die Wahrscheinlichkeit einer Ablehnung sehr hoch. Wenn „Neural Network“ vorkommt, wird es grundsätzlich abgelehnt.

Für sie war es damals also ein düsterer Moment, auch die Finanzierung war betroffen. Aber sie konnten in dieser Dunkelheit durchhalten und niemals aufgeben und sind schließlich aus dieser Dunkelheit herausgekommen. Ich denke, dass dies tatsächlich ihr Gewinn des Turing Award ist, eine Erinnerung an ihre frühen Pionierleistungen Tage.

Yann LeCun

„Silicon Valley 101“:Warum haben Sie sich als Postdoktorand für seine Gruppe entschieden?
Chen Yubei:Das ist ein ziemlich interessantes Abenteuer. Eigentlich war ich damals ziemlich verwirrt und habe überhaupt nicht daran gedacht, das Semester abzuschließen. Weil ich während meiner Doktorarbeit fest entschlossen bin, ein White-Box-Modell zu erstellen, und die Leistung sollte mit AlexNet vergleichbar sein, aber es ist noch nicht fertig.

Ich denke, wenn ich meine Forschung fortsetzen möchte, an wen soll ich mich als Postdoc wenden? Ich war damals in einer Besprechung und traf dann Yann am Veranstaltungsort. Ich bin eigentlich kein besonders spekulativer Mensch. Ich glaube, jeder möchte Yann als Postdoc finden. Als ich ihn traf, wollte ich hauptsächlich über seine Ansichten zu meiner Arbeit und über die Zukunft der KI sprechen .

Infolgedessen war das Gespräch bei dem Treffen sehr gut. Er hatte auch über meine Forschungsrichtung und einige der Themen nachgedacht, über die ich nachdachte, allerdings aus der Perspektive neuronaler Netze. Also fragte er mich damals, ob ich Interesse hätte, mich für eine Postdoktorandenstelle zu bewerben. Natürlich habe ich mich beworben, also haben wir uns sofort verstanden.

„Silicon Valley 101“:Was für ein Mentor ist er? Es gibt den Schülern viel Freiraum zum Erkunden und hilft sehr, mit allen zu diskutieren.
Chen Yubei:Erste，Die zweite Situation ist für ihn nicht mehr möglich. Viele Menschen brauchen seine Zeit, und die Zeit, die er jedem widmen kann, ist relativ gering.

Eigentlich ähnelt er meinem Doktorvater, er ist in einigen allgemeinen Richtungen sehr freigeistig, aber ich denke, eine weitere Ähnlichkeit zwischen ihnen besteht darin, dass sie auf dem beharren, woran sie glauben, das heißt, er kann Ihnen eine Richtung und ein Ziel vorgeben. Aber egal, wie Sie reisen, ob mit dem Boot oder dem Auto, er wird diese Details nicht kontrollieren.
Tatsächlich hat sich seine allgemeine Ausrichtung im Laufe der Jahre nicht geändert. Es war immer selbstüberwachtes Lernen. Selbstüberwachtes Lernen gliedert sich eigentlich in zwei Teile: Die Selbstüberwachung basiert auf der Wahrnehmung. Ein weiterer, wichtigerer Teil ist, wie man Selbstüberwachung auf verkörperte Weise durchführt, oder wie man jetzt ein Weltmodell durchführt, was eine Richtung ist, an die er glaubt.

Eigentlich habe ich ihm diesen Namen gegeben, weil ich einen Artikel mit dem Titel „World Model“ von David Ha und Jürgen Schmidhuber gelesen habe und den Namen ziemlich cool fand.

Eine Systemarchitektur für autonome Intelligenz, Mata AI

„Silicon Valley 101“:Glauben Sie, dass sich Yanns Forschungsrichtung von der von OpenAI und Anthropic unterscheidet?
Chen Yubei:Wenn ich wirklich etwas anderes sagen möchte, möchte Yann meiner Meinung nach, dass das Modell mehrere Eigenschaften haben muss. Die erste besteht darin, die Fähigkeit zur Verkörperung zu haben, was bedeutet, dass es sich nicht nur um einen Datenhaufen handelt, sondern dass das Modell schließlich die Welt selbstständig erkunden kann.
„Silicon Valley 101“:Was ist der Unterschied? Es scheint, dass jeder hofft, endlich ein solches Ergebnis zu erzielen.
Chen Yubei:Die Ausführung ist unterschiedlich. OpenAI zum Beispiel ist meiner Meinung nach ein Skalierungsgesetz, das mehr und bessere Daten, dann mehr Berechnungen und größere Modelle bedeutet. Aber Yann ist noch wissenschaftlicher. Was genau ist seiner Meinung nach nötig, wenn wir wirklich zu mehr menschenähnlicher Intelligenz führen wollen? Er wird das Gefühl haben, dass die bloße Anhäufung von Daten nicht ausreicht.
„Silicon Valley 101“:Yann ist also tatsächlich gleichbedeutend mit Black-Box- und White-Box-Forschung zusammen.

Chen Yubei:Ich denke, dass es Yann eigentlich egal ist, ob dies zu einer Wissenschaft entwickelt werden kann. Ich denke, dass seine Ansichten hauptsächlich empirischer und technischer Natur sind. Er hofft, dass dieses System tatsächlich besser funktionieren kann sehr gut darin.

„Silicon Valley 101“:Glauben Sie, dass Yann seine wissenschaftlichen Forschungsmethoden und sein Denken geändert hat, als OpenAI bewiesen hat, dass Scaling Law gute Ergebnisse erzielen kann? Oder bleibt er immer noch seiner ursprünglichen Linie treu?

Chen Yubei:Tatsächlich ist er nicht gegen das Skalierungsgesetz. Ich glaube nicht, dass jeder in dieser Angelegenheit einen Konflikt hat. Der wirklich mögliche Unterschied besteht darin, dass ein Großteil der Arbeit von OpenAI tatsächlich produktorientiert ist und bis zum Äußersten im Ingenieurwesen umgesetzt wird, Yann jedoch Forschung in einer eher wissenschaftlichen Form betreibt.

Wenn er über diese Themen nachdenkt, hat er eigentlich nicht viel mit Produkten zu tun. Er denkt nur an eines: wie man Intelligenz erlangt. Da er schon zu lange in diesem Bereich tätig ist und sich seit mehr als acht Jahren intensiv mit diesem Bereich beschäftigt, bleibt er bei der Betrachtung dieser Themen möglicherweise immer noch bei seinen Idealen.

„Silicon Valley 101“:Das autonome Lernen der Intelligenz ist das erste Merkmal von Yanns Forschung. Welche weiteren Merkmale gibt es?

Chen Yubei:Es gibt auch etwas, an das Yann schon immer geglaubt hat: JEPA, Joint Embedding Predictive Architecture. Das heißt, natürlich muss das Modell in der Lage sein, unabhängig zu lernen, aber noch wichtiger ist, dass das Modell beim Lernen von Daten auch einige übergeordnete Regeln lernen kann.

Tatsächlich gibt es derzeit zwei Gruppen, die darauf hoffen, die Daten durch Lernen vollständig zu rekonstruieren, was jedoch als Komprimierungsidee angesehen werden kann, da die Rekonstruktion dieses Bildes zu viele Details enthält Details sind nicht die wichtigsten Informationen bei der Beurteilung des Systems.

„Silicon Valley 101“:Unterscheidet sich dieser Punkt von Ihrem Mentor Ma Yi in Berkeley?

Chen Yubei:Tatsächlich gibt es in dieser Hinsicht keinen wesentlichen Konflikt zwischen ihnen, aber die Art und Weise, ihn auszudrücken, ist unterschiedlich. Lehrer Ma ist der Meinung, dass die Gesetze dieser Welt einfach sind. Yann glaubt, dass diese Details tatsächlich schädlich für nachgelagerte Aufgaben oder einige Urteile sind, daher ist es notwendig, diese hochrangigen Gesetze zu finden.

Tatsächlich sind die beiden gleich, da Regeln auf hoher Ebene im Allgemeinen einfach sind. Lehrer Ma sagt oft, dass alles Komprimierung ist. Wenn Sie es aus Yanns Sicht betrachten, werden Sie feststellen, dass die Komprimierung zwar richtig ist, aber die hierarchische Struktur der Daten tatsächlich anders ist.

Da die reale Welt komplex ist, werden Sie, wenn Sie sich mit den Details der realen Welt befassen, feststellen, dass es sich bei vielen Dingen tatsächlich um Strukturen auf niedriger Ebene handelt. Es gibt Struktur in Daten, und alles, was Struktur hat, ist ein Spiegelbild der Abweichung vom Rauschen. Das heißt, alles ohne Struktur ist Rauschen, und alles, was Rauschen hinterlässt, bedeutet, dass es Struktur gibt.

Wir werden diese Strukturen lernen, aber es gibt verschiedene Strukturebenen. Aber wenn Sie eine Ebene höher gehen, in einen größeren Maßstab, werden Sie feststellen, dass Struktur eigentlich nicht mehr wichtig ist. Wenn Sie es auf dieser Ebene betrachten, sind diese Dinge wie Lärm geworden.

Yanns Standpunkt ist also, dass die Komprimierung richtig ist, aber wir müssen ein solches hierarchisches Lernen haben, alle Strukturen im Signal lernen und immer höhere Strukturen lernen. Die fortschrittlichste Struktur macht jedoch häufig keinen großen Teil der gesamten Komprimierung aus und kann während des Optimierungsprozesses verloren gehen, da sich viele Dinge auf einem niedrigen Niveau befinden und die Informationsmenge wie Rauschen am größten ist. je höher man geht, desto schwerer sind solche Strukturen zu erkennen.

Warum? Da Ihre optimierte Verlustfunktion Ihre Zielfunktion ist, kann es kaum Auswirkungen auf Ihren Verlust haben, ob Sie diese Regel finden oder nicht. Ich denke, die wichtigsten sind diese beiden Punkte, einer ist das Weltmodell und der andere ist diese hierarchische Darstellung.

Yann LeCun spricht an der NYU

„Silicon Valley 101“:Welche Eigenschaften beeindrucken Sie Ihrer Meinung nach besonders?

Chen Yubei:Was mich besonders beeindruckt hat, war wahrscheinlich die Konzentration und Reinheit, mit der sie die Dinge erledigten.

Einmal habe ich mit Yann zu Mittag gegessen und er sagte, dass ich alles habe, was du wolltest, als du jung warst, aber ich habe nicht mehr viel Zeit, also kann er die verbleibende Zeit nur nutzen, um Dinge zu tun, an die er wirklich glaubt. .

Wenn Sie mit solchen Wissenschaftlern zusammenarbeiten, werden Sie möglicherweise von ihrem Temperament beeinflusst, sodass Sie die Welt ein wenig aus ihrer Perspektive sehen können, noch bevor Sie die Position erreichen, in der sie sich gerade befinden, und die Dinge, die sie haben.

Wenn Sie also Entscheidungen treffen oder Dinge tun, gehen Sie möglicherweise über Ihre aktuelle Position hinaus und denken darüber nach, was ich tun werde, wenn ich eines Tages alles wie er habe.

„Silicon Valley 101“:Hat er eine Ihrer Entscheidungen geändert?

Chen Yubei:Ja, es wird mich dazu bringen, darüber nachzudenken, wenn ich viele Entscheidungen treffe. Ich erinnere mich, dass mir mein Betreuer am ersten Tag meines Doktoratsstudiums zwei Dinge erzählte.

Eine Sache ist, dass er nicht darauf angewiesen ist, dass ich viele Artikel veröffentliche, aber ich hoffe, dass die Art von Artikeln, die ich veröffentlichen kann, durch die Zeit reisen kann, sodass dieser Artikel auch dann noch frisch ist, wenn ich ihn 20 Jahre später lese . Das ist tatsächlich sehr schwierig, weil viele Arbeiten ein ausgeprägtes Gespür für die Zeit haben, aber einige wirklich tiefgründige Gedanken können noch Hunderte von Jahren anhalten. Dies ist ein sehr hohes Ziel, und Sie können es möglicherweise erreichen, wenn Sie dabei sind in den Ruhestand gehen. Aber es stellt eine seelische Qual dar, nämlich ob man beharrlich eine Arbeit erledigen kann, die mit der Zeit koexistieren kann.

Zweitens hofft er, dass ein Gelehrter eine eigene Einstellung haben sollte. Wenn Sie denken, dass etwas von a, b oder Ihnen getan werden kann, sollten Sie es nicht tun. Das heißt, wenn Sie dies tun, werden Sie feststellen, dass nicht dieser Job Sie braucht, sondern dass Sie diesen Job brauchen. Das ist eine spekulative Mentalität. Das ist tatsächlich das ähnliche Temperament, das ich bei ihnen sehe, das heißt, sie hoffen, nicht der Masse zu folgen, sondern ihre eigene Einstellung zu haben und eine eigene Stimme zu finden.

Wenn ich mich also für eine Forschungsrichtung entscheide, überlege ich von Zeit zu Zeit, ob die Arbeit, die ich mache, spekulativ oder eine echte Hauptstütze ist.

Ich denke, das Tolle an ihnen, insbesondere an Yann, ist, dass man diese fast verzweifelte Zeit durchstehen und den Morgen einläuten kann. Menschen, die noch nie Tiefs erlebt haben, sind möglicherweise nicht in der Lage, sich ausreichend zu beruhigen. Wenn Sie den dunkelsten Moment durchleben, nutzen Sie Ihre Vision und Beharrlichkeit, um diese kurze Zeitspanne zu überstehen, und beweisen Sie dann, dass es richtig ist sehr interessantes Temperament.

„Silicon Valley 101“:Gibt es irgendwelche wissenschaftlichen Ansichten über Yann, mit denen Sie nicht einverstanden sind?

Chen Yubei:Manchmal war er unverblümt. Beispielsweise sagte er kürzlich, dass man als Forscher keine großen Sprachmodelle studieren sollte. Für diesen Satz gibt es viele Interpretationen, wenn man ihn wörtlich nimmt, werden viele Leute anderer Meinung sein, auch ich. Ich habe vielleicht das Gefühl, dass es in großen Sprachmodellen einige Strukturen gibt, die es wert sind, verstanden und studiert zu werden.

Was Yann natürlich wirklich sagen möchte, ist das, was ich gerade erwähnt habe: Machen Sie keine spekulativen Arbeiten wie A und B. Ich hoffe, dass die Forscher etwas Beharrlichkeit haben und originellere Beiträge finden. Wenn es so gesagt würde, würde ich meiner Meinung nach eher zustimmen. Aber als großes V werden Sie manchmal seine Worte schockieren und viele Diskussionen auslösen. Es ist ein Ort, den ich sehr interessant finde.

„Silicon Valley 101“:Sie haben auch bei Meta gearbeitet. Was ist Ihrer Meinung nach Yanns größter Beitrag zu Meta?

Chen Yubei:Das Erste sollte sein, beim Aufbau von Meta AI zu helfen. Als er plante, Meta AI zu bauen, fand Mark ihn außerdem, da er in seinen frühen Jahren bei Bell Labs arbeitete, und sehnte sich nach dem damaligen Zustand von Bell Labs, sodass er auch ein Ideal hatte, ein solches Labor nachzubilden in Meta. Im Einklang mit diesem Konzept rekrutierte und schulte er auch eine Gruppe sehr guter Leute im Bereich Meta-KI, leistete großartige Beiträge zu diesem Bereich und förderte die Entwicklung des gesamten Bereichs.

„Silicon Valley 101“:Ich denke, Open Source sollte als ein sehr wichtiger Beitrag von ihm angesehen werden. Der Grund, warum Meta Lama den Open-Source-Weg eingeschlagen hat, sollte sehr gut mit der Gesamtidee von Yarn übereinstimmen.

Chen Yubei:Ja, ja, Open Source ist tatsächlich das, worauf Yann besteht. Ich weiß aber nicht, ob Meta auch in Zukunft Open Source sein wird, denn schließlich wird Meta auch Konkurrenz haben, aber ich denke, das ist ein Konzept von Yann, wie gut und wie weit es sich letztendlich umsetzen lässt Es kann tatsächlich von der gesamten Umgebung abhängen.

„Silicon Valley 101“:Glauben Sie, dass die gesamte Forschung an großen Modellen jetzt von Wissenschaftlern vorangetrieben werden muss? Oder wird es langsam zu einer technikgetriebenen Sache?

Chen Yubei:Ich habe das Gefühl, dass es von der Technik vorangetrieben wurde. In den frühen Tagen war es von Wissenschaftlern geleitet. Ich denke, der größte Fortschritt ist in den letzten zwei Jahren auf die Durchführung des Projekts zurückzuführen. Ist die Qualität der Daten höher geworden? Sind die Daten gestiegen? Ist seine Verbreitung reicher geworden? Können Berechnungen parallelisiert werden? Alles verursacht durch sehr wichtige Details im technischen Bereich. Die Entwicklung von 0 auf 1 erfordert wissenschaftliche Durchbrüche, aber von 1 auf 100 sind technische Genauigkeit und Ausführungsfähigkeiten erforderlich, um sie in verschiedenen Phasen voranzutreiben.

„Silicon Valley 101“:Alle freuen sich jetzt auf GPT 5. Glauben Sie, dass es eher ein wissenschaftliches oder ein technisches Problem sein wird, wenn GPT 5 herauskommt?

Chen Yubei:Ich denke, dass es im Ingenieurwesen noch ein langer Weg ist. Wir können sogar davon ausgehen, dass das Scaling Law noch einen langen Weg vor sich hat und kein Ende in Sicht ist, auch nicht in Bezug auf die Datenqualität und den Ausbau der Rechenleistung. Aber gleichzeitig denke ich, dass selbst wenn der robusteste Weg, den wir jetzt gefunden haben, das Skalierungsgesetz ist, er definitiv nicht ausreicht.

Was brauchen wir also noch? Ich denke, was wir brauchen, ist eine hohe Effizienz wie bei Menschen. Wie kann man also eine solche Effizienz erreichen? Es kann durch Daten ausgelöst werden, aber es kann auch etwas anderes sein. Wenn wir also über den Prozess sprechen, der zu AGI führt, sollte es meiner Meinung nach einige relativ große Änderungen von 0 auf 1 geben.

„Silicon Valley 101“:Auch wenn es wissenschaftliche Fortschritte gibt, gibt es im Ingenieurwesen noch viel Raum für Verbesserungen.

Belegung

Lassen Sie uns mit dem Deep-Learning-Wissenschaftler Yann LeCun darüber sprechen, wie man über große Modelle nachdenkt

Einführung

Meine Kontaktdaten