Belegung

Ein Gespräch mit Qi Pengs Team am Chongqing AI Research Institute der Shanghai Jiao Tong University: Das aktuelle Niveau großer Modelle entspricht nur dem eines fünfjährigen Kindes |

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


(Bildquelle: unsplash)

Kürzlich löste eine Nachricht zum Thema „Das große Modell kann nicht bestimmen, ob 9.11 oder 9.9 größer ist“ eine Diskussion aus.

Als ein Benutzer 12 große KI-Modelle im In- und Ausland fragte, darunter GPT-4o, eine für Grundschüler schwierige mathematische Frage: „Was ist größer, 9,11 oder 9,9?“, stellte sich heraus, dass das Endergebnis nur Alibaba Tongyi war Qianwen und Baidu Wenxin, Minimax und Tencent Yuanbao gaben 4 richtige Antworten, während 8 große Modelle, darunter ChatGPT-4o, falsche Antworten gaben.

Dies bedeutet, dass die mathematischen Fähigkeiten großer Modelle unzureichend sind und viele Probleme gelöst werden müssen.

In einem früheren exklusiven Gespräch mit TMTpost AGI sagte Dr. Qi Peng, Direktor des AI Large Model Center des Chongqing Artificial Intelligence Research Institute der Shanghai Jiao Tong University (Shanghai-Chongqing Artificial Intelligence Research Institute), dass große Modelle zwar große Vorteile haben Potenzial und können mit komplexen Problemen umgehen und verfügen über die Fähigkeit, Generalisierungsfähigkeiten zu erlernen. Aufgrund der Einschränkungen der Modellarchitektur und des Mangels an wissenschaftlichen Fähigkeiten ähneln große Sprachmodelle jedoch möglicherweise eher „Studenten der Geisteswissenschaften“. Darüber hinaus ist die derzeit begrenzte Rechenleistung unzureichend, die Textdaten sind unzureichend, Genauigkeit und Zuverlässigkeit sind voreingenommen und der Modellmaßstab ist nicht groß genug. Sein Intelligenzniveau liegt immer noch auf dem Niveau eines Kindes, eher wie bei einem „fünfjährigen Kind“. ", und es ist schwierig, komplexe Aufgaben zu bewältigen. , die „Illusion" existiert schon lange.

Qi Peng schloss sein Bachelor-Studium an der Tsinghua-Universität ab und promovierte an der University of Wisconsin in den USA. Derzeit arbeitet er am Chongqing Artificial Intelligence Research Institute der Shanghai Jiao Tong University. Qi Peng engagiert sich seit vielen Jahren intensiv in den Bereichen Datenwissenschaft, KI und anderen Bereichen, beteiligte sich an vielen nationalen Wissenschafts- und Technologieprojekten und besitzt eine Reihe von Rechten an geistigem Eigentum.

Da ChatGPT im letzten Jahr auf der ganzen Welt populär geworden ist, hat Qi Peng das Team des AI Large Model Center der Shanghai Jiao Tong University und des Chongqing Artificial Intelligence Research Institute geleitet, um unabhängig voneinander das große Sprachmodell „Zhaoyan“ zu entwickeln. und im März dieses Jahres belegte die SuperCLUE-Bewertung für große chinesische Modelagenten weltweit den dritten und im Inland den zweiten Platz in Benchmarks.

Gleichzeitig führte Qi Peng im Juli dieses Jahres Zhuang Shaobin, einen Doktoranden an der Shanghai Jiao Tong University, und andere dazu, an einem Open-Source-Community-Projekt teilzunehmen und mithilfe der fortschrittlichen Latte erfolgreich ein Sora-ähnliches Wensheng-Videomodell zu reproduzieren Die räumlich-zeitliche Aufmerksamkeitsarchitektur konnte nach sorgfältigem Training ein 16-sekündiges (128-Frame-)Video auf dem InternVid-Videodatensatz generieren. Im Vergleich zum vorherigen Open-Source-Modell, das nur ein 3-sekündiges (24-Frame-)Video generieren kann -Frame)-Video wird die Leistung um das Fünffache (500 %) verbessert.

Am 12. Juli führten Qi Peng und Zhuang Shaobin etwa zwei Stunden lang ein exklusives Gespräch mit TMTpost, in dem sie sich auf den aktuellen Entwicklungsstatus von Sora und die Herausforderungen bei der Entwicklung großer Modelle, die Branchenimplementierung und zukünftige Entwicklungsrichtungen konzentrierten.

Apropos Auswirkungen der Sora-Technologie: Qi Peng sagte gegenüber TMTpost AGI, dass Sora eher ein neuer „Hammer“ sei, der eine Vielzahl von Problemen lösen könne. Neben der Videogenerierung kann das Videomodell von Sora Vincent auch in vielen Bereichen wie dem autonomen Fahren und der Simulation der physischen Welt eine Rolle spielen. Die intuitivste Anwendung ist die Videogenerierung. Benutzer müssen lediglich eine Textbeschreibung eingeben, um schnell Videoinhalte zu generieren, die den Anforderungen entsprechen, wodurch die Effizienz und der Komfort der Videoproduktion verbessert werden.

Wenn es um die Branchenumsetzung geht, Qi Peng wies darauf hin, dass große Modelle in mehreren vertikalen Branchen weit verbreitet sind, es jedoch relativ wenige tatsächliche Implementierungsfälle gibt. Dafür gibt es zwei Hauptgründe: Erstens mangelt es großen Modellen an mathematischen und technischen Fähigkeiten; zweitens liegt es an der Natur großer Modelle, die auf statistischen Methoden basieren, dass sie keine 100-prozentige Genauigkeit erreichen können.

Ich freue mich auf die zukünftige Entwicklung von AGI, Qi Peng betonte, dass sich die menschliche Gesellschaft in einer kritischen Phase befinde, die zu AGI führe. Obwohl die aktuellen Modellfunktionen nicht den AGI-Standards entsprechen, werden die Menschen eines Tages, wenn sie auf diesen historischen Zeitraum zurückblicken, möglicherweise feststellen, dass ChatGPT uns an einen wichtigen historischen Knotenpunkt gebracht hat.

„Ein wichtiges Ziel des Instituts ist die Kommerzialisierung von Technologie. Das Large Model Center konzentriert sich derzeit auf die Umsetzung von AIGC, insbesondere auf die Frage der „letzten Meile“, also der Frage, wie Forschungsergebnisse in tatsächliche Produkte oder Dienstleistungen umgewandelt werden können, um den Markt zufriedenzustellen.“ Nachfrage Obwohl sich die Intelligenz großer Modelle im Alter von fünf bis zehn Jahren bis zum Alter von achtzehn Jahren weiter verbessern und sogar das Niveau von Spitzenexperten erreichen kann, benötigen solche Systeme immer unterstützende Einrichtungen und Werkzeuge, um ihren Betrieb und ihre Anwendung zu unterstützen. Die Kosten für die Anlagenentwicklung mögen zwar relativ niedrig sein, aber sie spielen eine entscheidende Rolle bei der Förderung der praktischen Anwendung und des gesellschaftlichen Werts großer Modelle“, sagte Qi Peng.


Dr. Qi Peng, Direktor des AI Large Model Center des Chongqing Institute of Artificial Intelligence der Shanghai Jiao Tong University

Das Folgende ist eine Zusammenfassung des Gesprächs zwischen TMTpost Media AGI und Qi Peng und Zhuang Shaobin:TMTpost Media AGI: Was sind die Hauptunterschiede des wiederkehrenden Sora Vincent-Videomodells, das gemeinsam vom Chongqing Artificial Intelligence Research Institute der Shanghai Jiao Tong University entwickelt wurde, im Vergleich zu anderen Videomodellen?

Qi Peng: Dieses Projekt wurde von einem Team unter der Leitung von Dr. Zhuang Shaobin entwickelt. Das Team entschied sich dafür, alle Open-Source-Daten für das Modelltraining zu verwenden. Das Team öffnete nicht nur die Daten, sondern machte auch den Trainingsprozess öffentlich. Auf diese Weise können andere Forscher oder Entwickler den Modelltrainingsprozess in ihrer eigenen Umgebung basierend auf denselben Schritten und Parametereinstellungen reproduzieren und die Wirksamkeit und Stabilität des Modells überprüfen.

Die wesentlichen Unterschiede spiegeln sich vor allem in drei Aspekten wider:

Zunächst nutzt das Team alle Open-Source-Daten für das Modelltraining, was bedeutet, dass der gesamte Trainingsprozess auf öffentlich zugänglichen Datensätzen basiert. Dieser Ansatz stellt die Transparenz und Wiederholbarkeit des Trainingsprozesses sicher und jeder Interessierte kann denselben Datensatz verwenden, um das Modell zu reproduzieren oder zu verbessern.

Zweitens hat das Team eine indirekte Trainingsmethode eingeführt, mit der das Modell bei geringeren Rechenkosten effizient trainiert werden kann. Dieser Ansatz eignet sich für große Datensätze und komplexe Modelle, da diese längere Trainingszeiten und höhere Rechenressourcen erfordern. Durch die Verwendung von indirektem Training kann die Trainingszeit verkürzt werden, indem die Anzahl der Rechenknoten erhöht wird, ohne dass die Rechenleistungskosten eines einzelnen Rechenknotens steigen.

Drittens führte das Team auch einige grundlegende Optimierungsarbeiten durch, insbesondere die Optimierung des Videospeicher-Overheads. Diese Optimierungen ermöglichen es dem Modell, lange Videos stabil auf einem Cluster oder Server zu trainieren und so die Trainingseffizienz und Skalierbarkeit des Modells zu verbessern.

TMTpost AGI: Was ist die Logik und die Gründe für die Wahl des Open-Source-Modells?

Qi Peng: Im Gegensatz zu kommerziellen Projekten besteht der Vorteil der Verwendung des Open-Source-Modells für Forschungsprojekte, an denen Teams und Open-Source-Communities zusammenarbeiten, darin, dass sie mehr F&E-Personal für die Teilnahme gewinnen können. Da es keine Urheberrechts- und Kommerzialisierungsbeschränkungen gibt, kann jeder, der sich für dieses Projekt interessiert, das Modell problemlos erhalten und nutzen, eigene Verbesserungsvorschläge einbringen oder neuen Code beisteuern. Dieses Modell kann bei der kontinuierlichen Verbesserung und Optimierung von Modellen helfen und darüber hinaus die interdisziplinäre und bereichsübergreifende Kommunikation und Zusammenarbeit stärken.

TMTpost AGI: Dieses wiederkehrende Sora-ähnliche Videomodell verwendet die raumzeitliche Kopplungsaufmerksamkeitsarchitektur von Latte. Was ist der Grund, warum es nicht mit der DiT-Architektur verbunden ist?

Qi Peng: Die vom Team entwickelte Sora-ähnliche Modellarchitektur verzichtet nicht vollständig auf Transformer oder andere traditionelle Modelle. Sie erweitert sich auf der Basis von DiT und fügt die Zeitdimension zur Unterstützung der Videoverarbeitung hinzu. Die Überlegung dieser neuen Architektur könnte darin bestehen, sich besser an die Eigenschaften von Videodaten anzupassen und die Leistung des Modells bei Videogenerierungs- oder -verarbeitungsaufgaben zu verbessern.

Titanium Media AGI: Die DiT-Architektur weist Einschränkungen bei der Generierung langer Videos auf. Kann die räumlich-zeitliche gekoppelte Aufmerksamkeitsarchitektur von Latte diese Probleme lösen?

Zhuang Shaobin: Das beste Modell, das derzeit vom Team trainiert wird, kann Videos mit einer Länge von bis zu 16 Sekunden erstellen. Dies ist eine enorme Verbesserung gegenüber früheren Modellen, die auf der Unet-Architektur basieren und normalerweise nur zwei bis drei Sekunden Video erzeugen konnten. 16 Sekunden sind keine besonders lange Zeit, aber im Bereich der Videogenerierung ein relativ langer Rekord.

Probleme der Kontinuität und Kohärenz bei der Videogenerierung, die hauptsächlich von der Datenqualität beeinflusst werden. Wenn in den Videodaten inkohärente Situationen wie Bildsprünge auftreten, generiert das trainierte Modell wahrscheinlich auch inkohärente Videos. Darüber hinaus haben die Bildrate und die Auflösung beim Modelltraining einen Einfluss auf die Qualität der Videogenerierung. Wenn das Modell nur auf Daten mit niedrigerer Auflösung und Bildrate trainiert wird, kann es möglicherweise keine hochauflösenden und flüssigen Videos generieren.

Warum kann ich ein ein- oder zweiminütiges Video nicht durchgängig generieren? Ein ein- oder zweiminütiges End-to-End-Video bedeutet Tausende von Frames oder sogar zwei- oder dreitausend Frames an Daten, was einen hundert- oder tausendfachen Verbrauch an Rechenressourcen erfordert. Obwohl die räumlich-zeitlich gekoppelte Aufmerksamkeitsarchitektur von Latte theoretisch auf eine solche Dauer ausgedehnt werden kann, verfügt derzeit keine Institution über genügend Rechenleistung und Daten, um ein solches Training zu unterstützen.

TMTpost AGI: Wer nutzt derzeit Sora? Welche Probleme werden gelöst? Welchen Wert bringt es?

Zhuang Shaobin: Auf der C-Seite können Videogenerierungsmodelle wie Sora für nicht professionelle Videoproduzenten wie normale Heimanwender die Schwierigkeit der Videoproduktion erheblich reduzieren. Benutzer müssen lediglich Textbeschreibungen eingeben, um schöne Videoinhalte zu erstellen, was die Teilnahme an der Videoerstellung erleichtert.

Auf der B-Seite kann Sora für professionelle Videobearbeiter und Kreative komplexe oder einfallsreiche Videomaterialien erstellen. Fachleute können anhand der vom Modell bereitgestellten Materialien Feinabstimmungen und Optimierungen vornehmen und so die Arbeitseffizienz und die Qualität der Erstellung verbessern.

Sora wird nicht nur in der Videoproduktion eingesetzt, sondern führt auch eine Reihe von Erkundungen in verschiedenen Bereichen durch, beispielsweise im autonomen Fahren, in der 3D-Generierung und -Modellierung sowie in der Physikforschung. Das autonome Fahrsystem muss die dynamischen Veränderungen umgebender Objekte genau vorhersagen, und Sora kann als „Weltsimulator“ die Bewegungsbahnen von Objekten simulieren und vorhersagen und so eine genauere Umgebungsmodellierung für das autonome Fahrsystem bereitstellen.

Im Bereich des autonomen Fahrens haben beispielsweise Teslas autonome Fahrlösung und ähnliche fortschrittliche Fahrassistenzsysteme erhebliche technologische Fortschritte gemacht. Sie können die Umgebung, einschließlich Fahrzeuge, Fußgänger, Hindernisse usw., in Echtzeit wahrnehmen, was der Schlüssel ist zur Verwirklichung des autonomen Fahrens. Sora hilft autonomen Fahrsystemen, im Voraus Entscheidungen zu treffen, um potenziell gefährliche Situationen wie Kollisionen und Auffahrunfälle zu vermeiden. Gleichzeitig kann das System durch die Vorhersage der Bewegung von Objekten auch Fahrtrouten und -geschwindigkeiten optimieren, die Verkehrseffizienz verbessern und Staus und Emissionen reduzieren.

Generell senkt Sora die Hemmschwelle für die Videoproduktion und ermöglicht mehr Menschen die Teilnahme an der Videoerstellung. Sowohl nicht-professionelle Nutzer auf der C-Seite als auch professionelle Videoproduzenten auf der B-Seite können davon profitieren.

Qi Peng: Sora ist eher wie ein „Hammer“, ein neues Werkzeug, das eine Vielzahl von Problemen lösen kann. Neben der Videogenerierung kann das Videomodell von Sora Vincent auch in vielen Bereichen wie dem autonomen Fahren und der Simulation der physischen Welt eine Rolle spielen. Die intuitivste Anwendung ist die Videogenerierung. Benutzer müssen lediglich eine Textbeschreibung eingeben, um schnell Videoinhalte zu generieren, die den Anforderungen entsprechen, wodurch die Effizienz und der Komfort der Videoproduktion verbessert werden.

Oftmals wird Technologie nicht entwickelt, um ein bestimmtes Problem zu lösen, sondern leistungsstarke Lösungen werden zufällig während des Forschungsprozesses entdeckt. Sobald diese Methode ausgereift ist, kann sie in vielen Bereichen zur Lösung einer Reihe von Problemen eingesetzt werden.

Derzeit befindet sich Sora noch in der Beta-Phase und ist für die Öffentlichkeit nicht allgemein verfügbar. In China mag es einige Anwendungsfälle für interne oder externe Betaversionen geben, die Anzahl ist jedoch relativ gering und beschränkt sich hauptsächlich auf die Erstellung kurzer Videos oder Filmausschnitte. Da es sich um eine Betaversion handelt, ist sie in vielen Fällen möglicherweise kostenlos verfügbar. Wenn in Zukunft Gebühren erhoben werden, werden die Kosten nur einen sehr kleinen Teil der aktuellen Videoproduktionskosten ausmachen, beispielsweise einige hundert Yuan, wodurch die Kosten für die Videoproduktion erheblich gesenkt werden.

TMTpost AGI: Auf welche Herausforderungen stieß das Team bei der Entwicklung des Sora-Modells? Wie können diese Herausforderungen gemeistert werden?

Qi Peng : Dieses Projekt arbeitet hauptsächlich mit der Open-Source-Community zusammen. Die Hauptforschungs- und Entwicklungsarbeit wird von Dr. Zhuang Shaobin und einem oder zwei Forschungs- und Entwicklungsmitarbeitern durchgeführt. Das Gesamtprojekt ist in vier Gruppen unterteilt, die für die Datenerfassung und -kennzeichnung, das Modelltraining, die Modellbewertung, die Trainingsbeschleunigung und die Maschinenoptimierung verantwortlich sind.

Zhuang Shaobin: Während des Modelltrainingsprozesses besteht die größte Herausforderung für das Team in unzureichenden Rechenressourcen. Insbesondere bei der Verarbeitung großer Datenmengen und komplexer Modelle ist der Bedarf an Rechenressourcen sehr hoch. Um die begrenzten Maschinenressourcen effizienter zu nutzen, hat das Algorithmenteam des Projektteams umfangreiche Optimierungsarbeiten durchgeführt.

Zu diesen Optimierungen gehören erweiterte Optimierungsstrategien wie Modellparallelität und Pipeline-Parallelität sowie die Videospeicheroptimierung für einzelne Modelle.

Darüber hinaus optimierte das Team auch den Videobereich, sodass das Projekt über klare Anwendungsszenarien und Zielbereiche verfügen kann, um den tatsächlichen Anwendungsanforderungen des Projekts besser gerecht zu werden.

TMTpost Media AGI: Das Chongqing Artificial Intelligence Research Institute der Shanghai Jiao Tong University und das Rural Revitalization (Chongqing) Research Institute haben zuvor ein großes Modell der ländlichen Revitalisierungslandwirtschaft namens „Zhaoyan·Zhaofeng“ veröffentlicht.

Qi Peng: Als einzige Gemeinde mit ländlichen Szenen bietet Chongqing vielfältige Szenen und viel Raum für die Anwendung groß angelegter landwirtschaftlicher Modelle. Das groß angelegte Modell zur ländlichen Revitalisierung nutzt umfangreiche Online-Daten und Agrardaten der Akademie der Agrarwissenschaften. Diese Daten bilden eine Grundlage für die Modellkonstruktion und -schulung und können die tatsächliche Situation der landwirtschaftlichen Produktion genauer widerspiegeln. Derzeit wird dieses Projekt gemeinsam mit Regierungsbehörden, dem Rural Revitalization (Chongqing) Research Institute und anderen Parteien entwickelt. Dieses Kooperationsmodell trägt dazu bei, Ressourcen, Technologie und Mittel zu integrieren, um gemeinsam die Forschung, Entwicklung und Anwendung groß angelegter Agrarmodelle voranzutreiben.

Es sind 14 große Modelle zur ländlichen Revitalisierung geplant, und derzeit gibt es 3-4 verwandte Produkte. Durch große Modelle wird Expertenwissen in populäre und leicht verständliche Informationen umgewandelt, um Probleme in der landwirtschaftlichen Produktion, im Management und im Lebensunterhalt der Menschen zu lösen um der Agrarindustrie zu helfen, auf landwirtschaftliches Wissen genauso einfach zuzugreifen und es zu nutzen wie Stadtbewohner, was dazu beitragen wird, die Informationslücke zwischen städtischen und ländlichen Gebieten zu schließen und die Effizienz und Effektivität der landwirtschaftlichen Produktion zu verbessern.

TMTpost AGI: Was sind derzeit die Engpässe bei der Entwicklung der Großmodelltechnologie?

Qi Peng: Zunächst ist klar, was das Team als großes Modell definiert, nämlich ein großes Sprachmodell. Das große Sprachmodell ist der Mainstream und sein Kern liegt in Wissen und Logik. Während sich das große Sprachmodell weiterentwickelt, kann sein Intelligenzniveau allmählich vom IQ eines fünfjährigen Kindes auf das Niveau eines Zehnjährigen, eines Achtzehnjährigen oder sogar eines Übermenschen ansteigen. Dieser Prozess beruht hauptsächlich auf der Beherrschung und Anwendung von Wissen und Logik durch das Modell.

Im Gegensatz zum großen Sprachmodell ist das Vincent-Videomodell eine weitere Linie des großen Modells. Es erfordert kein komplexes Wissen und keine komplexe Logik, sondern konzentriert sich mehr auf das Verständnis und die Simulation der Gesetze der physischen Welt. Modelle wie Vincent Video Modeling können Veränderungen in der physischen Welt auf der Grundlage von Wahrnehmung und Erfahrung vorhersagen und darauf reagieren, es mangelt ihnen jedoch an logischem Verständnis und der Fähigkeit zur Wissenszusammenfassung auf hohem Niveau.

Darüber hinaus gibt es multimodale Modelle, die mehrere Informationsformen wie Texte, Bilder, Töne usw. einheitlich kodieren und verarbeiten können. Multimodale Modelle sind eine der zukünftigen Entwicklungsrichtungen, die komplexe Informationen in der realen Welt umfassender verstehen und verarbeiten können.

Derzeit befinden sich große Modelle in einer Plateauphase, und es scheint schwierig zu sein, einen qualitativen Sprung in Bezug auf die Intelligenz zu erzielen. Wir glauben immer noch, dass größere Modelle tendenziell in der Lage sind, komplexere Probleme zu bewältigen und über stärkere Lern- und Generalisierungsfähigkeiten verfügen. Sobald ein Modell eine Genauigkeit von 99,9 % erreichen kann, wird dieses große Modell zu einem neuen Produktivitätswerkzeug, das verschiedene Aufgaben ausführen kann.

Bei der Entwicklung großer Modelle treten Probleme wie unzureichende Rechenleistung, unzureichende Textdaten, Abweichungen in Genauigkeit und Zuverlässigkeit sowie unzureichender Modellmaßstab auf. Auf diese Weise ist der „IQ“ des großen Modells nicht hoch genug, sondern entspricht eher dem IQ-Niveau eines fünf- oder sechsjährigen Kindes. Die Fähigkeit des großen Modells, komplexe Aufgaben zu bewältigen, ist begrenzt und kann nicht das Niveau erreichen, das Menschen haben erwarten.

Zweitens ähnelt das große Modell aufgrund der Einschränkungen der Architektur eines großen Sprachmodells ein wenig einem „Studenten der Geisteswissenschaften“. Es beherrscht die Sprache sehr gut, ist jedoch nicht gut in Mathematik und Ingenieurwissenschaften. Das große Modell kann mit dem „CEO oder COO“ des Unternehmens verglichen werden. Obwohl dieser „CEO oder COO“ möglicherweise nicht viel über Technologie weiß, kann er verschiedene High-Tech-Komponenten mobilisieren.

Gleichzeitig stoßen inländische Großhersteller und Start-ups auf Schwierigkeiten bei der Entwicklung großer Modelle, vor allem weil die Investitionskosten enorm sind und die Kommerzialisierung nicht ausreicht, um die kontinuierlichen Investitionen in Rechenleistung und Daten zu unterstützen.

Wenn der Intelligenzgrad großer Modelle nicht in kurzer Zeit deutlich verbessert werden kann, ist die Entwicklung von Anwendungen eine praktikable Option. In der aktuellen Phase der Entwicklung großer Modelle müssen Kunden verschiedene Anwendungsszenarien in der Praxis erkunden und verbessern. Durch die Kommerzialisierung von Anwendungen können Einnahmen generiert werden, um die weitere Entwicklung und Optimierung großer Modelle zu unterstützen. Dies gewährleistet nicht nur die wirtschaftliche Nachhaltigkeit des Projekts, sondern bietet auch die Möglichkeit für zukünftige technologische Innovationen.

Darüber hinaus können große Modellunternehmen die Projektentwicklung auch durch Finanzierungen unterstützen. Allerdings ist die Finanzierung nicht einfach. Es kommt darauf an, ob der Markt das Potenzial und den Wert des Projekts erkennt.

TMTpost Media AGI: Der Markt ist sehr begeistert von großen Modellen, aber die Anwendung großer Modelle schreitet langsam voran, was hinter den Markterwartungen zurückbleibt. Warum schreitet die Anwendung großer Modelle langsam voran?

Qi Peng: Es gibt zwei Gründe:

Erstens führt der derzeitige Mangel an technischen Möglichkeiten zu begrenzten Verbesserungen, was die Begeisterung für proaktive Upgrades verringert;

Zweitens erfordert die Anwendung neuer Technologien neue Hardware- und Rechenleistungsunterstützung, aber verschiedene Unternehmen sind schlecht vorbereitet und verfügen nicht über genügend Computerräume und intelligente Rechenressourcen, um große Modelle bereitzustellen und auszuführen, was die Implementierung großer Modelle in vertikalen Branchen erschwert. Das zweite Problem kann tatsächlich durch entsprechende Richtlinien gelöst werden. Wenn Unternehmen auf die Datensicherheitsgarantie staatlicher Forschungsinstitute oder Rechenzentren vertrauen können, können sie mit der Entwicklung groß angelegter Modelllösungen beginnen, bevor sie ihre eigenen Smart-Computing-Computerräume bauen.

Große Modelle, insbesondere solche, die in der Lage sind, qualitativ hochwertige Texte, Bilder usw. zu generieren, erfordern häufig erhebliche Rechenressourcen für die Ausführung. Wenn beispielsweise 1 Million Benutzer gleichzeitig ein großes Modell verwenden, können die jährlichen Kosten für Rechenleistung mehrere Hundert Millionen betragen, was die Kommerzialisierung erschwert. Für normale Benutzer sind solche teuren Großmodell-Anwendungsprodukte möglicherweise unerschwinglich, was auch die Förderung von C-End-Anwendungen einschränkt.

In dieser Phase können Lösungen die Einführung effizienterer Algorithmen, die Optimierung von Modellstrukturen zur Reduzierung des Berechnungsaufwands oder die Nutzung verteilter Rechenressourcen wie Cloud Computing zur Kostenverteilung umfassen.

In einigen Aspekten ähnelt der aktuelle intelligente Agent eines großen Modells immer noch einem „fünfjährigen Kind“. Er weist Probleme wie einen unzureichenden „IQ“, eine instabile Leistung und eine Neigung zu Halluzinationen auf, was die Benutzererfahrung und das Vertrauen ernsthaft beeinträchtigt. Diese Probleme sind in Anwendungsszenarien, die eine hohe Genauigkeit erfordern, wie z. B. Kundendienstszenarien im öffentlichen oder finanziellen Bereich, nicht akzeptabel. Selbst in einigen Beratungs- oder Betriebs- und Wartungsbereichen, in denen die Genauigkeitsanforderungen nicht so hoch sind, hat die aktuelle Genauigkeitsrate von 80 % oder 60 % noch nicht den kritischen Punkt für eine breite Anwendung erreicht.

Die Verbesserung der Leistung und Stabilität von Agenten erfordert eine kontinuierliche Optimierung der Algorithmen, eine Erhöhung der Vielfalt und Menge der Trainingsdaten sowie die Einführung komplexerer Modellarchitekturen. Gleichzeitig müssen auch Echtzeitüberwachungs- und Fehlerbehandlungsmechanismen gestärkt werden, um die Stabilität großer Modelle in komplexen Umgebungen sicherzustellen.

Die Bilderkennung ist ein sehr wichtiger Bereich bei der Anwendung multimodaler großer Modelle. Basierend auf vorab trainierten Modellen können neue Bilderkennungsmodelle zu sehr geringen Kosten entwickelt werden, die viele Long-Tail-Szenarien abdecken und ein großes Marktpotenzial haben. Obwohl die Bilderkennung viele Anwendungsszenarien hat, weisen die aktuellen großen Bilderkennungsmodelle immer noch das Problem geringer Genauigkeit und relativ hoher Anforderungen an die Rechenleistung auf.

Da die vorherige Generation künstlicher Intelligenz im Bildverständnis relativ ausgereift war, haben die Menschen außerdem den Mehrwert, den große Modelle erzeugen können, nicht vollständig akzeptiert, was sich auch auf die Geschwindigkeit ihrer Förderung auswirkt.

TMTpost AGI: Wie sehen Sie die aktuelle industrielle Innovation großer vertikaler Industriemodelle? Warum wurden so wenige vertikale Industriemodelle umgesetzt?

Qi Peng: Im Hinblick auf die vertikale Branchenimplementierung kann es am Beispiel humanoider Roboter in der Fertigungsindustrie fünf bis zehn Jahre dauern, bis humanoide Roboter in Familien einsetzbar sind. Dies liegt vor allem daran, dass ihre Generalisierungsfähigkeiten in Software noch begrenzt sind. Das reicht nicht aus, auch die Hardware bedarf weiterer Forschung, Entwicklung und Verbesserung.

Eine praktischere Forschungsrichtung besteht darin, sich auf das Generalisierungsproblem von Roboterarmen in Fertigungsszenarien zu konzentrieren. Obwohl die Roboterarme selbst sehr ausgereift sind und von großen in- und ausländischen Herstellern auf dem Markt besetzt werden, mangelt es den vorhandenen Roboterarmen an ausreichenden Generalisierungsfähigkeiten und sie können sich nicht flexibel an eine Vielzahl unterschiedlicher Arbeitsaufgaben anpassen. Dies führt dazu, dass bei praktischen Anwendungen jedes Mal eine Neuprogrammierung erforderlich ist, wenn der Roboterarm eine neue Aufgabe ausführen muss, was unpraktisch ist, wenn sich Aufgaben häufig ändern.

Der Schlüssel zur Lösung des Problems der Verallgemeinerung von Roboterarmen liegt in der Entwicklung von Software, insbesondere von Software, die es dem Roboterarm ermöglicht, ein breiteres Spektrum an Szenarien zu bewältigen. Es wird erwartet, dass innerhalb von ein bis zwei Jahren durch Softwareoptimierung und -entwicklung die Generalisierungsfähigkeiten des Roboterarms deutlich verbessert werden.

Natürlich gibt es einige Herausforderungen, um das Ziel der Generalisierungsfähigkeiten des Roboterarms zu erreichen, nämlich den Mangel an Daten. Um einen Roboterarm zu trainieren, der eine Vielzahl von Szenarien bewältigen kann, ist eine große Menge hochwertiger Daten erforderlich, um das Lernen und Optimieren von Algorithmen zu unterstützen.

Tatsächlich können große Modelle als intelligente Agenten in der Fertigungsindustrie eingesetzt werden und unterschiedliche Software als Ganzes aufrufen. Dies bedeutet, dass in komplexen Systemen in der Fertigungsindustrie verschiedene Software, die ursprünglich eine manuelle Bedienung oder eine Programmierverbindung erforderte, nun theoretisch durch große Modelle automatisiert und integriert werden kann.

Benutzer müssen nur über Sprache oder Ideen mit dem großen Modell interagieren, und das große Modell kann automatisch entsprechende Programme ausführen und verschiedene Aufgaben erledigen. Da jedoch verschiedene Fertigungsunternehmen über unterschiedliche Produktionsumgebungen, Systeme und APIs verfügen, ist die Anpassungsfähigkeit großer Modelle an unterschiedliche Szenarien zu einer großen Herausforderung geworden. Selbst ein großes Modell, das in einer Szene gut abgestimmt ist, funktioniert in einer anderen Umgebung möglicherweise nicht richtig. Daher müssen Unternehmensentwickler bestimmte Szenarien optimieren, um die Leistung und Genauigkeit großer Modelle zu verbessern.

Diese Einschränkung wirkt sich direkt auf die weit verbreitete Anwendung und tiefgreifende Entwicklung großer Modelle in der Fertigung aus. Denn die Fertigung umfasst oft hochkomplexe und raffinierte Vorgänge, die hochpräzise Berechnungen und Kontrollen erfordern. Wenn ein großes Modell diesen Aufgaben nicht gewachsen ist, wird es sein Potenzial in der Fertigung nicht ausschöpfen.

Neben den Kapazitätsbeschränkungen großer Modelle selbst sind auch Kompatibilitätsprobleme zwischen Systemen ein wichtiger Faktor, der den Einsatz großer Modelle in der Fertigung einschränkt. Verschiedene Unternehmen oder Produktionseinheiten können völlig unterschiedliche Systeme verwenden, einschließlich unterschiedlicher Software, Hardware und APIs. Dies macht es schwierig, ein großes Modell, das in einem Szenario optimiert wurde, direkt auf ein anderes Szenario anzuwenden, da die Systemumgebungen der beiden Szenarien völlig unterschiedlich sein können. Diese Variabilität zwischen Systemen erhöht die Komplexität und Kosten der Anwendung großer Modelle in der Fertigung.

Es gibt tatsächlich eine Lösung. Für vertikale Branchen wie das verarbeitende Gewerbe oder den Finanz- und Einzelhandel können Schnittstellen für standardisierte Großmodelle definiert werden. Diese Schnittstellen verdeutlichen die spezifischen Funktionen, die das große Modell bereitstellen kann, sodass alle Systeme die Funktionen des großen Modells über diese Schnittstellen aufrufen können. Dies hat den Vorteil, dass sie unabhängig von der Änderung der Systemumgebung, sofern sie diesen standardisierten Schnittstellenspezifikationen folgen, nahtlos mit großen Modellen verbunden werden können.

Daher können Unternehmensentwickler durch die Definition standardisierter Schnittstellen die Schwierigkeit, große Modelle mit unterschiedlichen Systemen abzugleichen, erheblich reduzieren, sodass sich große Modelle schneller an unterschiedliche Produktionsumgebungen anpassen können. Standardisierte Schnittstellen tragen dazu bei, dass große Modelle in verschiedenen Systemen stabil laufen können und reduzieren Kompatibilitätsprobleme aufgrund von Systemunterschieden.

Im Allgemeinen werden große Modelle häufig in mehreren vertikalen Branchen eingesetzt, es gibt jedoch relativ wenige tatsächliche Implementierungsfälle. Dafür gibt es zwei Hauptgründe: Erstens erschweren unzureichende mathematische und technische Fähigkeiten, dass große Modelle in der Praxis eine ausreichende Genauigkeit und Stabilität erreichen. Zweitens gehört das große Modell selbst zur Kategorie des maschinellen Lernens und aufgrund seiner auf statistischen Methoden basierenden Natur kann es nicht zu 100 % korrekt sein.

Tatsächlich ist die Struktur des menschlichen Gehirns nicht zu 100 % genau, aber das menschliche Urteilsvermögen ist oft genau genug, um den Anforderungen der meisten tatsächlichen Szenarien gerecht zu werden. Im Gegensatz dazu kann die Genauigkeit eines großen Modells auch nach dem Training bei etwa 95 % bleiben, was in einigen Szenarien, die eine extrem hohe Genauigkeit erfordern, möglicherweise nicht ausreicht. Darüber hinaus sind die mathematischen Fähigkeiten großer Modelle relativ gering, was ihre Anwendung in bestimmten Bereichen ebenfalls einschränkt.

Wenn Sie diese Einschränkungen überwinden möchten, müssen Sie sich darüber im Klaren sein, wie wichtig unterstützende Einrichtungen für große Modelle sind. Durch die Bereitstellung der notwendigen unterstützenden Einrichtungen und Werkzeuge für große Modelle kann es den Mangel an mathematischen und technischen Fähigkeiten ausgleichen und sich so besser an die Anforderungen tatsächlicher Anwendungsszenarien anpassen. Zu diesen unterstützenden Einrichtungen können genauere Datensätze, effizientere Algorithmen, stabilere Hardwareplattformen usw. gehören.

TMTpost AGI: Warum erzeugen große Models Halluzinationen?

Qi Peng: Manchmal liegt es daran, dass die Originaldaten selbst fehlen oder Probleme aufweisen. Das große Sprachmodell kann während des Trainingsprozesses nicht das richtige Wissen erlernen und daher keine korrekten Schlussfolgerungen ziehen. Dieser Fehler wird nicht durch Fehler im großen Sprachmodell selbst verursacht, sondern durch Ungenauigkeiten in den Eingabedaten.

Wenn ein großes Modell in einer hypothetischen Umgebung trainiert wird, in der alle Informationen auf falsche Schlussfolgerungen hinweisen, wird das große Modell auf der Grundlage dieser falschen Informationen auch falsche Urteile fällen. Dies unterstreicht den wichtigen Einfluss von Daten und Umgebung auf die Leistung von Agenten und großen Modellen.

Manchmal können große Modelle Antworten generieren, die logisch und durchdacht erscheinen, aber nicht wirklich wahr oder genau sind. Dies ähnelt der Art und Weise, wie 5-Jährige falsche Erinnerungen oft selbstbewusst beschreiben.

Auch bei Erwachsenen kommt es häufig zu Halluzinationen oder Gedächtnisstörungen bei der Verarbeitung von Informationen und dem Gedächtnis. Beispielsweise können bei Gerichtsverhandlungen und Fallanalysen Parteien, die in sehr ernste und wichtige Situationen verwickelt sind, aufgrund verschiedener Belastungen, irreführender Informationen usw. auch falsche Erinnerungen oder Halluzinationen haben.

TMTpost AGI: Wie spiegeln sich die Unterschiede im großen Modellmarktumfeld im In- und Ausland wider?

Qi Peng: Derzeit haben ausländische Länder immer noch großes Vertrauen in die Verbesserung der Technologie und haben sich noch nicht vollständig der Anwendungsentwicklung zugewandt. Dies hängt möglicherweise mit der Tatsache zusammen, dass ausländische Märkte relativ ausgereift und stabil sind, sodass Unternehmen über mehr Ressourcen und Raum verfügen, um sich auf Technologieforschung, -entwicklung und -innovation zu konzentrieren. Im Gegensatz dazu ist der Inlandsmarkt mit einem härteren Wettbewerbsumfeld konfrontiert, und die meisten großen Forschungs- und Entwicklungsunternehmen auf Modellbasis haben sich Anwendungen in großem Maßstab zugewandt.

Der Wettbewerb auf dem heimischen Markt spiegelt sich nicht nur in der Anzahl der Unternehmen wider, sondern auch in Preiskämpfen. Da mehrere Unternehmen gleichzeitig ähnliche Dienstleistungen anbieten, sinken die Preise für große Modelle rapide, was es für Unternehmen schwierig macht, die Kosten durch die Bereitstellung von Dienstleistungen wieder hereinzuholen. Im Ausland können die von ChatGPT vertretenen Unternehmen aufgrund ihrer führenden Position in Technologie und Markterkennung weiterhin Einnahmen erzielen und diese für weitere Forschung, Entwicklung und Innovation verwenden.

Auf dem heimischen Markt müssen sich Unternehmen aufgrund des heftigen Preiskampfs und der relativ geringen Zahlungsbereitschaft möglicherweise stärker auf die Entwicklung neuer Anwendungen konzentrieren, um kommerzielle Durchbrüche zu erzielen. Obwohl diese Strategie den wirtschaftlichen Druck der Unternehmen bis zu einem gewissen Grad mildern kann, kann sie auch zu unzureichenden Investitionen in technologische Forschung und Entwicklung führen und so ihre langfristige Wettbewerbsfähigkeit beeinträchtigen.

TMTpost AGI: Was sind die zukünftigen Entwicklungsrichtungen von AGI?

Qi Peng: Ich glaube, dass sich die menschliche Gesellschaft in einer kritischen Phase befindet, die zu AGI führt. Obwohl die Branche derzeit davon ausgeht, dass bestimmte Technologien oder Modelle nicht auf dem richtigen Weg zu AGI sind, ist sie der Meinung, dass diese Technologien oder Modelle nicht zu AGI gehören.Aber eines Tages in der Zukunft, wenn wir auf diese Periode der Geschichte zurückblicken, werden wir vielleicht erkennen, dass wir an einem wichtigen historischen Wendepunkt stehen.

Nehmen wir als Beispiel die autonome Fahrtechnologie von Tesla. Vor fünf Jahren hätte man vielleicht gedacht, dass es zehn bis zwanzig Jahre dauern würde, die autonome Fahrtechnologie auf L4-Niveau zu erreichen, aber jetzt hat diese Technologie erhebliche Fortschritte gemacht. Dieser zufällige Fortschritt lässt die Branche glauben, dass echte AGI unbeabsichtigt realisiert werden könnte.

Zhuang Shaobin: Was ist der ideale Zustand von AGI? AGI sollte nicht nur über hochgradige Denkfähigkeiten verfügen, sondern, was noch wichtiger ist, in der Lage sein, im wirklichen Leben, insbesondere in der Industrie, angewendet zu werden.

Gegenwärtig haben die Menschen viele Anwendungen von Robotern und KI-Technologie auf physischen Geräten gesehen, was zeigt, dass die Menschen hart daran arbeiten, die KI-Technologie von Computern zu befreien und sie in greifbare und aktive Einheiten umzuwandeln. Dieser Sprung ist für die KI-Technologie sehr wichtig. Nur in praktischen Anwendungen kann KI einen größeren Wert schaffen.

TMTpost AGI: Gibt es neben dem DiT-Weg noch andere mögliche Wege oder Strategien für die Entwicklung von AGI? Was ist der Implementierungspfad von AGI?

Qi Peng: Im Entwicklungsprozess von AGI müssen die Menschen eine vielfältige und integrative Haltung einnehmen. Vergleicht man AGI mit den Hausaufgaben von Schülern mit unterschiedlichen Noten in einer Klasse, können alle einige grundlegende Dinge erledigen, auch wenn die Schüler unterschiedliche Fähigkeiten haben. Auch wenn es Leistungsunterschiede zwischen den Architekturen gibt, können sie alle einige grundlegende Aufgaben erledigen, verfügen jedoch über unterschiedliche Fähigkeiten bei schwierigeren Aufgaben.

Insbesondere mit der Unterstützung großer Datenmengen und Rechenleistung können verschiedene Architekturen ihre Grundfähigkeiten verbessern, indem sie die Anzahl der Parameter erhöhen, sodass sie alle auf einem bestimmten Niveau arbeiten können.Gleichzeitig gibt es auch einige neue Trends im Bereich großer Modelle, wie z. B. lineare Aufmerksamkeitsmechanismen und andere Optimierungsmethoden. Diese Methoden sollen den Rechenaufwand des herkömmlichen Transformer-Modells reduzieren und die Effizienz verbessern.

Für den endgültigen Implementierungspfad von AGI gibt es eigentlich keinen festen Weg. Verschiedene aktuelle Modelle und Technologien haben ihre Vorteile und Einschränkungen. Im Entwicklungsprozess von AGI ist eine kontinuierliche Erforschung und Integration mehrerer Architekturen und Technologien erforderlich. Verschiedene Architekturen und Technologien werden in diesem Prozess wichtige Referenzen und Referenzen für AGI liefern und dessen kontinuierliche Weiterentwicklung fördern. Gleichzeitig muss auf die Praktikabilität und Selbstkorrekturfähigkeit des Modells geachtet werden.

TMTpost AGI: Wie kann man im inländischen Großmodellbereich ein Gleichgewicht zwischen Forschungsinnovation und Kommerzialisierung herstellen?

Qi Peng: Im Hinblick auf innovative Forschung muss das Institut aufgrund der begrenzten Mittel klarstellen, welche Ziele es erreichen kann, anstatt blind Projekte zu verfolgen, die große Mengen an Ressourcen erfordern, wie etwa große Sprachmodelle, die nur durchgeführt werden können von großen Unternehmen wie Baidu.

Zweitens muss das Institutsteam Forschungsprojekte auswählen, die mit einem gewissen Aufwand realisierbar sind und einen praktischen Wert haben. Das Sora-ähnliche Modell, das auf der vom Team entwickelten raumzeitlichen Kopplungsaufmerksamkeitsarchitektur basiert, nimmt beispielsweise die Erzeugung von 16-sekündigen hochauflösenden Videos. Dies ist ein Ziel, das das Institut mit den vorhandenen Ressourcen erreichen kann. Gleichzeitig muss das Institut auch einige Forschungsrichtungen auswählen, die möglicherweise weniger Ressourcen erfordern, wie z. B. Modelloptimierung oder unterstützende Anwendungen.

Im Hinblick auf die Kommerzialisierung sollte sich das Institut auf die Umsetzung von AIGC konzentrieren, insbesondere auf das Thema „letzte Meile“. Das bedeutet, dass sich Forschungsinstitute darauf konzentrieren müssen, Forschungsergebnisse in tatsächliche Produkte oder Dienstleistungen umzuwandeln, um die Marktnachfrage zu befriedigen und eine Kommerzialisierung zu erreichen.

Obwohl der IQ großer Modelle von fünf auf zehn bis achtzehn Jahre weiter steigen und sogar das Niveau von Spitzenexperten erreichen kann, benötigt ein solches System immer unterstützende Einrichtungen oder Werkzeuge, um seinen Betrieb und seine Anwendung zu unterstützen. Die Forschungs- und Entwicklungskosten dieser unterstützenden Einrichtungen mögen relativ niedrig sein, sie spielen jedoch eine entscheidende Rolle bei der Förderung der praktischen Anwendung und des gesellschaftlichen Werts großer Modelle.

Daher sollten sich die Teams inländischer Forschungseinrichtungen im Bereich KI hauptsächlich auf die Forschung und Entwicklung dieser unterstützenden Einrichtungen konzentrieren, um den Betrieb und die Implementierung großer Modelle zu unterstützen.

(Dieser Artikel wurde zuerst auf Titanium Media App veröffentlicht, Autor|Dou Yueyi, Lin Zhijia, Herausgeber|Lin Zhijia)