Nachricht

SenseTimes bester Schauspieler Wang Xiaogang: Auch wenn der „zweistufige“ End-to-End-Ansatz noch zehn Jahre lang umgesetzt wird, wird er nicht zum „ChatGPT“ für intelligentes Fahren.

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Wang Xiaogang, Mitbegründer und Chefwissenschaftler von SenseTime Technology und Präsident der Jueying Intelligent Automotive Business Group

Auf der gerade zu Ende gegangenen WAIC 2024 veröffentlichte SenseTime ein One-Shot-Video.

Im Video kann ein UniAD-Fahrzeug, das mit nur 7 Kameras ausgestattet ist, nicht nur ohne Bilder frei durch städtische Baustellen, große Kreuzungen und Ampelkreuzungen fahren, sondern auch problemlos durch asymmetrische Kreuzungen ohne Markierungen navigieren. Sie können stehenden Fahrzeugen, die am Straßenrand geparkt sind, und Fahrzeugen in engen Fahrspuren ausweichen, und Sie können auch bei großen Krümmungskurven ohne Fahrspur rechts abbiegen.

Diese Abfolge seidenweicher Fahrbewegungen ist beeindruckend. Dahinter steckt die von SenseTime Jueying vorgeschlagene End-to-End-Lösung für autonomes Fahren UniAD, die als erste in der Branche Wahrnehmung und Entscheidungsfindung integriert.

Intelligentes Fahren stand in den letzten Jahren im Fokus der Automobilkonzerne, doch das tatsächliche Fahrniveau ist oft unbefriedigend. Nach dem Aufkommen von ChatGPT freute sich die Branche des intelligenten Fahrens auf den gleichen Moment qualitativer Veränderung.

In diesem Moment weist „Ende-zu-Ende“ eine Richtung vor. Seit diesem Jahr legt die Branche des intelligenten Fahrens zunehmend Wert auf End-to-End. Ob Automobilkonzerne wie Xpeng, Ideal, NIO oder Great Wall oder Technologieanbieter wie Huawei, Yuanrong Qixing und Haomo Zhixing, sie alle haben sich für den End-to-End-Weg entschieden.

Bereits Ende 2022 schlug SenseTime Jueying UniAD vor, ein allgemeines Modell für integriertes autonomes Fahren in der Wahrnehmung und Entscheidungsfindung, das ebenfalls iterativ auf UniAD basiert. Es nutzt multimodale große Modelle, um End-to-End-Lösungen zu unterstützen die nächste Generation der autonomen Fahrtechnologie zu schaffen. Selbst wenn Sie auf der Straße einem Krankenwagen begegnen, kann das Fahrzeug dank der kognitiven Fähigkeiten von DriveAGI das Ziel genau identifizieren und verstehen und aktiv ausweichen.


DriveAGI kann nicht nur Krankenwagen identifizieren, sondern auch diensthabenden Krankenwagen proaktiv Vorfahrt gewähren.

Nach zwei Jahren proaktiver Planung kommen nach und nach die Vorteile von SenseTime Jueying zum Vorschein. Das Unternehmen hat mit mehr als 30 in- und ausländischen Automobilherstellern zusammengearbeitet, deckt mehr als 90 Modelle ab und hat insgesamt 1,95 Millionen Smart-Autos ausgeliefert. . Während des Kooperationsprozesses haben SenseTime Jueying und Automobilunternehmen ihre jeweiligen Grenzen gefunden, ihre jeweiligen Vorteile voll ausgeschöpft und arbeiten zusammen, um die Ankunft des „GPT-Moments“ des autonomen Fahrens zu beschleunigen.

Wenn die technische Route falsch ist, ist selbst das Einsteigen in den Bus umsonst.“

In einer Zeit, in der sich viele Akteure versammeln, um in den End-to-End-Bereich einzusteigen, erläuterte Wang Xiaogang, Mitbegründer, Chefwissenschaftler von SenseTime und Präsident der Jueying Intelligent Automotive Business Group, gegenüber der TMTpost Media App, warum er der Erste war Konzentrieren Sie sich auf End-to-End?

Im Jahr 2017 gaben SenseTime und das japanische Unternehmen Honda Motor eine Zusammenarbeit zur gemeinsamen Entwicklung der autonomen L4-Fahrtechnologie bekannt. SenseTime selbst begann mit der KI-Vision-Technologie. Damals forderte Honda SenseTime auf, nur Kameras zu verwenden und intelligente Fahrfunktionen ohne hochpräzise Karten zu implementieren. Dies kann als Prototyp einer End-to-End-Lösung angesehen werden. Seitdem arbeitet das Team weiter an der End-to-End-Lösung.

Obwohl der End-to-End-Wettbewerb in vollem Gange ist, besteht ein häufiges Problem darin, dass die technische End-to-End-Route noch nicht die beste Praxis ist und es Unterschiede in der technischen Route gibt.

Wang Xiaogang sagte gegenüber TMTpost App, dass die meisten aktuellen End-to-End-Lösungen eine „zweistufige“ Lösung verwenden, die einfacher zu implementieren ist, das heißt, sie besteht aus zwei Modellen: Wahrnehmung und Entscheidungsfindung. „Der Wahrnehmungsteil des ersten Absatzes selbst verwendet bereits neuronale Netze, daher gibt es keine großen Änderungen. Die größte Änderung gibt es im Planungs- und Kontrollteil des zweiten Absatzes. Ursprünglich wurde dieser Teil durch Schreiben von Regeln realisiert, aber jetzt gilt er auch.“ Neuronale Netze.

Die „zweistufige“ Lösung besteht seiner Meinung nach jedoch darin, zwei kleine Modelle miteinander zu verbinden und gemeinsam Ende-zu-Ende zu optimieren. Bei der „zweistufigen“ Lösung gibt es nach dem Filtern der Informationen durch das Wahrnehmungsmodell einen großen Verlust, sodass nur einige Bezeichnungen wie Personen, Autos und Objekte übrig bleiben, sodass das Modell der zweiten Stufe tatsächlich nur ein kleiner Verlust ist Modell. „Der Hauptunterschied zwischen dem zweistufigen Plan und dem einstufigen Plan besteht darin, ob es sich um die Ära der kleinen Modelle oder die Ära der großen Modelle handelt.“

Wang Xiaogang sagte unverblümt, dass die „zweistufige“ Lösung, selbst wenn sie für weitere 10 Jahre umgesetzt wird, nicht zu „ChatGPT“ für autonomes Fahren wird.

Genau mit Blick auf diese Probleme hat SenseTime Jueying von Beginn der Forschung und Entwicklung an eine „One-Step“-Lösung eingeführt, die Wahrnehmung, Entscheidungsfindung, Planung und andere Module in einen durchgängigen Full-Stack-Transformer integriert. Endmodell zur Erreichung einer integrierten Wahrnehmung und Entscheidungsfindung. Das heißt, der Sensoreingang wird verwendet, um die Verhaltenskurve direkt auszugeben.

In diesem Prozess wird die Maschine Informationen synthetisieren und denken und urteilen, genau wie Sie einen Kriminalroman lesen. Während Sie den Krimi lesen, gibt es verschiedene Charaktere und Handlungsstränge Roman Es ist völlig unklar, was als nächstes passieren wird. Durch die verschiedenen Charaktere und Handlungsstränge im Roman können Sie verschiedene Möglichkeiten für den Mörder vorhersagen. Was das Maschinenhirn tut, ist wie in einem Kriminalroman.

Obwohl es nur einen Wortunterschied zwischen dem einstufigen Plan und dem zweistufigen Plan gibt, ist die Schwierigkeit sehr unterschiedlich. Wang Xiaogang erklärte, dass bei der einstufigen Route die Menge an Videoinformationen am Frontend sehr groß ist, das Ausgangssignal jedoch sehr genau sein muss, was höhere Anforderungen an das Training, die Daten und die Pipeline des gesamten Netzwerks stellt.

„Die ‚einstufige‘ Lösung ist schwierig, aber sobald das Modell erlernt ist, werden seine Fähigkeiten sehr stark sein. Dies ist der ‚ChatGPT‘-Moment im autonomen Fahren, den wir verfolgen“, sagte Wang Xiaogang.

Ein reines durchgängiges autonomes Fahrmodell ist nicht die endgültige Antwort auf autonomes Fahren.“

Die Wahl der technischen Route ist der erste Schritt. Ende 2022 schlugen SenseTime und seine gemeinsamen Labore UniAD vor, das branchenweit erste universelle Modell für integriertes autonomes Fahren in Wahrnehmung und Entscheidungsfindung, und gewannen das beste Papier auf der International Conference on Computer Vision and Pattern Recognition (CVPR) 2023 nächstes Jahr.

Auf der diesjährigen Beijing Auto Show demonstrierte SenseTime Jueying die Ergebnisse des tatsächlichen Fahrzeugs von UniAD auf der Straße, das frei auf Stadtstraßen und Landstraßen fahren kann. Unmittelbar danach zeigte SenseTime auf der WAIC 2024 eine reale Fahrzeugdemonstration von UniAD auf komplexen Stadtstraßen, Landstraßen usw.

UniAD ist ein rein visuelles End-to-End-Modell für autonomes Fahren. Obwohl es die Fahrfähigkeiten des intelligenten Fahrsystems verbessert, ist das reine End-to-End-Modell für autonomes Fahren nicht die endgültige Antwort auf autonomes Fahren. Wang Xiaogang sagte, ein wichtiges Zeichen dafür, dass intelligente Autos superintelligent werden, bestehe darin, dass sie die Fähigkeiten zur Wahrnehmung, zum logischen Denken, zur Entscheidungsfindung und zur Interaktion in der offenen Welt weiter ausbauen. Aus diesem Grund hat SenseTime Jueying DriveAGI entwickelt, ein großes intelligentes Fahrmodell, das auf dem multimodalen großen Modell basiert.

Die Entwicklungsrichtung von DriveAGI besteht darin, durchgängiges intelligentes Fahren „interpretierbar und interaktiv“ zu machen.

Die sogenannte Erklärbarkeit bedeutet, dass Fahrzeuge nicht nur in die Lage versetzt werden, die komplexe reale Welt besser wie Menschen zu verstehen, Einblick in die Verhaltensmotivationen verschiedener Verkehrsteilnehmer zu gewinnen, schnell verschiedene Verkehrsregeln zu erlernen, sich ständig ändernde Straßeninformationen zu erfassen, sondern auch das Fahren zu erklären Entscheidungsfindungsprozess für Benutzer.

Wenn beispielsweise ein Fahrzeug, das normalerweise auf der rechten Seite einer zweispurigen Straße fährt, mit DriveAGI ausgestattet ist, kann es einen von hinten herannahenden Krankenwagen sofort erkennen und feststellen, dass der Krankenwagen Vorfahrt hat. Daher wird beim ersten Mal beurteilt, ob auf der linken Straßenseite Platz für einen Spurwechsel vorhanden ist, und die rechte Straßenseite wird rechtzeitig auf die linke Seite gewechselt, um sicherzustellen, dass der Krankenwagen reibungslos und schnell vorbeifahren kann. Der gesamte Prozess ähnelt dem des menschlichen Gehirns. Es kann nicht nur verschiedene Situationen auf der Straße klar erkennen, sondern auch anhand von Verkehrsregeln denken und urteilen und die richtigen Fahrhandlungen durchführen.

Interoperabilität bedeutet, dass Benutzer DriveAGI nicht nur bitten können, ihren Entscheidungsprozess zu erklären, sondern auch das autonome Fahrverhalten durch Sprach- oder Gestenanweisungen steuern können. Beispielsweise weist die Navigation das Fahrzeug in Zukunft beim autonomen Fahren an, an der nächsten Kreuzung umzudrehen, um das Ziel zu erreichen. Der Fahrer weiß jedoch, dass vor ihm eine Abkürzung liegt, und kann direkt abbiegen. Dann muss er nur noch „Abbiegen“ sagen „Direkt links“ an das System senden. Das System führt diesen Befehl basierend auf den aktuellen Straßenverhältnissen aus.

Vom Black-Box-Betrieb und der unidirektionalen Ausgabe bis hin zur Interpretierbarkeit und Interaktivität besteht der entscheidende Trick darin, wie das Modell trainiert wird.

Das erste Element des Modelltrainings sind große Datenmengen und große Modellparameter. Musk hat zuvor über die Bedeutung von Daten für selbstfahrende Modelle gesprochen: 1 Million Videofälle sind kaum genug; unglaublich.

Wang Xiaogang sagte auch, dass die aktuelle Netzwerkstruktur nicht das Kerngeheimnis sei und die Netzwerkstruktur aller relativ ähnlich sei. Der Schlüssel liegt darin, wie unter ähnlichen Netzwerkstrukturen eine hervorragende Leistungsqualität erreicht werden kann. Dies hängt hauptsächlich davon ab, ob die Modellgröße groß genug ist und ob die Datenproduktionspipeline leistungsstark ist.

SenseTime engagiert sich seit zehn Jahren intensiv im Bereich der KI und wird in vielen Branchen eingesetzt, darunter urbane Intelligenz, Handel, medizinische Versorgung, Finanzen, autonomes Fahren und sogar industrielle Szenarien wie Stahl, Kohlebergbau und Elektrizität. und hat eine große Menge multimodaler Daten in verschiedenen Branchen gesammelt. Am 5. Juli demonstrierte SenseTime Jueying live auf der WAIC 2024, dass die auf der 200 TOPS+-Plattform montierte 8B-Modell-Car-End-Deployment-Lösung über 8 Milliarden Parameter verfügt.


SenseTime Jueying-Fahrzeugendseite 8B multimodale Modellleistung

Wenn die Quantität da ist, muss auch die Qualität gewährleistet sein. Wang Xiaogang sagte, dass wir uns nicht nur auf die Datenmenge und die Anzahl der Parameter des Modells konzentrieren können, selbst wenn die Datenmenge und die Parameter erhöht werden, werden die Fähigkeiten des Modells nur eingeschränkt.

Dann nannte er ein Beispiel: Bienen können in einer so komplexen Wabe so genau und so gut arbeiten, aber sie haben immer nur eine einzige Fähigkeit und können nur eine Sache. Das menschliche Gehirn ist anders. Nach Tausenden von Jahren der Evolution kann der Mensch Satelliten und Raketen in den Himmel schicken. „Das ist der Unterschied zwischen allgemeinen Fähigkeiten und exklusiven Fähigkeiten. Eine Biene macht ihr ganzes Leben lang, zwei Leben oder drei Leben lang, nur eine Sache. Genau wie ein Modell, wenn man ihm nur Daten über Menschen, Autos und Objekte füttert „Es kann dies nur für den Rest seines Lebens tun.“

Neben Daten ist die Bereitstellung leistungsstarker Rechenleistung heute der knappste und wettbewerbsfähigste Faktor.

SenseTime Jueying ist einer der wenigen großen Anbieter von Rechenleistung in der Branche. Ab 2018 begann SenseTime mit dem Aufbau einer Computerinfrastruktur und baute in Lingang, Shanghai, ein intelligentes Rechenzentrum AIDC. Es verfügt über 45.000 GPUs, um der Außenwelt große Modelltrainings- und Inferenzdienste bereitzustellen, und kann Modelle mit Hunderten von Milliarden oder sogar mehr trainieren Billionen Parameter. Mit der Unterstützung von AIDC hat die Betriebsrechenleistung von SenseTime Jueying 12.000 P erreicht. Es wird erwartet, dass die Spitzenrechenleistung bis zum vierten Quartal 2024 25.000 P erreichen wird.

Schließen Sie die White-Box-Lieferung nicht aus, denn nur wenn die Vegetation gedeiht, können wir ökologische Win-Win-Ergebnisse erzielen.“

Egal wie gut die Technologie ist, der Schlüssel liegt immer noch in ihrer Umsetzung.

Wang Xiaogang gab bekannt, dass die massenproduzierten intelligenten Fahrprodukte von SenseTime Jueying für mehrere Marken und Modelle wie GAC Aion LX Plus, Hezhong Nezha S, GAC Haopin GT und Hongqi High-Speed ​​NOA eingeführt wurden und auch andere Funktionen eingeführt wurden Gleichzeitig treibt Jueying die Auslieferung weiterer Modelle voran. Anfang Juni wurden GAC und FAW für die erste Reihe inländischer L3-Pilotprojekte ausgewählt und SenseTime Jueying stellte ihnen L3-orientierte Wahrnehmungsalgorithmen zur Verfügung. Darüber hinaus können die zahlreichen derzeit in Massenproduktion hergestellten intelligenten Fahrlösungen von SenseTime Jueying in Zukunft auf eine End-to-End-Architektur aufgerüstet werden.

Sie haben viele Kunden und Aufträge, aber die von SenseTime Jueying vertretenen Technologielösungsanbieter stehen vor einem Problem – der Selbstrecherche der Automobilhersteller.

Nehmen wir als Beispiel Tesla. Seine Besonderheit besteht darin, dass es über eine große Infrastruktur verfügt, wie z. B. Tausende von GPUs, und dass es jedes Jahr Millionen von Autos produziert und einen eigenen geschlossenen Kreislauf bildet.

Werden andere Autokonzerne diesem Beispiel folgen? Und kann es nachgeahmt werden? Wang Xiaogang sagte, dass selbst ein Unternehmen, das so mächtig und reich an Humanressourcen ist wie Microsoft, beschlossen habe, sein KI-Team abzuschneiden und stattdessen mit OpenAI zusammenzuarbeiten.

Gleichzeitig erklärte er, dass die sogenannte „Selbstforschung“ nicht bedeute, dass man alles von Anfang bis Ende selbst machen müsse. Der Schlüssel sei die Kontrollierbarkeit. „Solange die Kunden des Automobilherstellers alles, was passiert, verstehen und die Führung übernehmen und ihre eigenen Plattformen zur Iteration von Produkten nutzen können, ist das ausreichend.“

Daher tendierte SenseTime Jueying im Hinblick auf die Kooperationsmethoden in der Vergangenheit dazu, Code als Blackbox bereitzustellen, da er davon ausging, dass dies das wertvollste Gut sei. Aber Wang Xiaogang gab bekannt, dass SenseTime Jueying die White-Box-Lieferung jetzt nicht ablehnt. Denn selbst wenn der Code bereitgestellt wird, kann die Wettbewerbsfähigkeit durch tiefere Iteration und Zusammenarbeit schnell verbessert werden.

Darüber hinaus können Kooperationen den Autokonzernen auch dabei helfen, Geld zu sparen. „Wir haben mehr als 10 Milliarden in große Modelle investiert und dabei unsere eigene Infrastruktur, große Installationen und profitable Cloud-Dienste aufgebaut, um die Gewinnschwelle zu erreichen. Durch die Zusammenarbeit mit uns müssen Automobilhersteller diese Last nicht tragen. Teilweise enorme Investitionen.“ „Die Automobilhersteller müssen sich in diesen Bereichen nicht selbst engagieren, wir werden den Automobilherstellern entsprechende Ressourcen zur Verfügung stellen.“

Allerdings räumte er auch ein, dass eines der Probleme bei der Zusammenarbeit mit Automobilherstellern das fehlende Datenfeedback sei. Normalerweise beruht die Rückmeldung von Terminaldaten auf der Initiative des Automobilherstellers, was zu einer ineffizienten Dateniteration und einem ineffizienten Datenzyklus führen kann. Daher ist eine intensive Zusammenarbeit mit den Kunden der Automobilkonzerne besonders wichtig.

Durch die White-Box-Bereitstellung hilft SenseTime Jueying den Partnern von Automobilunternehmen, die Technologie großer Modelle zu verstehen und das Know-how zu beherrschen. Andererseits können OEMs als Partner Daten und Informationen mit Jueying teilen, die keinen Einfluss auf die Privatsphäre haben Die beiden Parteien werden es gemeinsam entwickeln, um die Produktiteration zu beschleunigen und ein wirklich benutzerzentriertes intelligentes, autonatives KI-Großmodellprodukt zu schaffen.

Auf der Grundlage der branchenweit führenden Rechenleistung und der weltweit führenden „Ririxin“-Fähigkeiten für große Modelle sowie durch ein tiefergehendes strategisches Kooperationsmodell wird SenseTime Jueying eine Win-Win-Situation mit vielen Partnern wie OEMs schaffen.

SenseTime Jueying hat die Veröffentlichungszeit für das End-to-End-Großmodell im Jahr 2025 festgelegt. Wang Xiaogang sagte, dass bei der Veröffentlichung von ChatGPT nicht alles perfekt gemacht wurde. Als GPT 3.5 beispielsweise Aufgaben erledigte, gab es viele Dinge, die es nicht konnte Gutes tun. Aber der Schlüssel ist, dass jeder die richtige Richtung gesehen hat. Es ist kein Problem, diesem Weg zu folgen, aber es wird noch ein paar Monate dauern. Das Gleiche gilt für End-to-End.

Gleichzeitig erklärte er zuversichtlich, dass die Benutzer mit Beginn der End-to-End-Massenproduktion von SenseTime Jueying im nächsten Jahr Dinge sehen werden, die zuvor in einigen Szenarien völlig unmöglich waren, und dass dies die neuen Funktionen sein werden, die entstehen werden.

Wu Xinzhou, Vizepräsident der Automotive-Abteilung von NVIDIA, erklärte einmal öffentlich, dass „End-to-End“ das letzte Lied der Smart-Driving-Trilogie sei. Auf dem Weg zum Ende verdient Shangtang Jueying Aufmerksamkeit und Erwartungen.