Nachricht

Dialog zwischen Lang Xianpeng und Jia Peng, einem Underachiever, warum hat er seine Arbeit vorzeitig abgegeben?

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Intelligentes Fahren, ein teures Rennen beginnt. Bestimmen Sie das Ranking und bestimmen Sie die Zukunft.

Text: Cheng Manqi Dou Yajuan
Herausgeber: Song Wei

Dr. Gu Junli, der für Tesla und Xpeng gearbeitet hat, sagte, dass Chinas Fortschritt in der intelligenten Forschung und Entwicklung mindestens 1,5 bis 2 Jahre hinter Tesla zurückbleibt. Lang Xianpeng, Vizepräsident von Lideal Zhijia, glaubt, dass die Lücke nicht so groß ist und dass Lideal in Bezug auf die Produkterfahrung höchstens ein halbes Jahr zurückliegt.

Ideal betont, dass sein Vorteil beim intelligenten Fahren darin besteht, dass es mehr Autos und mehr Daten gibt.“

Der Preiskampf tobt immer noch, und Chinas neue Automobilkräfte haben sich gemeinsam auf ein neues Schlachtfeld gedrängt – intelligentes Fahren, das voller Differenzen, Streitigkeiten und Verfolgungsjagden ist.

Nicht alle Autofirmen können sich dieses Ticket leisten. Die F&E-Investitionen in intelligentes Fahren begannen mit 3 Milliarden RMB und steigen von Jahr zu Jahr. Im Idealfall kostet das Mieten einer Karte heute 1 Milliarde Yuan pro Jahr und wird in Zukunft 1 Milliarde US-Dollar kosten.

Der Grund, warum die neuen Kräfte so verrückt sind und nicht hinterherhinken wollen, liegt darin, dass sie die enormen Fortschritte von Tesla FSD V12 (einer neuen Version des vollständig autonomen Fahrens, die Tesla im Januar 2024 mit der Massenförderung beginnen wird) gesehen haben, und das haben sie auch Wir haben die Auswirkungen intelligenter Fahrfunktionen auf Verbraucherentscheidungen gesehen. Im September letzten Jahres kündigte Huawei an, bis Ende des Jahres eine bildfreie Lösung auf den Markt zu bringen, die gleichzeitig landesweit eingesetzt werden könne. In nur einem Monat überstieg das monatliche Verkaufsvolumen, das sich im Tausenderbereich bewegte, die 10.000-Marke und erreichte am Jahresende die 30.000-Marke.

Nicht lange nachdem Huawei seinen radikalen Plan für intelligentes Fahren angekündigt hatte, hielt Ideal seine Herbststrategiesitzung 2023 ab und machte deutlich, dass intelligentes Fahren eine Kernstrategie ist und nicht verloren gehen darf. CEO Li will sagen: „Bis 2024 werden wir der absolute Marktführer im Bereich intelligentes Fahren sein.“

Seitdem hat Ideal die Iteration beschleunigt und ist an zwei Fronten vorangekommen: durch die Verwendung von NPN (Neural Prior Net, einem neuronalen A-priori-Algorithmus, der A-priori-Informationen einiger Straßen und Karten verwendet, um Straßenmerkmale zu identifizieren und die Abhängigkeit von hochpräzisen Karten zu verringern ), holen wir endlich auf. Ende letzten Jahres wurde im gleichen Zeitraum die NOA ohne Bilder vorentwickelt, und der interne Test mit Tausenden von Menschen begann Monate später wurde es im Juli dieses Jahres vollständig eingeführt.

In diesem Sommer gibt es keine Zeit zum Durchatmen, und neue Kräfte treten in die nächste Schlacht ein: End-to-End, ein Fachbegriff, den die meisten Verbraucher nicht verstehen und der zum Schlachtfeld für Militärstrategen geworden ist.

Die Bedeutung von End-to-End besteht darin, dass es intelligente Fahrforschung und -entwicklung in die KI-Ära bringt und nicht mehr auf viel manuelle Programmierung angewiesen ist. Solange mehr Daten zum Trainieren des Modells verwendet werden, wird das System weiterarbeiten stärker zu werden und möglicherweise bessere Leistungen als menschliche Fahrer zu erbringen. Musk glaubt, dass dies den Menschen dem völlig autonomen Fahren ein großes Stück näher bringt.

Ideal startete diese Woche einen tausendköpfigen internen Test der neuen Architektur „End-to-End + VLM (Visual Language Large Model)“ und nannte es ein fortschrittlicheres Ein-Modell und die weltweit erste Dual-System-Implementierung. Ein Modell bedeutet, dass die Wahrnehmungs- und Entscheidungsmodule des autonomen Fahrens alle durch ein Modell vervollständigt werden. Die Eingabe sind Sensordaten und die Ausgabe ist die Fahrtrajektorie.



Autonomes Fahren besteht aus drei Modulen: Wahrnehmung, Planung und Entscheidungsfindung sowie Kontrolle. Es beruht auf der Wahrnehmung zum „Sehen“, der Entscheidungsfindung zum „Denken“, wie man fährt, und dem Kontrollmodul zur Vervollständigung des Fahrverhaltens. Die End-to-End-Technologie reicht von der Wahrnehmung bis zur Entscheidungsfindung, und der gesamte Prozess wird mithilfe eines großen Modells implementiert.

Ungefähr zu dieser Zeit kündigte Weilai Anfang Juli die Massenproduktion von End-to-End-AEB (Notbremsfunktion) an. Xiaopeng bekräftigte diese Woche, dass es das einzige Automobilunternehmen der Welt sei, das die Massenproduktion von End-to-End-Großbremssystemen erreicht habe Das andere ist natürlich Tesla-Pull. Wenn man Zulieferer mit einbezieht, haben Huawei und Momenta in diesem Jahr die End-to-End-Einführung abgeschlossen.

Ideal wird erst 2021 mit der Entwicklung eines eigenen Smart Driving beginnen, zwei Jahre später als Weilai und Xpeng. Der aktuelle Fortschritt von Ideal ist wie ein Underachiever, der plötzlich die Antwort kennt und die Arbeit im Voraus abgibt.

Zu diesem Zeitpunkt sprachen wir mit Lang Xianpeng, Vizepräsident von Ideal Intelligent Driving, und Jia Peng, Leiter von Ideal Intelligent Driving Technology R&D. Sie erklären, wie dies erreicht wird.

Lang Xianpeng ist ein kluger Fahrer, der Schlüsselprojekte gerne nach der griechischen Mythologie benennt. Er ist ein Doktor der Mustererkennung und intelligenter Systeme. Zu den Kampagnen, die er in Ideal vollendete, gehören „Akropolis“, „Ilias“ und „Titan“. Im Jahr 2018 kam Lang Xianpeng von Baidu als Direktor für autonomes Fahren zu Ideal und wurde später zum Vizepräsidenten befördert.

Jia Peng ist ein junger Leiter der Technologieforschung und -entwicklung. Er war einer der ersten, der sich bei NVIDIA mit intelligentem Fahren befasste. Er sah, dass der Chipriese der erste war, der umfassende, groß angelegte Modelle des autonomen Fahrens vorschlug, stellte jedoch fest, dass nur Automobilhersteller diese wirklich umsetzen können.

Unternehmen, die sich voll und ganz dem End-to-End verschrieben haben, haben unterschiedliche Roadmaps und Fortschritte, aber sie haben ein gemeinsames Ziel und eine technische Richtung: letztendlich das autonome Fahren der Stufe L4 zu erreichen.

Wir sehen die heutige Begeisterung für intelligentes Fahren und End-to-End nicht nur aus technischem Glauben, sondern auch aus Wettbewerb, Benutzermentalität und Verkaufsrankings.

Es ist ein teures Rennen. Bei den Kosten handelt es sich nicht nur um die enormen Kosten für die Rekrutierung von Mitarbeitern, den Kauf von GPUs und die Schulung von Modellen. Bevor L4 wirklich realisiert wird, sitzt noch ein Mensch auf dem Fahrersitz. Sicherheit, Zuverlässigkeit und Stabilität sind die Prüfmaßstäbe des Nutzers für aktuelles intelligentes Fahren.

Leistungsschwache geben Papiere ab

„Spät“: Ideal wird erst 2021, später als Xpeng und NIO, mit dem selbst entwickelten intelligenten Fahren beginnen und befindet sich seit jeher in einer Aufholphase. Bis zu diesem Jahr wurde ohne Bilder direkt von NPN auf NOA umgestellt und dann diese Woche mit umfassenden internen Tests mit Tausenden von Menschen begonnen. Jemand fragte: „Warum haben die Underachiever ihre Papiere plötzlich früher abgegeben?“

Lang Xianpeng: Möglicherweise handelt es sich um einen Gegenangriff der Diaosi.

Wir haben letztes Jahr drei Generationen erstellt, von Graphen über NPN mit „Vorinformation“ bis hin zu Graphless. Im Juni dieses Jahres wurde die End-to-End-Architektur verifiziert und auch die schnelle und langsame Systemarchitektur vorgeschlagen. Das ist die Fähigkeit, Informationen für das tägliche Fahren schnell zu verarbeiten Das System ist VLM (Visual Language Model), also die Fähigkeit, komplexe Szenarien zu bewältigen.

Darüber hinaus ist unser End-to-End ein Modell, die Eingabe ist der Sensor und die Ausgabe ist die Fahrbahn, alles wird von einem Modell implementiert, ohne Regeln in der Mitte. Mit Ausnahme von Tesla haben andere Autohersteller End-to-End nur in einer bestimmten Verbindung implementiert.

„Spät“: Ihr erster wichtiger Fortschritt – von der NPN-Lösung zu „No Picture“, Sie haben im Oktober letzten Jahres mit der Verifizierung begonnen, im Februar dieses Jahres wurde es intern getestet und im Juli wurde es vollständig eingeführt. Es hat nur 4 Monate gedauert, bis der Wechsel abgeschlossen war. Wie haben Sie das geschafft?

Lang Xianpeng: Wir sind effizienter und schneller als andere. Es erspart zum Beispiel viel Entscheidungsprozess. Von der Entscheidung, was zu tun ist, über die Erstellung eines Plans bis hin zur Zusammenstellung des Teams kann es nur eine Woche dauern. Wenn es sich um ein traditionelles Automobilunternehmen handelt, kann der Projektstart drei Monate dauern.

„Später“: Was hast du dafür aufgegeben?

Lang Xianpeng: Vielleicht ist es ein persönlicher Bruch. Jeder kennt die Ziele des Unternehmens und wir haben keine Rückzugsmöglichkeit.

Jia Peng: Ich bin es auch gewohnt. Ich habe bei NVIDIA gekündigt und bin 2020 zu Ideal gekommen. Das Umfeld, mit dem wir immer konfrontiert waren, ist, dass wir leistungsschwach sind und jeden Tag von unseren Eltern gescholten werden.

„Später“: Ist dieser Elternteil Li Xiang?

Jia Peng: Es ist ein Benutzer.

„Später“: Es scheint, dass die Richtung Ihrer intelligenten Fahrtechnologie-Route ganz klar ist – es geht darum, von Tesla zu lernen. Wie haben Sie es konkret gelernt?

Lang Xianpeng: Jeder wird denken, dass Technologieforschung und -entwicklung Zeit braucht, aber was oft benötigt wird, ist nicht Forschungs- und Entwicklungszeit, sondern Zeit mit Versuch und Irrtum. Tesla ist in der Tat ein guter Maßstab, wenn es durch Versuch und Irrtum nicht gelingt, werden wir nicht aufgeben.

Die Weiterentwicklung und Iteration von Tesla FSD hat uns gezeigt, dass Erfolg auch ohne Bilder erzielt werden kann. Wählen Sie NPN oder kein Bild? Nachdem Tesla herausgekommen ist, haben wir uns für kein Bild entschieden und den Wechsel innerhalb weniger Monate vorgenommen.

Aber Teslas größte Inspiration für uns ist, wie man in der Forschung und Entwicklung zum autonomen Fahren von 0 auf 1 und von 1 auf 10 kommt. Tesla nutzte zunächst die Lösung des Anbieters Mobileye für intelligentes Fahren, stellte jedoch bald fest, dass der Anbieter seine Anforderungen nicht erfüllen konnte. Daher begann das Unternehmen 2016 mit der Selbstforschung, erlebte eine Schockphase und erzielte schließlich die Ergebnisse von Mobileye. Im Jahr 2019 entwickelte das Unternehmen einen eigenen FSD-Chip und verfügte über Hardware zur Unterstützung seiner KI-Forschung und -Entwicklung. Seitdem nutzt es im Wesentlichen KI-Funktionen für intelligentes Fahren.

„Später“: Der Kern von V12 ist durchgängig. Tatsächlich war die von Tesla Anfang 2023 eingeführte V11-Version bildlos.

Lang

Darüber habe ich auch mit Wu Xinzhou (ehemaliger Leiter von Xiaopengs intelligentem Fahren) gesprochen. Wir sind uns alle einig, dass der gesamte Prozess beschleunigt, aber nicht übersprungen werden kann. Jeder macht End-to-End, aber von Graph, NPN, keinem Graph bis End-to-End kann nicht jeder Schritt weggelassen werden. Wenn Sie diese Schritte überspringen, gehen Ihnen tatsächlich viele technische Kenntnisse verloren.

Wenn wir in der zweiten Hälfte des letzten Jahres nicht versucht hätten, eine NOA mit hundert Städten zu bauen, hätten wir kein so klares Verständnis für das Scheitern der NPN. Allein vom Maßstab her gibt es im Land nur 30.000 bis 400.000 Kilometer Autobahnen, dafür aber Millionen Kilometer in Städten. Wenn wir sie flächendeckend ausrollen wollen, wird diese Karte überhaupt nicht fertig sein.

„Später“: Aber Sie haben vorher gesagt, dass es bei der großen Entscheidung nicht um die Frage geht, ob man es kann, sondern darum, ob man es wagt.

Lang Xianpeng: Es ist nicht so, dass es nicht machbar ist, es wird ein Ressourcenkrieg sein. Wie auch immer, wenn Sie es tun wollen, werden Tausende von Menschen es verbreiten.

Jia Peng: Wir scherzen untereinander, dass sich diese Straße irgendwann in ein Kartenunternehmen verwandeln wird.

„Später“: Worauf haben Sie sich verlassen, um später schneller zu werden?

Lang Xianpeng: Organisatorische Effizienz war schon immer ein idealer Vorteil. Von NPN zu Graphless und dann zu End-to-End sind das große Umstellungen, aber wir haben es geschafft, sobald wir darum gebeten haben.

Die Effizienz der Zusammenarbeit zwischen Forschung und Entwicklung und Lieferung ist sehr wichtig. Die schwierige Aufgabe besteht darin, eine Wahl zu treffen, aber nach der Entscheidung muss die Lieferung dafür verantwortlich sein, die Untergrenze anzuheben. Auf der Strategiesitzung des Unternehmens in der zweiten Hälfte des letzten Jahres machte Li Xiang deutlich, dass RD (Forschung und Entwicklung) und PD (Massenproduktion und Lieferung) gemeinsam durchgeführt werden sollten. Nachdem die Forschungs- und Entwicklungsideen klar sind, wird es immer so sein Seien Sie zwei PD- und RD-Linien in unserem Team. Wir haben es im November und Dezember letzten Jahres geschafft, es war fast zur Auslieferung bereit. Im Februar wurde die Version 5.1 erstmals bereitgestellt und wird nun weiterhin ausgeliefert. und dann Beta 1, Beta 2 und Beta 3. Es ist gut poliert.

Jia Peng: Ich denke, es ist ein schnelles Ausprobieren. Unser Prozess ist: Finden Sie einen geschlossenen Bereich, überprüfen Sie das Paradigma in kurzer Zeit, erreichen Sie zunächst die Obergrenze dessen, was dieses Paradigma erreichen kann, und erweitern Sie es sofort nach außen, sobald der Bereich geräumt ist, fügen Sie gleichzeitig eine Sicherheitsrichtlinie hinzu und dann langsam Roll Es aus. Lassen Sie uns dieses Paradigma im ganzen Land testen, um zu sehen, ob es funktioniert. Wenn nicht, werden wir schnell Daten hinzufügen und Strategien ändern. Im Produktabnahmeprozess, vom Vogeleier über den Frühaufsteher bis hin zum internen Test mit Tausenden von Personen, lassen wir Benutzer mit uns zusammenarbeiten, um das Produkt zu testen und zu iterieren.

„Später“: Es klingt sehr riskant. Wie konnten Sie so sicher sein, dass Sie diesen Prozess durchstehen würden?

Lang Xianpeng: Das Risiko ist sehr hoch, aber wir waren schon immer hier.

Unser erstes Auto, der Lideal ONE, nutzt die intelligente Fahrlösung von Mobileye. Später, als das Facelift Ideal ONE geliefert werden sollte, sagte Mobileye, dass es nicht mehr kooperieren würde und keine White-Box-Lieferung anbieten könne. Es war bereits 2021 und wir dachten, dass es definitiv nicht funktionieren würde, wenn wir die Technologie des assistierten Fahrens bis zu diesem Zeitpunkt nicht beherrschen würden. Also habe ich eine schwere Entscheidung getroffen: Ich muss es selbst tun. Wenn wir es nicht können, liegt das daran, dass wir inkompetent sind. Aber wenn wir heute zu schüchtern sind und trotzdem auf Zulieferer zurückgreifen, dann haben wir vielleicht keine Zukunft mehr.

Wir waren „gezwungen“, einen ganz anderen Forschungs- und Entwicklungsprozess zu entwickeln. Der Prototyp musste im März 2021 hergestellt werden, einen Tag vor der Ideal ONE-Startkonferenz Die zu behebenden Fehler wurden an diesem Morgen endlich abgeschlossen. Dies ist der Prototyp unseres aktuellen Prozesses: Überprüfen Sie zunächst einen kleinen Bereich, verbessern Sie dann die Funktionen, beheben Sie Fehler und stabilisieren Sie die Qualität.

Damals bestand das Team nur aus 100 Leuten und im ersten Monat verließen 40 Leute das Team. Jemand sagte zu mir: „Warum können wir in drei Monaten etwas liefern, wofür andere ein oder zwei Jahre brauchen? Machen Sie sich nichts vor.“

„Später“: Das Gleiche ist nicht abgebildet. Xiaopeng öffnete die Stadt letztes Jahr langsamer als Sie und hatte dieses Jahr mehr Tester. Xiaopeng sagte, dass er jedes Mal, wenn er in eine Stadt geht, mindestens vier Feldrunden durchführen muss Nur so kann die Sicherheit gewährleistet werden. Wie gewährleisten Sie die Sicherheit mit Ihrer Methode der schnellen Entwicklung, Lieferung und anschließenden Weitergabe von Vogeleiern an Tausende von Menschen zur internen Prüfung?

Lang Xianpeng: Die aktuelle Bewertungsmethode autonomer Fahrsysteme unterscheidet sich stark von früher. Beim vorherigen intelligenten Fahren wurden zunächst Funktionen entworfen und dann entwickelt, und die Funktionen wurden einzeln getestet, um sie zu verifizieren. Heutzutage basiert datengesteuertes autonomes Fahren eher auf Fähigkeiten als auf Funktionen. „Fähigkeit“ kann nur durch „Untersuchung“ bewertet werden.

Für die Prüfung verwenden wir den Weltmodell- und Schattenmodus. Das Weltmodell wird rekonstruiert und in eine reale Szene umgewandelt, in der das Auto fährt. Dies entspricht einem Simulationstest zur Bewertung der Fähigkeiten im Forschungs- und Entwicklungsprozess. Nachdem Sie den Probetest bestanden haben, nutzen wir den Frühbuchertest, interne Testfahrzeuge und den Schattenmodus, um den echten Autotest zu absolvieren. Wenn Sie durchfallen, werden wir so lange iterieren, bis Sie ihn bestehen.

„Spät“: Wenn es eine Antwort auf die Satzzusammensetzung gibt, können Sie im Idealfall schneller laufen als andere, aber die Antwort wird nicht immer verfügbar sein und die meisten technischen Fragen können offene Fragen sein.

Lang Xianpeng: Was Sie heute sehen, ist die sogenannte Vorschlagszusammensetzung. Wir holen schnell auf, aber nachdem wir aufgeholt haben, sind wir möglicherweise schneller, weil das gesamte System eingerichtet ist.

Das bedeutet nicht, dass wir erst 2021 mit der Selbstforschung beginnen, um Produkte zu liefern, die schlechter sind als die unserer Mitbewerber. Vom ersten Tag an müssen wir uns mit den besten Schülern der Klasse messen. Das bedeutet auch, dass ich definitiv nicht von ihm lernen kann, wenn ich die Lernmethode des anderen zum Lernen nutze. Also müssen wir die Dinge einfach auf unsere eigene Art machen.

Am Rande des Niemandslandes

„Später“: End-to-End ist kein neues Konzept. Nvidia und Waymo haben beide vor einigen Jahren End-to-End vorgeschlagen, aber warum war Tesla derjenige, der dies umsetzte und förderte?

Jia Peng: Weil es nicht nur technische Ideen vorstellt, sondern auch allen die Ergebnisse der Nutzung zeigt.

Lang Xianpeng: Viele Leute bei Tesla haben es gesehen, weil sie es geglaubt haben, aber noch mehr Leute haben es geglaubt, weil sie es gesehen haben.

„Spät“: Wenn Tesla den vor uns liegenden Weg nicht erkundet hätte, wäre das Ideal dann länger zurückgeblieben?

Lang Xianpeng: Rein algorithmisch kamen wir zu spät, weil die ursprünglichen Bedingungen und Ressourcen nicht ausreichten. Aber es ist noch nicht zu spät, Daten zu sammeln und ein Forschungs- und Entwicklungssystem aufzubauen, damit wir aufholen können.

Von Anfang an waren wir uns über die Philosophie von Tesla im Klaren: Datengesteuert ist richtig, deshalb werden wir die F&E-Infrastruktur entsprechend aufbauen. Bei der ersten Generation von Ideal ONE im Jahr 2019 haben wir ein Daten-Closed-Loop-System aufgebaut – Poseidon, eine Reihe von Toolketten zum Sammeln, Mining, Kennzeichnen und Trainieren von Daten. Wir verfügten zu diesem Zeitpunkt nicht über die Ressourcen, um eigene Recherchen durchzuführen, aber wir platzierten zusätzlich eine zusätzliche Kamera neben der Kamera von Mobileye, um Probleme zu sammeln und zu analysieren.

Tritt beispielsweise während einer Probefahrt ein Problem auf, besteht die traditionelle Methode darin, dass die Person an Bord das Problem aufschreibt und dann weiterfährt, bis sich die gleiche Szene wiederholt. Es ist ein Problem aufgetreten. Die Daten können wieder im Hintergrund synchronisiert werden. Der Test ist noch nicht abgeschlossen, die Daten wurden analysiert und das Problem wurde sogar gelöst. Wofür traditionelle Unternehmen mehrere Tage oder sogar eine Woche benötigen, können wir wahrscheinlich in einer Stunde erledigen.

In Bezug auf die Datenakkumulation beträgt die Gesamtfahrleistung des autonomen Fahrens durch ideale Benutzer mehr als 2 Milliarden Kilometer, wovon fast 1 Milliarde Kilometer von NOA gefahren wurden. Tesla hat es früh geschafft, hat eine größere Kundenzahl und eine längere Laufleistung.

„Später“: Liegt das eher auf Li Xiangs Beharren oder auf Ihrer Seite?

Lang Xianpeng: Wir sind uns einig. Als ich 2018 zu einem Vorstellungsgespräch zu Ideal kam, fragte mich Li Xiang: Was ist das Hauptproblem, das gelöst werden muss, um L4 endlich zu verwirklichen? Ich sage Daten – ohne ein Daten-Closed-Loop-System, egal ob es sich um eine Probe oder eine Frage handelt, ist die Analyseeffizienz nicht hoch. Menschen können abbauen und Algorithmen entwickeln, aber wenn das Datenproblem nicht gelöst wird, wird es definitiv nicht gut gemacht.

„Später“: Weilai hat vor nicht allzu langer Zeit End-to-End-AEB in Massenproduktion hergestellt; Was sind die End-to-End-Unterschiede zwischen den einzelnen Unternehmen?

Jia Peng: Die aktuelle Architektur von Xpeng 5.2 ähnelt der von Wutu, die wir gerade im Juli eingeführt haben. Wahrnehmung ist ein Modell, Entscheidungsfindung ist ein Modell, und sie sind in der Mitte miteinander verbunden. Auch das von Huawei veröffentlichte ADS 3.0 ist durchgängig segmentiert.

Tesla ist ein Modell von der Wahrnehmung bis zur Entscheidungsfindung. Unsere neueste Version integriert außerdem Wahrnehmung und Entscheidungsfindung in einem Modell und hat diese Woche mit dem Testen mit Tausenden von Menschen begonnen.

„Spät“: Was ist der Unterschied zwischen dem End-to-End-Modell und dem segmentierten End-to-End-Modell eines Wahrnehmungs- und Entscheidungsmodells? Wer hat die Nase vorn?

Lang Xianpeng: Es kommt immer noch auf das Ziel an. Das segmentierte Modell eignet sich besser für unterstütztes Fahren auf L2+-Niveau, während das einzelne Modell tatsächlich autonomes Fahren auf L3- und L4-Niveau beherrscht.

Denn obwohl das segmentierte End-to-End innerhalb des Entscheidungsmoduls einige Regeln durch datengesteuerte Regeln ersetzt hat, gibt es im gesamten Prozess immer noch Regeln. Es ähnelt im Wesentlichen der vorherigen intelligenten Fahrarchitektur sowie der Forschung und Entwicklung Der Prozess ist ebenfalls ähnlich, immer noch in Module unterteilt. Das eine Modell enthält keine Regeln. Die Sensordaten kommen rein und die geplante Flugbahn kommt rein datengesteuert heraus.

„Später“: Können Sie in einem Satz erklären, was den größten Wert von End-to-End darstellt?

Jia Peng: Aus der Sicht des Benutzers wird das Fahrverhalten menschlicher und die detaillierte Steuerung ist reibungsloser. Aus Forschungs- und Entwicklungsperspektive ist die Iteration effizienter.

Lang Xianpeng: End-to-End ist das erste Mal, dass reine Daten zur Förderung des autonomen Fahrens verwendet werden. Die Forschungs- und Entwicklungsmethode hat sich von der Entwicklung von Funktionen und Szenarien zur Verbesserung der Systemfähigkeiten geändert Solange das System weiterhin stärker wird, wird es eine Leistung aufweisen, die die Erwartungen übertrifft.

„Spät“: Wie kann man ein intelligenteres Modell in kürzerer Zeit trainieren?

Jia Peng: Daten, insbesondere qualitativ hochwertige Daten, sind sehr wichtig. Wir haben die besten Daten aus 20 Milliarden Kilometern Daten von 800.000 Autobesitzern herausgesucht, mehr als 1 Million Kilometer Daten trainiert und bis zum Jahresende die 5-Millionen-Kilometer-Marke überschritten.

Die zweite ist die Trainingsmethode, die wir durch Nachahmungslernen ergänzen, um dem Modell mitzuteilen, was falsch ist.

Lang Xianpeng: Das Letzte ist die Rechenleistung. Die ideale GPU hat die Rechenleistung, die 5.000 A100 und A800 entspricht. Wenn Sie eine Karte mieten, kostet das 1 Milliarde pro Jahr, was gesunde Gewinne erfordert.

„Später“: Sie haben wiederholt betont, dass Sie aufholen können, weil Sie über Daten verfügen, aber diese Woche sagte He Xiaopeng: „Wenn jemand sagt, dass es viele Autos und viele Daten gibt“, um autonomes Fahren durchführen zu können, „Glauben Sie es nicht, es ist absoluter Unsinn.“

Lang Xianpeng: Wir hoffen auch, dass jeder Produkte objektiv behandeln kann. Aber wir befinden uns immer noch in der Zeit, in der Edison und Tesla bewiesen haben, ob Gleichstrom oder Wechselstrom besser ist. Eine Person hat Wechselstrom für Stromschläge verwendet, und die andere hat gezeigt, dass es in Ordnung ist, Wechselstrom zu verwenden, um durch den menschlichen Körper zu fließen.

„Später“: Tesla hat die meisten Daten und die größte Investition in Rechenleistung. Bedeutet das, dass es nicht zu übertreffen ist?

Jia Peng: Die aktuelle Einschränkung von Tesla liegt in der Hardware, da die Rechenleistung von HW 3.0 (Teslas intelligente Fahrhardware der dritten Generation) 144 TOPS beträgt und die unterstützten Modellparameter nicht besonders groß sind, wenn Sie zu viele Daten hinzufügen. Katastrophales Vergessen“. Aus diesem Grund sind nach dem Update auf V12.4 einige Szenen besser geworden, während andere schlechter geworden sind, wie zum Beispiel leere Szenen, die anfangen, zufällig die Spur zu wechseln.

„Später“: Aber aus einer anderen Perspektive betrachtet kann FSD reibungslos auf HW 3.0 laufen, das 2018 eingeführt wurde, was zeigt, dass Tesla über eine starke Fähigkeit verfügt, Software und Hardware zu kombinieren.

Jia Peng: Es ist wirklich stark. Ich denke jedoch, dass der Markteintritt von FSD in China vor Herausforderungen steht. Erstens sind die meisten Straßen in den Vereinigten Staaten relativ einfach; zweitens kann Tesla Informationen zur Straßentopologie in den Vereinigten Staaten erhalten, die in China nicht verfügbar sind. FSD ist also eigentlich eine Light-Karte, und wir sind wirklich kartenlos, ohne vorherige Karteninformationen.

„Spät“: Im Juli dieses Jahres sagte Dr. Gu Junli, der für Tesla und Xpeng gearbeitet hat, dass „Teslas Forschungs- und Entwicklungsfortschritt dem inländischen intelligenten Fahren 1,5 bis 2 Jahre voraus ist.“ sind Sie einverstanden?

Lang Xianpeng: Ich stimme nicht zu.

Die nicht abgebildete Version stellt die Obergrenze der Regeln dar. End-to-End stellt die Obergrenze der Datensteuerung dar, es gibt keine Regeln, sondern nur ein Modell. Allerdings ist autonomes Fahren nicht ohne Bilder und durchgängig zu erreichen, da es immer noch das Long-Tail-Problem löst und Situationen, die es noch nie zuvor erlebt hat, nicht bewältigen kann. Um L4 zu erreichen, muss das System lernen, mit unbekannten Szenarien umzugehen. Wir glauben, dass diese Fähigkeit durch VLM und nicht durchgängig gelöst werden muss.

Unsere neue Architektur ist also End-to-End + VLM. Ersteres ist System 1 für schnelles Denken – die Bewältigung der meisten Fahrszenarien, die eine schnelle Reaktion erfordern; letzteres ist System 2 für langsames Denken und langfristige Entscheidungsfindung – es kann lernen Erlernen Sie den gesunden Menschenverstand für den Umgang mit unbekannten Situationen, wie z. B. das Erkennen unsichtbarer unregelmäßiger Ampeln, verschiedener Arten von Fahrbahnmarkierungen durch Gezeiten, Merkmale in der Schulumgebung usw., und teilen Sie dem Auto im Voraus mit, dass es weder einfahren noch abbremsen kann.

System 1 + System 2, das Ideal ist, der Erste zu sein, der diese Architektur baut.

Jia Peng: Den öffentlichen Informationen nach zu urteilen, verfügt Teslas aktuelle technische Architektur nicht über VLM.

„Spät“: Wayve, ein britisches Unternehmen für autonomes Fahren, an dem Nvidia und SoftBank beteiligt sind, brachte im April dieses Jahres Lingo-2 auf den Markt. Wurden Sie von Wayve inspiriert?

Lang Xianpeng: Es gibt kein System 1. Wayves Lingo-2- und Cloud-Modelle sind multimodale große Sprachmodelle, ähnlich wie VLM. Die Idee ist, dass ein Modell System 1 plus System 2 löst. Bei der Massenproduktion stellt sich jedoch heraus, dass die Rechenleistung von Orin vorhanden ist und das große Modell von System 2 nicht unterstützen kann. Wayve kann dies tun, da es sich nicht um ein Massenfahrzeug handelt und zum Ausführen von Lingo-2 ein Server auf der Rückseite des Fahrzeugs erforderlich ist.

Jia Peng: Unsere früheste Inspiration waren die Robotersysteme RT-1 und RT-2 von Google, bei denen es sich um ein VLA-Modell (Visual-Language-Action) handelt und dessen endgültiges Verhalten ebenfalls vom Modell ausgegeben wird. Es könnte das Endspiel sein: Wenn meine Hardware gut genug ist, kann ich VLA theoretisch in Echtzeit ausführen.

„Später“: Die Inspiration kam also nicht aus der Automobilindustrie, sondern aus der Robotik?

Lang Xianpeng: Weil wir autonomes Fahren als eine typische Anwendung künstlicher Intelligenz betrachten. Diese Dual-System-Lösung schlägt tatsächlich eine universelle verkörperte Intelligenzarchitektur vor, die autonomes Fahren im Auto und intelligenten Roboter im Roboter darstellt.

„Spät“: Die von Ihnen vorgeschlagene „End-to-End + VLM“-Architektur, erstere ist von Tesla und letztere von Google RT inspiriert, und das VLM-Papier ist eine Zusammenarbeit mit der Tsinghua-Universität. Bedeutet das, dass Sie in dieser Phase eher an Kombinationsinnovationen gewöhnt sind?

Lang Xianpeng: Bei der Zusammenarbeit mit Professor Zhao Xing von der Tsinghua-Universität kollidierten unsere Meinungen, und nicht er war es, der die Meinungen vorschlug, sondern wir, die sie umsetzten.

„Später“: Sie betrachten autonomes Fahren als Teil der universellen verkörperten Intelligenz. Gibt es auch Skalierungsgesetze und glauben Sie an Skalierungsgesetze?

Lang Xianpeng: Die End-to-End-Skalierungsgesetze werden nicht besonders offensichtlich sein, da die Parameter begrenzt sind und Dutzende Millionen Daten ausgefüllt werden können. Wenn Sie weitere Daten hinzufügen, werden diese möglicherweise vergessen Ich sehe dieses Phänomen bereits ab Tesla FSD V12.4.

Aber die Skalierungsgesetze von VLM existieren definitiv und es können Dutzende Milliarden oder sogar Hunderte Milliarden Parameter erreicht werden. Solange genügend Daten und ausreichend große Parameter vorhanden sind, steigt die Leistung. Dieser Weg ist für uns sehr attraktiv.

„Spät“: Wenn VLM schnell genug laufen kann und eine ausreichend niedrige Latenz im Auto hat, ist dann System 1 nicht erforderlich?

Jia Peng: Theoretisch ja. Jetzt kann unser VLM 3,4 Hz im Auto erreichen (Hinweis: HZ ist die Anzahl der periodischen Ereignisse, die pro Zeiteinheit auftreten. Je größer der Wert, desto kleiner die Verzögerung. Es handelt sich um ein Modell mit 2,2 Milliarden (2,2 Milliarden) Parametern). Um Ende-zu-Ende ersetzen zu können, muss es mit mehr als zehn Hz laufen, was einer Verzögerung von 100–200 Millisekunden entspricht, was der menschlichen Reaktionsgeschwindigkeit entspricht. Bestimmte Szenarien erfordern höhere Latenzanforderungen, beispielsweise AEB (Notbremsung).

„Später“: Wie einzigartig ist diese Struktur? Huawei spricht auch von System 1 und 2; Xiaopengs „Large Language Model XBrain“ befasst sich ebenfalls mit unbekannten Szenarien. Ist es dem System 2 ähnlich, über das Sie sprechen?

Lang Xianpeng: Wir sind die ersten, die duale Systeme in der Branche vorschlagen, und unser VLM wird auf dem massenproduzierten Autochip Orin X eingesetzt. Frühere ähnliche Versuche anderer Unternehmen erfolgten auf Industriecomputern.

Unabhängig davon, ob es sich um ein End-to-End-Modell oder um VLM handelt, wurde diese Architektur bereitgestellt und wird von Tausenden von Menschen getestet.

„Später“: Sie haben auch erwähnt, dass Sie an einem Cloud-Weltmodell arbeiten. Welche Rolle spielt das in der gesamten Architektur?

Jia Peng: Das ist unser System 3. Das Cloud-Weltmodell macht zwei Dinge: Erstens kann VLM aus dem Cloud-Weltmodell destilliert werden, bei dem zunächst ein sehr großes Modell in der Cloud trainiert wird, z. B. der kürzlich von Meta veröffentlichte 400-B-Parameter Lamma 3.1, und dann ein destilliert wird 8-B-Modell Das funktioniert besser, als 8-B-Modelle von Grund auf zu trainieren.

Zweitens kann das Weltmodell die Fähigkeiten von System 1 und System 2 untersuchen. Bei der Durchführung kartenloser End-to-End-Tests haben wir festgestellt, dass eine landesweite Überprüfung sehr schwierig ist. Es gibt 10 Millionen Straßenkilometer, für deren Tests wir bisher nur Arbeitskräfte bereitstellen konnten.

„Spät“: Auch Tesla arbeitet an einem Weltmodell. Aber braucht die Branche so viele Weltmodelle? Schließlich haben wir nur eine Welt.

Lang Xianpeng: Auf dem Weg von 0 auf 1 wird es viele Wege und Versuche geben. Genauso wie wir nicht so viele Elektrofahrzeugmarken brauchen, aber zu Spitzenzeiten sind es Hunderte.

„Später“: Die Branche glaubte bisher, dass Chinas Smart-Driving-Rankings Huawei, Momenta, Xpeng und Ideal seien. Wann wird dieses Ranking neu geschrieben? Und was ist der nächste Punkt, der die Smart-Driving-Rangliste verändern wird?

Lang Xianpeng: Es wurde neu geschrieben. In Zukunft wird jedes Team ins Niemandsland gehen: Wenn Wutu das Problem löst und landesweit geöffnet werden kann und eine End-to-End-Öffnung für das ganze Land möglich ist, dann ist der nächste Schritt L4.

Wie kann man L4 in Massenproduktion herstellen? Am Anfang müssen hundert Blumen blühen, und dann wird es zusammenlaufen. Aber nicht alle werden an die gleiche Ausgangslage zurückkehren, denn die Kluft bei Daten und Rechenleistung wird immer größer.

Rückblick auf sechs Schlüsselschlachten des idealen und intelligenten Fahrens

„Später“: Ich habe gehört, dass du gut darin bist, Schlachten zu benennen.

Lang Xianpeng: Wir nehmen die Namensgebung ernst.

Das Smart-Driving-Team kämpfte in sechs Schlüsselschlachten. Die erste Schlacht war das Projekt Akropolis, dann das Projekt Ilias und das Projekt Odyssee, der erste und der zweite Teil von Homers Epos, und nach der Schlacht von Titan, dem neuen Gott besiegte die alten Götter. Kommen wir nun zum aktuellen Damokles-Projekt, einem End-to-End-Projekt. Wenn es nicht gut gemacht wird, wird das Damoklesschwert fallen.

„Spät“: Was sind die größten Herausforderungen und Belohnungen in jedem Kampf?

Lang Xianpeng:

  • Project Acropolis ist unser erstes Selbstforschungsprojekt – es liefert grundlegende Funktionen wie AEB, ACC Adaptive Cruise und Spurhaltung auf dem Ideal ONE, das im Mai 2021 veröffentlicht wurde. Diese Technologien sind ausgereift, aber wir haben nur 90 Tage Zeit, worauf es ankommt ist eine starke Ausführung. Von diesem Tag an dachten wir darüber nach, wie wir schnell aufholen könnten.
  • Im Jahr 2022 werden wir das Iliad-Programm starten und das Orin-X-Projekt auf dem L9-Modell liefern. Der vorherige Algorithmus auf Horizon J3 ist nicht mehr anwendbar und wir müssen das System auf Orin neu entwickeln. Aufgrund der Epidemie wurde auch die Chipversorgung unterbrochen, und Bosch war nicht in der Lage, genügend Winkel-Millimeterwellen-Radarchips bereitzustellen. Wir mussten uns dafür entscheiden, das Millimeterwellenradar zu entfernen und eine rein visuelle Lösung für die Erkennung des toten Winkels, die Vermeidung von Hindernissen und andere Funktionen zu verwenden. Letztendlich dauerte die Lieferung der Lösung drei Monate, mehrere Monate früher als die Zeit, die der Freund für die Lieferung von Orin brauchte.
  • Gleichzeitig mit Iliad war Jia Peng für die Entwicklung der Pro-Plattform auf Basis des Horizon J5 verantwortlich, dem Odyssey Project. Die größte Herausforderung ist der Mangel an Menschen. Zu diesem Zeitpunkt bestand das gesamte Team nur aus 500 Mitarbeitern. Im Jahr 2021 hatten sowohl Xiaopeng als auch Weilai Tausende von Mitarbeitern, und Huawei gab zu diesem Zeitpunkt an, mehr als 2.000 Mitarbeiter zu haben.
  • Im Jahr 2023 ist unsere Orin-Plattform relativ stabil geworden und hat hinsichtlich der Hardware Parität erreicht. Wir gehen davon aus, dass der nächste Kampf ein urbaner NOA-Kampf sein wird und nur diejenigen, die gewinnen können, in die erste Stufe aufgenommen werden können. Dies wird Projekt Titan genannt.
  • Das Golden Apple Project ist ein hundertstädtisches NOA, das auf der Shanghai Auto Show 2023 vorgeschlagen wurde. Es stammt ebenfalls aus der griechischen Mythologie, aber die goldenen Äpfel wurden von einem hundertköpfigen Drachen bewacht Nach den goldenen Äpfeln müssen wir die Köpfe des riesigen Drachen einen nach dem anderen abschneiden und alle Hunderte von Städten nacheinander vernichten.
  • Das Damokles-Projekt ist ein End-to-End-Projekt, das dieses Jahr gestartet wurde, was bedeutet, dass das Damoklesschwert fallen wird, wenn es nicht gut gemacht wird.

„Später“: Andere Unternehmen haben das Vierwinkel-Millimeterwellenradar nicht entfernt. Haben Sie die Auswirkungen auf die Sicherheit des Systems nach der Entfernung berücksichtigt?

Lang Xianpeng: Wir haben das Millimeterwellenradar aus zwei Gründen entfernt. Zum einen war die Lieferung von Bosch Corner-Radarchips unterbrochen und wir mussten eine Wahl treffen. Entweder Radar durch Vision ersetzen oder nicht liefern. Die zweite Möglichkeit ist die Technologieauswahl. Damals wollte Tesla eine rein visuelle Lösung einführen, die der Fähigkeit des Menschen, die Umgebung zu erkennen, näher kommt. Wenn an der Karosserie sowohl Winkelmillimeterwellenradar als auch visuelle Sensoren vorhanden sind und zwischen beiden ein Unterschied besteht, muss zur Beurteilung eine von Menschen geschriebene Regellogik verwendet werden, und es treten unweigerlich Fehler auf.

Ein weiterer zusätzlicher Vorteil besteht darin, dass die Technologie die Kosten senkt und etwa 500 Millionen Euro einspart.

Es ist jedoch sehr schwierig und riskant, mehrere Kameras als Ersatz für das Winkel-Millimeterwellenradar einzusetzen. Wir haben viele Tests durchgeführt und das Endergebnis ist, dass die Genauigkeit und Erfolgsquote etwas höher sind als die des Winkelradars.

„Später“: Sie haben das Problem der unzureichenden Ressourcen bereits erwähnt. Ist dieses Problem jetzt gelöst?

Lang Xianpeng: Bei unserem Herbststrategietreffen im vergangenen September haben wir „drei Hauptstrategien“ vorgeschlagen. Die erste Strategie ist die Strategie für intelligentes Fahren. Deshalb haben wir in der zweiten Jahreshälfte damit begonnen, viele Leute zu rekrutieren. Auch die Anforderungen und Erwartungen des Unternehmens sind gestiegen, egal ob es sich um hundert Städte oder andere handelt, es muss mit der Spitzengruppe mithalten.

„Später“: Smartes Fahren war also vorher keine ideale Kernstrategie?

Lang Xianpeng: Diesmal ist es offiziell klar.

„Später“: Liegt das daran, dass Sie erkennen, dass der Einfluss des intelligenten Fahrens auf den Produktabsatz zunimmt und die Distanz zwischen Ihnen und Huawei größer wird?

Jia Peng: Ja, die Herbststrategie 2023 wird also festlegen, dass wir in diesem Jahr idealerweise der absolute Marktführer im Bereich intelligentes Fahren sein werden, da wir davon ausgehen, dass die Autokauflogik der gesamten Branche zuerst intelligentes Fahren sein wird.

„Später“: Was hast du aus den sechs Schlachten gesammelt?

Lang Xianpeng: Wenn Sie gewinnen wollen, müssen Sie darüber nachdenken, wie Sie gewinnen können. Das heißt, beginnen Sie mit dem Ziel vor Augen, finden Sie die Notwendigkeit und finden Sie heraus, was getan werden muss, um ein Problem zu lösen. Beispiele dafür sind winkelentfernte Radar- und NPN-Grenzwertkarten.

„Spät“: Liegt der Ausgangspunkt der Ideale nicht im Wettbewerb? Zum Beispiel das letztjährige 100-Städte-Projektrennen.

LANG Dies war in diesem Frühjahr der Fall, was bei der Strategiesitzung von allen kritisiert wurde.

Später haben wir darüber nachgedacht, dass die gesamte Produktannahme und -lieferung auf der Benutzerbewertung basieren sollte.

„Später“: Wie gestalten Sie Ihre F&E- und Produktorganisation für intelligentes Fahren, um dem heutigen intensiven Wettbewerb standzuhalten?

Lang Xianpeng: Unser intelligentes Fahren ist eine horizontale und vertikale Organisation. Ich bin für die vertikale Geschäftsabteilung verantwortlich und mache Forschung, Entwicklung und Lieferung. Die Organisation, Ausführung und der Betrieb des Endprodukts, einschließlich externer Wettbewerbs-Benchmarks und Investitionen in F&E-Ressourcen, werden jedoch alle vom Intelligent Driving PDT (Product Development Team, einem funktionsübergreifenden Produktentwicklungsteam) übernommen.

Ich werde an der Formulierung einiger Talentstrategien und -pläne beteiligt sein. Sobald der Plan fertiggestellt ist, werden wir ihn konsequent umsetzen.

„Spät“: Im vergangenen Herbst stellte Ideal in großem Umfang Leute ein, das smart-Driving-Team wuchs von über 700 auf über 1.000 Leute, im Mai dieses Jahres entließ es weitere zwei bis dreihundert Leute Es wurden einige Mitarbeiter in Schlüsselpositionen abberufen. Was bedeutet es, innerhalb kurzer Zeit von der Einstellung von Mitarbeitern zur Entlassung und anschließenden Abberufung von Mitarbeitern überzugehen?

Lang Xianpeng: Das Wesentliche ist die Technologieiteration. In der Vergangenheit gab es im intelligenten Fahrsystem eine Vielzahl von Regeln, die eine manuelle Programmierung, Fortschrittsverwaltung und Tests erforderten. Aber bei End-to-End geht es eher um KI-Modelle, und die oben genannten Positionen wurden deutlich reduziert. Später wurden einige Personen zurückgerufen, meist aufgrund von Anpassungen aufgrund geschäftlicher Anforderungen. Tatsächlich bestand das intelligente Fahrteam von Tesla schon immer aus 200 bis 300 Personen und hat die weltweit größte autonome Fahrflotte geliefert.

„Spät“: Teslas End-to-End wurde zuerst intern von einem indischen Techniker, Dhaval Shroff, vorgeschlagen und von Grund auf übernommen. Verfügt eine ideale F&E-Organisation über den Boden für Bottom-up-Innovationen?

Lang Xianpeng: Tatsächlich kamen diese Ideen für VLM von unseren Vorforschungs- und F&E-Teams. Wir haben ein solches duales System nicht sehr früh geplant.

„Später“: Wie würden Sie Ihren Talentpool bewerten? Vor Xiaopeng gab es Wu Xinzhou und Weilai hatte Ren Shaoqing. Manche Leute glauben, dass es dem idealen Smart-Driving-Team schon immer an solchen technischen Experten gefehlt hat.

Lang Xianpeng: Auf dieser Ebene sind sowohl technische Fähigkeiten als auch die Fähigkeit, Ergebnisse zu erzielen, wichtig. Viele unserer technischen Leiter, darunter ich, Jia Peng und Wang Jiajia, haben 2014 oder 2015 am autonomen Fahren gearbeitet. Auch unsere Neuzugänge sind relativ stark vertreten. Die mehr als 200 neuen Absolventen gehören in diesem Jahr größtenteils zu den 50 besten Studierenden im QS100 (British QS World University Rankings). Und wir verfügen über Rechenleistung und Datenreserven, die den Boden für die Talententwicklung bilden.

„Später“: Obwohl Sie schon sehr früh in den Bereich des intelligenten Fahrens eingestiegen sind, haben Sie bei Baidu zunächst an kartenbezogenen Algorithmen gearbeitet, nicht am intelligenten Fahren selbst.

Lang Xianpeng: Baidus Erfahrung ist sehr wichtig. Diese Erfahrung hat mir vor nichts im Management Angst gemacht. Ich glaube, dass ich in kürzerer Zeit bessere Ergebnisse erzielen kann, wenn ich die richtige Methode finde.

Mein erstes Projekt bei Baidu ähnelte insofern der Selbstforschung der ersten Generation von Ideal, als der Zyklus äußerst eng war. Ich bin Ende April 2013 zu Baidu gekommen und das Street View-Projekt wird vier Monate später auf der Baidu-Konferenz vorgestellt. Zu Beginn bestand dieses Team nur aus vier Personen, und am Tag vor der Konferenz konnten wir den Start schließlich um Mitternacht abschließen.

Hier gibt es zwei Schlüssel. Eine besteht darin, neue Technologien zu nutzen. Bei Straßenszenen musste man Nummernschilder und Gesichter verwischen. Die herkömmliche Methode bestand damals darin, dies manuell zu tun, aber wir verwendeten einen visuellen Algorithmus, der schneller und genauer ist und eine Menge Leute erspart. Das andere sind Daten. Für diesen Algorithmus wollten wir ursprünglich mit den Teams von Yu Kai (späterer Gründer von Horizon) und Ni Kai (späterer Gründer von Heduo) von Baidu IDL zusammenarbeiten, aber ihr Algorithmus hatte in diesem Szenario nur eine Genauigkeit von 86 % Wir haben das Nummernschild zu 99 % selbst erstellt, zu 97 % aus Gesichtern. Der Schlüssel liegt darin, dass wir Zehntausende von Daten markiert haben.

Algorithmisch sind wir definitiv nicht so gut wie sie. Sie sind die Leute mit den besten Algorithmen der Welt. Dies ist jedoch nur eine Lücke von 80 bis 90 Punkten; wir haben eine Größenordnung mehr. Während des Interviews später wollte Li mich fragen: Was ist das wichtigste Problem bei der Lösung des autonomen Fahrens? Ich würde Daten sagen.

„Später“: In den letzten Jahren haben sich viele Menschen für den Weggang entschieden, weil sie dem Druck nicht standgehalten haben oder nicht daran geglaubt haben, dass ihre Ideale erreicht werden könnten. Warum sind Sie am Ende geblieben?

Lang

Jia Peng: Bevor ich zu Ideal kam, blieb ich fünf Jahre lang bei NVIDIA. Egal, ob es sich um End-to-End-Modelle oder große Modelle handelte, NVIDIA war der erste, der es vorschlug, aber es wurde damals nicht implementiert. Wenn ich bei einem Automobilhersteller einsteige, habe ich endlich die Möglichkeit, autonomes Fahren zu einem geschlossenen Kreislauf zu machen, was großartig ist.

Titelbildquelle: „Genius Gunner“