Nachricht

Li Auto Lang Xianpeng: Ohne einen Gewinn von 1 Milliarde US-Dollar können wir uns autonomes Fahren nicht leisten. 36Kr Exklusivinterview

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Interview|Li Qin und Li Anqi

Text |. Li Anqi

Herausgeber |. Li Qin

Anfang Juni, einen Tag vor seiner Rede auf dem Chongqing Automobile Forum, änderte Li Xiang, CEO von Li Auto, vorübergehend den Redeskript. Ursprünglich bereitete das Team ein Thema für ihn über künstliche Intelligenz vor, aber Li wollte über autonomes Fahren sprechen.

Li Xiang sagte bei dem Treffen, dass autonomes Fahren in Zukunft wie Menschen sein werde, mit der Fähigkeit, schnell zu reagieren und komplexe Ereignisse mit logischem Denken zu bewältigen. Die ideale Antwort lautet: End-to-End + visuelles VLM-Sprachmodell – das ist derzeit auch das heißeste Thema in der Branche des intelligenten Fahrens.

Einen Monat später veröffentlichte das Smart-Driving-Team von Li Auto eine detaillierte „End-to-End + VLM“-Lösung. Anders als die „segmentierte End-to-End“-Lösung inländischer Konkurrenten ähnelt die Lösung von Li Auto eher Tesla und heißt „One“. Model“, ein großes Netz.

Nach dem Eindruck der Außenwelt war das ideale Smart-Auto schon immer ein Verfolger. Während des heftigen Kaicheng-Kriegs in der Branche im letzten Jahr begann Ideal, häufig seinen Weg zu ändern, um mit dem Tempo der Branche Schritt zu halten: von der Verwendung hochpräziser Karten zu leichten Karten (NPN-Feature-Netzwerke) und dann zur Eliminierung hochpräzise Karten.

Lang Das Prinzip besteht darin, ob wir den Kern des Problems finden und uns dann für eine schnelle Lösung entscheiden können.“

Auch die Wahl des technischen Weges „Ende zu Ende“ ist eine Fortsetzung dieses Prinzips. Laut Lang Die Informationen seien beschädigt und die nachgelagerte Regulierung und Kontrolle sei begrenzt. „Dies erfordert viel Personal und Ressourcen“, um Schwachstellen ständig zu schließen.

Natürlich ist der Ressourceneinsatz immer noch ein zweitrangiges Thema. Das Kernproblem besteht darin, dass „das regelbasierte intelligente Fahrerlebnis eine Obergrenze hat und niemals anthropomorph sein kann.“

„End-to-End + VLM + Weltmodell“ ist das ideale Paradigma für die Implementierung künstlicher Intelligenz.

Vereinfacht ausgedrückt eliminiert die ideale End-to-End-Lösung die zahlreichen unabhängigen Module des ursprünglichen intelligenten Fahrsystems wie Wahrnehmung, Vorhersage und Planungssteuerung, die auf künstlichen Regeln basieren, und führt sie in einem großen neuronalen Netzwerk zusammen. „Geben Sie Sensordaten ein und geben Sie die geplante Flugbahn aus.“ schloss Lang Xianpeng.

Das visuelle Sprachmodell von VLM bietet ein End-to-End-Plug-in ähnlich wie ChatGPT. Die End-to-End-Frage lautet: „Welche Art von Daten geben Sie ihm, welches Verhalten wird es haben?“ Das visuelle Sprachmodell von VLM verfügt über die Fähigkeit, die Welt zu verstehen und logisch zu argumentieren. In komplexen Szenarien können End-to-End-Benutzer VLM-Fragen in Echtzeit stellen, und dieser wird relevante Fahrvorschläge machen.

Das Weltmodell ist ein riesiges falsches Testbuch, das durch Rekonstruktion + Produktion Simulationsdaten sowie vor Ideal akkumulierte reale Fälle generieren und „echte Testfragen + simulierte Testfragen“ bilden kann, um das End-to-End-Modell zu testen. Erst nachdem das Modell den Test bestanden und eine hohe Punktzahl erreicht hat, kann es den Benutzern beworben werden.

Intern werden diese drei Modelle als System 1, System 2 und System 3 bezeichnet. System 1 entspricht dem Echtzeit-Denkmodus im menschlichen Gehirn, System 2 entspricht dem logischen Denken im menschlichen Gehirn und System 3 ist ein Prüfungsmodell, das für die Übernahme der Trainings- und Lernergebnisse von System 1 und System 2 verantwortlich ist.

Die durchgängige intelligente Fahrtechnologie wurde von Tesla ins Leben gerufen. Im August 2023 demonstrierte Musk die Fähigkeiten der End-to-End-Version von FSD v12 in einer Live-Übertragung. Derzeit wurde FSD auf die Version v12.5 iteriert. Aber im Gegensatz zu Tesla führt Ideal zusätzlich zum End-to-End- und Weltmodell auch VLM-Funktionen für große Sprachmodelle ein.

Jia Peng erklärte gegenüber 36Kr, dass er eine Woche an der Ost- und Westküste der Vereinigten Staaten verbracht habe, um Teslas FSD zu testen, und festgestellt habe, dass selbst „End-to-End“ eine Obergrenze habe. An der Ostküste der Vereinigten Staaten, wo die Straßenverhältnisse komplex sind, wie etwa in New York und Boston, ist die Akzeptanzrate von Tesla deutlich gestiegen: „Die Anzahl der End-to-End-Modellparameter, die auf HW3.0 ausgeführt werden können, wird nicht erreicht.“ besonders groß sein, und auch die Modellkapazität hat eine natürliche Obergrenze.“

Die idealerweise konzipierte Rolle von VLM besteht darin, die Obergrenze von „End-to-End“ zu erhöhen. Es kann über Schlaglochstraßen und Schulen lernen, für Bauarbeiten, Kreisverkehre und andere Ereignisse verantwortlich sein und Entscheidungen für das End-to-End treffen -Endsystem in kritischen Momenten.

Sowohl Lang Xianpeng als auch Jia Peng glauben, dass VLM die größere Variable im idealen intelligenten Fahrsystem ist. Da die Parameter von VLM 2,2 Milliarden erreicht haben und die Reaktionszeit 300 Millisekunden beträgt, wird die Anzahl der Parameter, die von VLM bereitgestellt werden können, mehrere zehn Milliarden erreichen, wenn es einen Chip mit größerer Rechenleistung gibt, was den besten Weg zur Weiterentwicklung darstellt Autonomes Fahren L3/L4.

„VLM selbst verfolgt auch die Entwicklung der Technologie für große Sprachmodelle. Niemand kann beantworten, wie groß die Anzahl der Parameter letztendlich sein wird.“

Es ist nicht schwer festzustellen, dass Merkmale wie datengesteuerte und große visuelle Sprachmodelle dafür sorgen, dass die intelligente Fahrbranche an dem von Unternehmen wie OpenAI, Microsoft und Tesla initiierten Rechenleistungsspiel teilgenommen hat.

Lang Xianpeng hat an diesem Punkt kein Blatt vor den Mund genommen. Was alle vergleichen, ist die Menge und Qualität der Daten sowie die Rechenleistungsreserven. Hochwertige Daten basieren auf absoluter Datenskala; die Unterstützung des Trainings des L4-Modells erfordert etwa Dutzende EFLOPS an Rechenleistung.

„Kein Unternehmen ohne einen Nettogewinn von 1 Milliarde US-Dollar wird sich in Zukunft autonomes Fahren leisten können“, sagte Lang Xianpeng unverblümt.

Derzeit beträgt die Cloud-Computing-Leistung von Li Auto 4,5 EFLOPS, was den Abstand zum führenden Unternehmen Huawei schnell verringert hat. Laut 36Kr Auto hat Ideal kürzlich eine große Anzahl von NVIDIA-Cloud-Chips gekauft und „im Grunde alle Karten in den Händen von Channel-Händlern gekauft“.

CEO Li Xiang selbst hat auch einen Einblick in den Trend dieses Wettbewerbs: Ressourcen und intelligente Technologie nutzen, um Mitbewerber loszuwerden. Er ergreift oft die Initiative und fragt Lang Xianpeng: „Gibt es genügend Rechenressourcen? Nicht genug für Xie Yan (idealer CTO), um mehr zu bekommen.“

„Wir haben auch Autos und mehr Geld als andere. Wir haben auf diesem Weg eine große Chance, den Abstand zu unseren Gegnern zu vergrößern.“ Aus dem Finanzbericht geht hervor, dass die Barreserven von Li Auto im ersten Quartal dieses Jahres fast 99 Milliarden Yuan betrugen.

Ideal kann anhand interner Daten erkennen, dass der Geschäftskreislauf von Smart Driving erste Anzeichen zeigt. Anfang Juli begann Ideal mit der Auslieferung der 6.0 Smart Driving-Version, die landesweit an Benutzer der Max-Version des Smart Driving gefahren werden kann, und stellte fest, dass der Anteil des Lideal Max-Modells schnell 50 % überstieg mehr als 10 % jeden Monat. Wenn 2 % bis 3 % als normaler Jitter verstanden werden können, sind mehr als 10 % ein effektives Wachstum.“

Lang Xianpeng weiß auch, dass die Vision des autonomen L4-Fahrens zwar klar wird, der Umsetzungspfad sich jedoch nicht geändert hat: „Wir müssen dem Unternehmen schnell beim Verkauf von Autos helfen. Nur durch den Verkauf der Autos können wir Geld haben, um Karten für intelligentes Training zu kaufen.“ Fahren."

Wenn intelligentes Fahren auf dem zukünftigen Automobil-Schlachtfeld der Gewinner ist, handelt es sich offensichtlich um ein grausameres Ressourcenspiel. Ideal hat Vorabvorbereitungen getroffen, von der Top-Level-Strategie bis hin zur technischen Vorbereitung und den Ressourceninvestitionen.

Das Folgende ist ein Gespräch zwischen 36Kr Automobile und Lang Xianpeng, Vizepräsident für Forschung und Entwicklung von Ideal Intelligent Driving Technology, und Jia Peng, Leiter für Forschung und Entwicklung von Ideal Intelligent Driving Technology.

Apropos Obergrenze des intelligenten Fahrens: Ob es ein Bild gibt oder nicht, es ist eine homogene Architektur

36Kr Auto: Gab es eine interne Überprüfung? Wie kommt man vom Rückstand beim intelligenten Fahren schnell auf ein mit Huawei vergleichbares Niveau?

Lang Xianpeng: Tatsächlich meinen wir im Vergleich zu Xiaopeng, NIO und Huawei nicht, dass wir mehrere Köpfe haben und möglicherweise nicht einmal so viele Familien haben wie andere, aber wir fordern, realistisch zu sein. Manchmal habe ich das Gefühl, dass Menschen nicht nach dem Kern des Problems suchen. Wenn sie auf Schwierigkeiten stoßen, denken sie nur darüber nach, ob das, was sie jetzt tun, geändert und wiederholt werden kann.

Ob es beispielsweise Bilder gibt oder keine Bilder vorhanden sind, das größte Problem ist das Bild selbst. Ich habe schon viel an der Karte gearbeitet und möchte mich noch ein wenig mehr anstrengen. Tatsächlich möchte ich schnell in die nächste Phase der Forschung und Entwicklung investieren. Es hängt davon ab, ob wir das wesentliche Problem finden und uns entschließen können, es schnell zu beheben.

36Kr-Automobil: Das Ideal ist, landesweit kartenfreies intelligentes Fahren zu erreichen. Es gibt viele Versionen.

Lang Xianpeng: Letztes Jahr haben auf der Shanghai Auto Show alle damit begonnen, urbanes NOA zu machen. Jedes Unternehmen hat ähnliche Ideen für Autobahnen. Der erste Schritt besteht darin, zu prüfen, ob der Autobahnplan in Städten verwendet werden kann. Sie müssen den Kartenhändler fragen, für den es hochpräzise Karten gibt Städte, aber nur für etwa 20 Städte. Wir sagten, probieren Sie es zuerst aus.

Die iterative Aktualisierung des Plans und der Karte ist jedoch gebunden. Zu dieser Zeit arbeiteten wir in Wangjing, bauten Straßen, änderten Routen und wechselten sogar Ampeln. Wir mussten warten, bis AutoNavi die Zeichnungen wiederholte, bevor wir mit der Arbeit fortfahren konnten. Ungefähr im Juni letzten Jahres haben wir beschlossen, die Karte nicht zu überarbeiten und auf die NPN-Lösung (ein neurales Prior-Netzwerk) umzusteigen. Dies entspricht einer lokalen Kartierung, bei der NPN-Vorinformationen an wichtigen Kreuzungen, Kreisverkehren usw. verwendet werden, und unser Auto aktualisiert die Funktionen.

Aber in großen Städten wie Peking, Shanghai, Guangzhou und Shenzhen gibt es viele Autos, aber in kleinen Städten gibt es nur wenige Autos. Immer in einer Großstadt machen? Benutzer zahlen nicht dafür. Zu diesem Zeitpunkt war das Team noch zögerlich und Peking, Shanghai und Guangzhou liefen gut. Es gibt auch interne Stimmen, die sagen, dass wir statt hundert Städten ein paar erstklassige Städte bauen sollten. Huawei wird am Anfang jedoch nur in 50 Städten vertreten sein, wir müssen also nicht die ersten oder zweiten Städte sein.

Ich habe gesagt, dass das nicht möglich ist, und ich muss es trotzdem schnell machen. Ich möchte immer noch wissen, ob die NPN-Methode in Ordnung ist, wenn es wirklich in größerem Maßstab durchgeführt wird. Das ist das Problem, dass es bei Karten seit jeher Einschränkungen gibt, und es gibt auch Kritik, dass manche Städte nur zwei Straßen öffnen dürfen. Nachdem wir aus dieser Erfahrung gelernt hatten, begannen wir mit der Ausarbeitung von Plänen, nachdem wir im Dezember letzten Jahres die 100 Städte fertiggestellt hatten.

36Kr Auto: Was sind die Voraussetzungen für die vollständige Entwicklung einer graphenfreien NOA?

Lang Xianpeng: Ohne Bild gibt es immer noch ein Problem. Es stellt sich heraus, dass die Karte einige relativ genaue Informationen liefern kann. Nach dem Entfernen der vorherigen Informationen aus der Karte werden die Anforderungen an die Upstream-Wahrnehmung besonders hoch. Im Bereich der Downstream-Regulierung und -Steuerung erfolgte die Informationseingabe früher sehr regelmäßig, mittlerweile wird jedoch festgestellt, dass es einige Jitter-Probleme und Fehler gibt, und dies stellt auch eine große Herausforderung dar.

Um dies weiterhin zu tun, wird viel Personal erforderlich sein. Liegt beispielsweise ein Wahrnehmungsproblem vor, müssen viele Regeln zum Zwischenumgebungsmodell hinzugefügt werden. Wenn es Auswirkungen auf die spätere Regulierung gibt, können Regeln hinzugefügt werden, um dies auszugleichen. Dies stellt eine große personelle Herausforderung für das Team dar. So entstand Huawei ohne Bilder (Manpower-Vorteil). Ursprünglich wollten wir in der zweiten Hälfte des letzten Jahres mehr Leute einstellen.

Aber die Obergrenze dieser Sache liegt auf der Hand: Alle Regeln werden von Menschen gemacht und von Ingenieuren entworfen. Besonders im Januar und Februar dieses Jahres haben wir oft eine Regel geändert. Wenn dieser Fall gut funktioniert, funktionieren andere Fälle nicht. Das gegenseitige Engagement ist zu groß und endlos.

Natürlich ist die Investition von Ressourcen zweitrangig. Das Wichtigste ist, dass regelbasierte Erfahrung eine Obergrenze hat und niemals anthropomorph sein kann. Also sind wir zum aktuellen End-to-End und VLM übergegangen. Durchgängig ist es das erste Mal, dass künstliche Intelligenz für intelligentes Fahren eingesetzt wird.

36Kr Auto: Wann ist der ideale Zeitpunkt, um mit der Investition in End-to-End zu beginnen?

Lang Xianpeng:Wir haben immer zwei Arbeitslinien, eine ist die offene Linie für die Massenproduktion und -lieferung, letztes Jahr ist das NPN-Lichtbild zu keinem Bild die offene Linie und die End-to-End-Linie ist eine dunkle Linie, die unsere Vor- Forschungslinie.

Nur die Yanqi-Lake-Strategiekonferenz hat es letztes Jahr deutlich gemacht. Bei der Strategiesitzung erwähnte Li Xiang, dass autonomes Fahren unsere Kernstrategie sei und RD (Technologieforschung und -entwicklung) wichtige Meilensteine ​​erreichen müsse. Die End-to-End-Idee gibt es schon seit langem, aber es gab immer Druck, Ergebnisse zu liefern, und es gab keine Ressourcen, die es zu erkunden galt.

36Kr Auto: Wutu muss möglicherweise bald nach seiner Einführung durchgehen. Wie wird dieser Rhythmus berücksichtigt?

Lang Xianpeng: Zu Beginn des Jahres habe ich Li Xiang Folgendes gesagt: Obwohl wir End-to-End machen wollen, müssen wir es trotzdem ohne Bild machen. Denn woher würden die Daten und Erfahrungen für die End-to-End-Unterstützung ohne Graphen kommen?

Und es muss ohne Bilder hochgeladen werden, bevor das Auto problemlos verkauft werden kann. Wie kann es sonst mit Huawei konkurrieren? Jetzt, wo wir auf Wutu sind, versuchen wir, von Anfang bis Ende Zeit zu gewinnen und gleichzeitig unsere Produktfähigkeiten zu verbessern, um den Verkauf von Autos zu unterstützen.

36Kr Auto: Unterwegs haben Sie Ihre Pläne geleugnet. Gibt es Druck aus der Perspektive des Aufwärtsmanagements?

Lang Xianpeng:Nein. Erstens besteht meine Verantwortung darin, alle dazu zu bringen, autonomes Fahren zu verwirklichen. Zweitens hat eine ideale Organisation ihre eigene Methodik oder ihren eigenen Prozess, beispielsweise die richtigen, aber nicht einfachen Dinge zu tun. Das klingt nach Unsinn, ist aber von entscheidender Bedeutung.

Li Xiang würde niemals sagen, warum Lang Bo leugnete, was er zuvor getan hatte. Wir machten ihm klar, warum wir das taten, dass wir in der KI-Strategie gewinnen wollten und fanden ein Dual-System-Paradigma, das er sofort verstand. Er würde nur sagen, dass End-to-End großartig ist und schnell erledigt werden muss.

Was künstliche Intelligenz benötigt, sind Rechenleistung und Daten. Li Xiang kommt oft vorbei und fragt mich: Lang Bo, bist du stark genug? Wenn es nicht ausreicht, bitten Sie Xie Yan, Ihnen noch mehr zu besorgen.

Li wollte sagen, dass wir auch Autos und mehr Geld haben als andere, also haben wir eine große Chance, den Abstand zu anderen auf diesem Weg zu vergrößern. Machen Sie also keine Bastelei, sondern beeilen Sie sich und kümmern Sie sich um die KI dahinter.

Apropos Zukunft des intelligenten Fahrens: End-to-End + VLM ist das beste Paradigma für künstliche Intelligenz

36Kr: Einige Unternehmen haben noch nie No-Map gefahren und denken, dass End-to-End eine Gelegenheit ist, die Spur zu wechseln und zu überholen. Stimmt das?

Lang Xianpeng: Das ist halb richtig. Es ist tatsächlich möglich, die Spur von Ende zu Ende zu wechseln. Unabhängig davon, ob ein Graph, ein NPN oder kein Graph vorhanden ist, ist der Kern der Lösung homogen. Entfernen Sie die Karte, verbessern Sie die Wahrnehmung, stapeln Sie kleine Module zu mehreren großen Modellen und entwickeln Sie sich nach und nach nach demselben Plan weiter.

Aber End-to-End ist anders. Es nutzt erstmals künstliche Intelligenz für autonomes Fahren. Nach der Verwendung von One Model für die End-to-End-Erstellung besteht die Eingabe nur aus Daten, die Ausgabe erfolgt aus der Flugbahn und die Zwischenmodule werden in ein Modell integriert.

Das gesamte F&E-Prozesssystem ist völlig anders. Im traditionellen Produktentwicklungsmodell kommt die treibende Kraft aus dem Nachfragedesign oder dem Problem-Feedback. In diesem Szenario funktioniert es nicht. Nachdem ein Fehler aufgetreten ist, sind einige manuelle Entwurfsiterationen und -überprüfungen erforderlich.

End-to-End ist eine Black Box und ihre Fähigkeiten hängen vollständig davon ab, welche Art von Daten ihr zur Verfügung gestellt werden. Was wir jetzt filtern, sind die Daten erfahrener Fahrer. Wenn die Daten nicht gut sind, wird das erstellte Modell nicht gut sein. Was reinkommt, ist Müll, und was rauskommt, ist Müll. Es handelt sich um einen Trainingsprozess des Datenflusses. Früher war es ein Forschungs- und Entwicklungsprozess für Produktfunktionen, heute ist es ein Prozess zur Verbesserung der Fähigkeiten.

Es ist also kein Problem, die Spur von Ende zu Ende zu wechseln. Wenn Sie jedoch überholen möchten, müssen Sie über Daten und Trainingsrechenleistung verfügen. Wenn diese beiden Voraussetzungen nicht gegeben sind, hat ehrlich gesagt jeder das Modell und das Modell selbst wird nicht allzu unterschiedlich sein. Egal wie gut das Modell ist, ohne Daten und Rechenleistung ist es nur ein Haufen Parameter.

36Kr: Das Ideal ist, viele Daten zu sammeln, aber He Xiaopeng hat kürzlich die Idee vertreten, dass mehr Daten nicht bedeuten, dass autonomes Fahren erreicht werden kann.

Lang Xianpeng:Bei unseren Trainingsdaten handelt es sich um Clips, die vollständige Fahrdaten des Fahrers für mehrere zehn Sekunden enthalten, einschließlich visueller Sensoren, Fahrzeugstatusinformationen zu diesem Zeitpunkt und Betriebsdaten wie Gaspedal und Bremse.

Die Daten müssen jedoch von hoher Qualität sein, um nützlich zu sein. Was ist hohe Qualität? Gemeinsam mit unserem Team zur subjektiven Leistungsbewertung von Produkten und Fahrzeugen haben wir gemeinsam einen Standard namens „Human High-Quality Driver“ definiert. Manche Fahrer fahren jeden Tag und sind sehr geschickt, wenn sie immer plötzlich beschleunigen und abbremsen, AEB verwenden oder das Lenkrad plötzlich drehen.

Nach diesen Maßstäben sind nur 3 % unserer 800.000 Autobesitzer „menschliche Hochqualitätsfahrer“. Zusammen mit den zuvor gesammelten Hochqualitätsdaten werden schließlich Millionen von Clips gebildet, die allesamt die besten sind. He Xiaopeng hat recht, es werden zwar qualitativ hochwertige Daten benötigt, aber die Datenqualität basiert auf dem absoluten Umfang der Daten.

36Kr Auto: Muss das Datentoolsystem nach dem Ende-zu-Ende-Vorgang aktualisiert werden?

Lang Xianpeng: Die Werkzeugkette hat sich stark verändert. Zuvor handelte es sich um einen Produktfunktionsentwicklungsprozess, z. B. Benutzerübernahme, Datenübertragung, manuelle Analyse von Problemen und anschließende Codeänderung, tatsächliche Fahrzeugbewertung und Online-Freigabe. Dieser geschlossene Datenprozess ist bereits sehr effizient. Aber es wird auch mehrere Tage dauern und es wird viel Personal in Anspruch nehmen. Je mehr Tests es gibt, desto mehr Probleme wird es geben und desto mehr Leute müssen Änderungen vornehmen.

Der aktuelle Prozess besteht darin, dass, wenn ein Autobesitzer übernimmt, nach der Rückkehr der Daten automatisch ähnliche Szenen mithilfe des Weltmodells generiert und in eine Datenbank mit falschen Fragen umgewandelt werden. Überprüfen Sie auch, ob ähnliche Daten in der falschen Fragendatenbank vorhanden sind. Wenn nicht, stöbern Sie in der vorhandenen Datenbank und führen Sie ein gemeinsames Training durch.

Nach dem Training eines neuen Modells kehrt das Modell zum Weltmodellprüfungssystem zurück und wird zweimal getestet. Beim ersten Mal geht es darum, zu sehen, ob Sie die falschen Fragen richtig beantwortet haben, und beim zweiten Mal handelt es sich um eine Reihe echter Fragen, um Ihre Fähigkeiten zu testen. Wenn beide Male kein Problem auftritt, ist das Modell ausgefallen. Am äußersten Ende gibt es niemanden in der Mitte und es handelt sich um einen sehr automatisierten Prozess mit geschlossenem Regelkreis.

36Kr Auto: Der End-to-End-Trainingsprozess ist eine Black Box und es muss viel Code hinzugefügt werden, um die Details herauszufinden. Können Sie beurteilen, wie viel Arbeit damit verbunden ist?

Lang Xianpeng:Sehr wenig. Unser Codevolumen für die Version mit Grafiken beträgt etwa 2 Millionen Zeilen und für die Version ohne Grafiken sind es 1,2 Millionen. Die End-to-End-Gesamtmenge beträgt nur 200.000, was nur 10 % des Originals entspricht.

Es gibt tatsächlich einige versteckte Regeln, um dies zu kontrollieren. Da die Sensordaten durchgehend eingegeben werden und die geplante Flugbahn tatsächlich ausgegeben wird, kann es zu Problemen kommen. Daher werden wir einige strenge Regeln festlegen, um abnormales Steuerverhalten zu vermeiden, z. B. das Drehen des Lenkrads um 180 Grad.

36Kr Auto: Musk sagte, dass 300.000 Zeilen Code gelöscht wurden. Wenn es nach dem Push immer mehr Probleme gibt, wird der Code dann wieder hinzugefügt?

Lang Xianpeng: Ich glaube nicht, dass sich viel ändern wird. Die Hauptsache ist, dass wir die Fähigkeit haben, uns ständig zu iterieren.

36Kr Auto: Ideal hatte intern schon immer zwei Linien: Massenproduktion und Vorforschung. Der durchgängige Übergang von der Vorforschung zur Massenproduktion ist jetzt Vorforschung?

Lang Xianpeng: L4. Dies geht auf unser Verständnis von künstlicher Intelligenz zurück. Wir haben festgestellt, dass der aktuelle Ansatz ganz anders ist, wenn wir echtes autonomes Fahren erreichen wollen.

End-to-End, welche Art von Daten werden ihm gegeben, welches Verhalten wird er haben. Sofern entsprechende Daten nicht angegeben werden, erfolgt keine Bearbeitung. Aber die Leute sind es nicht. Wenn ich zum Beispiel in Peking fahre, kann ich auch in den Vereinigten Staaten fahren. Wenn wir wirklich autonomes Fahren erreichen wollen, muss das System Dinge wie Menschen verstehen und über die Fähigkeit zur Vernunft verfügen.

Wir haben untersucht, wie das menschliche Gehirn funktioniert und denkt. Im August und September letzten Jahres sahen Jia Peng und Zhan Kun die Dual-System-Theorie, die einen sehr guten Rahmen für das menschliche Denken darstellt. Gehen Sie davon aus, dass es sich bei der künstlichen Intelligenz um ein duales System handelt, das die Fähigkeit besitzt, schnell zu reagieren, und dass System 2 die Fähigkeit besitzt, logisch zu denken und mit unbekannten Dingen gut umzugehen.

Dies alles ist Teil des Tao, Dinge auf der theoretischen Ebene. Wenn es um autonomes Fahren geht, ist das End-to-End-Modell System 1 und System 2 das visuelle Sprachmodell von VLM. Dies ist die beste Lösung zur Realisierung künstlicher Intelligenz in der physischen Welt.

Wie messen Sie also die Fähigkeiten von System 1 und System 2? Wir haben auch ein Weltmodell, das intern eigentlich System 3 heißt. Unsere Verwendung des Weltmodells ist sehr klar. Es wird zum Testen von System 1 und System 2 verwendet.

Wir verfügen über eine echte Testbank, die echte Daten über Personen enthält, die normal fahren. Das Weltmodell ist ein generatives Modell, das andere Fragen generieren kann, indem es Schlussfolgerungen aus vorhandenen Daten zieht. Nachdem ein Modell trainiert wurde, stellen Sie die echten Fragen einmal und dann ein paar Sätze simulierter Fragen, um zu sehen, wie viel Sie erreichen. Jedes Modell hat eine Punktzahl. Je höher die Punktzahl, desto leistungsfähiger ist das Modell.

36Kr Auto: Unter welchen Umständen wird System 2 ausgelöst?

Lang Xianpeng: System 1 und System 2 funktionieren immer. Wenn einige Systeme komplexer sind, ist System 1 möglicherweise nicht leicht zu identifizieren, z. B. bei Überführungen, Pfützen und neu errichteten Zementböden. System 2 funktioniert in solchen Szenarien, seine Betriebsfrequenz ist jedoch niedriger, z. B. 3–4 Hz . System 1 läuft möglicherweise mit einer hohen Frequenz von mehr als zehn Hz. Ähnlich wie bei GPT stellt System 1 System 2 immer Fragen dazu, was zu tun ist, wenn dieses Szenario auftritt.

36Kr Auto: Hat System 2 VLM selbst Leistungsgrenzen?

Lang Xianpeng: Man kann es sich als ein großes Sprachmodell vorstellen. Einige große Sprachmodelle sind möglicherweise gut in Mathematik, andere sind möglicherweise gut im Codieren und verfügen über unterschiedliche Fähigkeiten. Wir konzentrieren uns darauf, fahrbezogene Gesetze, Lehrvideos und Lehrbücher für die Fächer 1–4 bereitzustellen. Unser VLM ist eigentlich ein großes Sprachmodell, das sich auf das Fahren konzentriert.

Kurzfristig verfügt es noch nicht über gewisse Kenntnisse, aber da sich der geschlossene Kreislauf immer schneller dreht, wird die Obergrenze seiner Fähigkeiten immer höher. Die aktuellen End-to-End-Parameter betragen nur über 300 Millionen und die VLM-Systemparameter liegen bei 2,2 Milliarden.

36Kr Auto: Die größere Variable in der Zukunft des intelligenten Fahrens ist also System 2?

Lang Xianpeng:Die zugrunde liegende Unterstützung ist System 1, aber wenn wir weitergehen, einschließlich des autonomen Fahrens auf L3L4-Ebene, müssen wir über sehr starke System 2-Fähigkeiten verfügen. Die aktuellen 2,2 Milliarden Parameter reichen möglicherweise nicht aus und es müssen weitere hinzugefügt werden.

Jia Peng: System 2 konzentriert sich hauptsächlich auf komplexe Szenen. Die Reaktionszeit von 2,2 Milliarden Parametern beträgt 300 mm. In schwierigen Szenen ist diese Inferenzzeit in Ordnung. Aber System 1 reicht definitiv nicht aus, es dauert etwa zehn Millisekunden.

36Kr Auto: Gibt es eine Obergrenze für Modellparameter? Etwa 8 Milliarden? Was sind die ungefähren Anforderungen an die Rechenleistung eines Chips?

Jia Peng:Genau wie beim großen Sprachmodell kann niemand beantworten, wie viele Parameter es hat.

Lang Xianpeng:Wir verfügen jetzt über sowohl Wissen als auch Fähigkeiten. System 1 und System 2 sind ein gutes Paradigma für künstliche Intelligenz, aber um es konkret umzusetzen, müssen wir es langsam erforschen.

36Kr Auto: Wenn sich das segmentierte End-to-End-Modell zu einem einzigen Modell entwickeln soll, müssen wir dann das Rad neu erfinden?

Jia Peng: Die Herausforderung ist ziemlich groß. Unser graphloses Modell entspricht dem segmentierten Modell mit nur zwei Modellen. Aber erstens ist die technische Herausforderung relativ groß, denn die traditionellen sind alle weg. Wie trainiere ich das Modell, um gute Ergebnisse zu erzielen? Die zweite ist die menschliche Herausforderung. Wie können zwei Gruppen von Menschen mit unterschiedlichem Wahrnehmungs- und Kontrollhintergrund zusammenarbeiten, um ein Modell aufzubauen?

Auch unser Team kämpft und wirft sich hin und her. Wenn es um End-to-End geht, haben sich möglicherweise die Rollen vieler Menschen geändert. Leute, die früher Ingenieure waren, könnten Daten und Szenarien definieren. Die Rolle zu wechseln ist eine ziemliche Herausforderung.

Apropos Closed-Loop-Geschäft: Ohne eine Milliarde US-Dollar kann man sich autonomes Fahren nicht leisten

36Kr Auto: Es hört sich so an, als würden die Mittel verbrennen. Wie viel planen Sie, in die End-to-End-Investition zu investieren?

Lang Xianpeng: Sicherlich sind es derzeit 1 Milliarde RMB. In Zukunft könnte die Ausbildung autonomer Fahrmodelle 1 Milliarde US-Dollar erfordern, andere Dinge wie Kaufkarten, Stromrechnungen und Talente nicht eingerechnet. Kein Unternehmen ohne einen Nettogewinn von 1 Milliarde US-Dollar kann es sich leisten.

36Kr Auto: End-to-End könnte ein Wendepunkt in der Automobilindustrie sein. Wie hoch ist aus kommerzieller Sicht die wirtschaftliche Leistung von intelligentem Fahren?

Lang Xianpeng: Ab Version 6.0 hat unser AD Max-Anteil in den letzten 1 bis 2 Monaten 50 % überschritten, mit einem Anstieg von mehr als 10 % pro Monat. Wenn 2 % bis 3 % als normaler Jitter verstanden werden können, sind es mehr als 10 % ist effektives Wachstum. In Peking, Shanghai, Guangzhou und Shenzhen hat der Anteil unserer Smart-Driving-Modelle 70 % erreicht. Die AD MAX-Reihenfolge für das L9-Modell beträgt 75 %, für L8 55 % und für L7 65 %.

Jia Peng: L6 hat ebenfalls 22 %. Intelligentes Fahren ist für junge Menschen bereits ein sehr wichtiger Faktor beim Autokauf. Nach der Nutzung von Smart Driving ist es schwierig, zum ursprünglichen Zustand zurückzukehren.

Lang Xianpeng: Heutzutage ist die Hochgeschwindigkeits-NOA allgemein anerkannt, während sich die städtische NOA noch in einem sehr frühen Stadium befindet. Die Fähigkeiten städtischer Produkte sind weitgehend nicht gut genug. Auch ohne Bilder sind sie im Vergleich zum Komfortniveau des menschlichen Fahrens nicht besonders gut. Nach dem Ende wird sich alles ändern, und einige Aufführungen kommen dem Menschen sehr nahe.

Durch die Hinzufügung von Daten und Rechenleistung dürfte das auf der End-to-End-Architektur basierende intelligente Fahren in der Stadt ein Fahrerlebnis mit hoher Geschwindigkeit ermöglichen. In dieser Phase ist es für Benutzer sehr hilfreich, Autos zu kaufen.

36Kr Auto: Der kommerzielle Wert des intelligenten Fahrens wird immer offensichtlicher, aber die ideale intelligente Fahrfunktion war schon immer kostenlos. Wird die Strategie neu diskutiert, um den kommerziellen Wert stärker hervorzuheben?

Lang Xianpeng: Viele Menschen kaufen Ideal für Kühlschränke, Farbfernseher und große Sofas, aber in Zukunft werden sie vielleicht auch Ideal für intelligentes Fahren kaufen, was ausreicht, um den kommerziellen Wert von intelligentem Fahren zu zeigen. Der Unterschied zwischen der Max- und der Pro-Version beträgt tatsächlich 30.000 Yuan.

Was die Software-Aufladung angeht: Wenn sie das L4-Niveau erreicht, wäre es wirklich großartig. Stellen Sie sich vor, Sie könnten den Benutzern helfen, ihre Kinder am Schultor abzuholen. Sind Sie bereit, für diesen Service zu zahlen? Mit der Verbesserung der Fähigkeiten werden einige zusätzliche Geschäftsmodelle entstehen, aber die Voraussetzung muss sein, dass die Fähigkeiten im Bereich des intelligenten Fahrens erheblich verbessert werden.

36Kr Auto: Xiaopeng erwähnte, dass es in den nächsten 18 Monaten ein ähnliches Erlebnis wie Googles Waymo erreichen wird. Haben Sie einen solchen Zeitplan?

Lang Xianpeng: Es ist in Ordnung, wenn die Daten und das Geschäft die Ziele unterstützen können. Wir haben einige interne Berechnungen durchgeführt. Reden wir nicht über L3L4. Wenn wir VLM und End-to-End-Training unterstützen wollen, werden wir etwa Dutzende EFLOPS-Cloud-Computing-Leistungen benötigen.

Der Wert von Xpeng beträgt 2,51 EFLOPS, und der Idealwert liegt bei 4,5 EFLOPS. Um dies zu erreichen, sind mindestens 10 EFLOPS Rechenleistung erforderlich, was etwa 1 Milliarde US-Dollar und 6 Milliarden Yuan pro Jahr entspricht. Wenn Sie es sich jedes Jahr leisten können, können Sie spielen.

36Kr Auto: Wie viel Investition wird das Smart-Driving-Team auf Basis der aktuellen technischen Architektur zusätzlich zur Rechenleistung durchschnittlich pro Jahr benötigen?

Lang Xianpeng: Der Großteil der Ausgaben entfällt auf Trainingschips, Datenspeicher und Datenverkehr, die mindestens 1 bis 2 Milliarden US-Dollar pro Jahr kosten. Aber wenn man darüber hinausgeht, insbesondere beim Weltmodell, besteht das ultimative Ziel darin, die gesamte reale physische Welt wiederherzustellen. Dies selbst erfordert ebenfalls Schulung und erfordert viele Rechenressourcen.

Was die Obergrenze angeht, kann ich mir im Moment nicht vorstellen, dass sie bei mindestens 10 EFLOPS liegt. Wir halten das nicht für Unsinn.

36Kr Auto: Automobilunternehmen basieren immer noch auf dem Gewinnmodell der verarbeitenden Industrie. In diesem Jahr wird es einen Preiskampf geben, und die Gewinne werden beeinträchtigt. Ist es für Automobilunternehmen angemessener, das zu tun, was Technologieunternehmen tun?

Lang Xianpeng: Wer qualitativ hochwertige Daten erhalten kann und über genügend Trainingsrechenleistung verfügt, kann ein großes Modell erstellen. Es gibt vielleicht nicht so viele Talente, aber die entsprechenden Talente müssen vorhanden sein. Wer außer Ideal, Huawei und Tesla kann noch alle drei haben? Ich kann es nicht herausfinden.

Unsere aktuelle Idee ist es, dem Unternehmen schnell beim Verkauf von Autos zu helfen. Nur durch den Verkauf der Autos können wir Geld haben, um eine Karte zu kaufen, mit der wir intelligentes Fahren trainieren können.

Je weiter wir beim intelligenten Fahren voranschreiten, desto größer wird die Kluft. Früher gab es keine Bilder, aber jeder machte etwas, von dem man die Decke sehen konnte. Um in Zukunft Durchbrüche zu erzielen, muss KI hinzugefügt werden, und alle konkurrieren um Daten und Rechenleistung. Wenn es nicht gelöst werden kann, können wir nur in die vorherige Dimension wechseln und in die nächste Dimension wechseln, um die Datendividenden zu ernten.

36Kr Auto: Intelligente Fahrtechnologie verändert sich so schnell und die Investitionen sind so groß. Wie kann Li Xiang sein Bewusstsein für intelligentes Fahren aufrechterhalten?

Lang Xianpeng: Er würde jederzeit mit Lehrer Jia und mir sprechen. Seit September letzten Jahres veranstalten wir ein wöchentliches Treffen zum Thema Künstliche Intelligenz, bei dem alle Menschen im Unternehmen zusammenkommen, die mit KI zu tun haben, darunter Menschen in Smart Spaces, Infrastruktur und Schulungsplattformen. Li Xiangs Verständnis von künstlicher Intelligenz ist immer noch sehr gut.

Er verfügt auch über einige andere Ressourcen und kennt viele Leute. Er hat mit Lu Qi, Kimi-CEO Yang Zhilin, Horizon Yu Kai und anderen gesprochen. Er versteht nicht nur den Kern und die wesentliche Technologie der KI, sondern kann sie auch in einigen gängigen Begriffen ausdrücken.

36Kr Auto: Wie viel Personal ist für die durchgängige Modellkonstruktion erforderlich? Wie viele Personen wird ein zukünftiges Smart-Driving-Team durchschnittlich groß sein?

Jia Peng: Sie brauchen vielleicht nicht allzu viele, tatsächlich hat Tesla nur sehr wenige wirklich erstklassige Modellbauer, und das visuelle Team besteht insgesamt nur aus 20 Leuten. Daraus lässt sich beispielsweise schließen, dass das Modell selbst mit 12–15 Hz läuft, was im Grunde die Anzahl der Modellparameter bestimmt und welche Art von Modellstruktur für das Training verwendet werden soll Es.

Lang Xianpeng: Tesla ist extremer, mit einem Software-Algorithmus-Team von mehr als 200 Leuten, stellt aber nur einen Chip und ein paar Modelle her. Wir können jetzt nicht so perfekt sein wie er, aber wir werden immer noch um ein Vielfaches besser sein als er. Da unsere Chipplattformen unterschiedlich sind und wir viele Modelle haben, beschäftigen wir zwar nicht besonders viele Leute, aber es gibt immer noch einige Leute an jedem Ort.

36Kr Auto: Cloud-Computing-Leistung wird in Zukunft eine große Investition sein. Haben Sie darüber nachgedacht, sie durch heimische Chips zu ersetzen? Wird es schwierig sein, zu wechseln?

Jia Peng: Die J3 und J5 von Horizon wurden erstmals im Automobilbereich eingesetzt. Cloud probiert einige einheimische Produkte aus, aber die größte Schwierigkeit besteht derzeit darin, dass deren Ökologie nicht so gut ist. Das CUDA-Ökosystem von NVIDIA ist so unbesiegbar, dass es sehr mühsam wäre, sich an ein anderes Ökosystem anzupassen. Jetzt möchte ich immer noch die Effizienz in den Vordergrund stellen und auf die Fortschritte im Inland achten. Der Austausch und die Tests haben bereits begonnen.

36Kr Auto: Welche Auswirkungen wird die End-to-End-Integration nach der Veröffentlichung des selbst entwickelten intelligenten Fahrchips haben?

Jia Peng: Die Kombination von Software und Hardware wird definitiv zu besseren Ergebnissen führen, und Tesla hat bereits einen Prototyp hergestellt. Die Chips sind günstiger, die Rechenleistung ist höher und die Unterstützung für AD ist besser. Sie wollten die Parameter auf FSD V12.5 um das Fünffache erweitern und haben es erweitert. Das hat große Vorteile.

Lang Xianpeng:Voraussetzung ist, dass die L3- und L4-Algorithmen ermittelt werden müssen.

36Kr Auto: Wird es einen Zeitpunkt für autonomes Fahren der Stufe L4 geben?

Lang Xianpeng: Nur 3-5 Jahre. Wir haben zuerst L3 übergeben, was das Sprungbrett zu L4 ist. Erstens ermöglicht es uns ein klareres Verständnis der Rechenleistung und Datenanforderungen von L4, einschließlich der grundlegenden Fähigkeiten des Prüfungssystems und des Datenkreislaufs.

Zweitens müssen wir in Bezug auf Produkte ein gegenseitiges Vertrauensverhältnis zu den Menschen aufbauen. Da End-to-End selbst immer noch eine Black Box ist, vertrauen die Menschen dem System immer noch nicht. Dann können Sie durch L3-Produkte ein gutes Vertrauensverhältnis zu den Menschen aufbauen.

36Kr Auto: Der Ursprung vieler KI-Technologien liegt im Silicon Valley, aber Ideal beschäftigt sich jetzt auch mit der Frage, wie man sicherstellen kann, dass das Urteilsvermögen oder der Sinn für Technologie präzise und scharf ist Falscher Technologiebaum?

Lang Xianpeng:Wir haben bereits ein vollständiges System, das noch drei bis fünf Jahre entfernt ist, aber wir haben bereits begonnen, es in Angriff zu nehmen. Wenn wir einen Fehler machen, werden wir früh einen Fehler machen, und es besteht immer noch eine Chance.

Es gibt tatsächlich eine Spaltung in der künstlichen Intelligenz zwischen China und den Vereinigten Staaten, und es gibt tatsächlich viele Talente in China. Wir geben unser Bestes, um die besten jungen Leute zu finden. Dieses Jahr haben wir beispielsweise mehr als 240 Schulen eingestellt. Alle gehören zu den Top 100 von QS (den 100 besten Universitäten der Welt).

Apropos Tesla: Lernen Sie von Tesla und übertreffen Sie Tesla

36Kr Auto: Manche Leute sagen, dass die Lücke zwischen inländischem und Tesla-Smart-Fahren 2 Jahre beträgt. Was denken Sie?

Lang Xianpeng: Sicherlich nicht. Wir werden die technischen Lösungen nicht kommentieren, da Tesla in den letzten zwei Jahren nicht viel über seine technischen Lösungen gesagt hat. Was die Produkterfahrung angeht, sind wir im Grunde auf dem Niveau, auf dem Tesla letztes Jahr gerade die End-to-End-Version veröffentlicht hat. Es besteht eine Lücke von etwa einem halben Jahr.

36Kr Auto: Tesla ist auch auf einige Probleme gestoßen, sagte Musk, dass es weniger Daten und weniger Feedback gibt.

Lang Xianpeng:Das sind verschiedene Phasen. Wenn wir ihnen begegnen, bedeutet das, dass wir in die nächste Phase eingetreten sind.

Jia Peng: Das größte Problem von Tesla ist jetzt die Überprüfung. Sie sehen, dass Version 12.4 (Tesla FSD-Versionsnummer) nicht gut funktionierte und dann Version 12.5 veröffentlicht wurde, wobei die Parametermenge um das Fünffache erweitert wurde. Ich vermute, dass der Überprüfungsschritt nicht besonders gut durchgeführt wurde. Als das Modell herauskam, wusste ich nicht, wie es funktionieren würde, wenn es tatsächlich von Benutzern verwendet würde.

Deshalb legen wir Wert auf Weltmodelle. Wir haben diese Lektionen gelernt und müssen die Überprüfung im Voraus abschließen. Wie kann das Modell ansonsten für alle Straßen im ganzen Land verifiziert werden, auch innerhalb von Parkgemeinden?

Wenn man sich den KI-Tag von Tesla im Jahr 2022 ansieht, ist die Skalierbarkeit (Skalierbarkeit) noch zu gering, um eine vollständige Öffnung in Nordamerika zu unterstützen. An diesem Punkt gibt es tatsächlich einige Lehren, die wir von Tesla gelernt haben. Deshalb geben wir uns so viel Mühe, Weltmodelle zu schaffen.

36Kr Auto: Gibt es etwas, das Ihnen beim Aufbau der End-to-End-Lösung Schwierigkeiten bereitet? Wie eine Daten-Toolkette?

Jia Peng: Der Datensatz wird seit 2019 erstellt und ist zumindest der beste in China. Daten und Training sind eigentlich Routinen, und sie alle haben Paradigmen, denen man folgen muss. Derzeit ist die Verifizierung die größte Herausforderung.

Ein weiterer Faktor ist VLM selbst, das nach und nach eine größere Rolle einnimmt. Es kann zu Beginn nur in 5 % der Fälle verwendet werden, später kann es jedoch zu einer End-to-End-Obergrenze kommen, und die verbleibende Produkterfahrung hängt von der Iteration durch VLM ab. Dies wird in Zukunft eine Herausforderung sein.

Auch das ist anders als bei Tesla. Wir haben VLM und Weltmodell gemacht, weil wir Teslas Probleme gesehen haben. Es gibt ein Problem mit der Verifizierung der Version 12.4. Wir sind damit bereits zweimal in Nordamerika gefahren, jeweils etwa eine Woche lang, sowohl an der Westküste als auch an der Ostküste. Offenbar ist es an der Westküste gut und an der Ostküste schlecht. Boston und New York sind nicht so gut, da diese beiden Städte viel komplizierter sind als die Westküste.

An der Ostküste ist die durchschnittliche Übernahmequote von Tesla ziemlich hoch, und vielleicht liegen hier einige der durchgängigen Obergrenzen. Wenn wir also VLM machen, wollen wir diese Grenze durchbrechen. Die Obergrenze von VLM ist sehr hoch und es ist möglich, sie (Tesla) durch diese Reihe von Pfaden zu überschreiten.