2024-08-08
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Anmerkung des Herausgebers: Die Tencent Automotive-Redaktion nennt die Elektrifizierungswelle im letzten Jahrzehnt die „turbulente Ära“ der chinesischen Automobilindustrie. Jetzt, im Jahr 2024, einem historischen Knotenpunkt, der als „Jahr des intelligenten Fahrens“ bekannt ist, können wir nicht anders Aber ich frage mich: Welchen technischen Weg werden die großen Akteure der Branche einschlagen? Wie können die jeweiligen Wettbewerbsbarrieren aufgebaut werden? Tencent Auto hat speziell eine Reihe intelligenter Fahrplanung ins Leben gerufen. Durch Interviews, tatsächliche Tests, horizontale Überprüfungen, Rezensionen und andere Methoden ist das Unternehmen bestrebt, am Ursprung der Geschichte zu stehen und weitere Einblicke in die großen Veränderungen zu gewinnen, die in der Automobilindustrie auftreten können in den nächsten zehn Jahren, wodurch den Lesern und der Branche mehr Informationen zur Verfügung gestellt werden. Eine umfassende inhaltliche Anleitung kann wertvolle historische Fußnoten für die Branche hinterlassen.
Tencent News „Fernlicht“
Autor Ao Dun
Herausgeber Shi Ding
„End-to-End“-Lösungen (E2E) gelten zunehmend als die beste Lösung für intelligentes Fahren in der Branche. Wenn Menschen jedoch versuchen, den Nebel zu beseitigen und die Wahrheit herauszufinden, scheint es zehntausend „End-to-End“-Lösungen zu geben „End-to-End“-Lösungen in den Augen von 10.000 Automobilherstellern.
Letzten Dezember,TeslaNachdem Huawei FSD V12 auf den Markt gebracht und eine End-to-End-Lösung vorgeschlagen hatte, wurde der Begriff „End-to-End“ über Nacht in der Smart-Driving-Szene hoch geschätzt.Xiaopeng,Horizont,NIOAndere Unternehmen haben End-to-End-Lösungen vorgeschlagen. Ende Juli sagte He Xiaopeng, Vorsitzender und CEO von Xpeng Motors, dass Xpeng Motors der einzige Automobilhersteller weltweit sei, der eine durchgängige Massenproduktion erreicht habe große Modelle.
5. Juliideales Auto Eine neue Technologiearchitektur für autonomes Fahren, die auf dem End-to-End-Modell, dem visuellen VLM-Sprachmodell und dem Weltmodell basiert, wurde Ende Juli veröffentlicht. Die erste Version wurde Tausenden von Testbenutzern zur Verfügung gestellt. Li Xiang gab im Juni dieses Jahres bekannt, dass der Plan frühestens in der ersten Hälfte dieses Jahres und frühestens in der ersten Hälfte des nächsten Jahres vollständig umgesetzt werde.
Nach Angaben von Lang Denken im Bereich des autonomen Fahrens, um eine intelligentere und menschlichere Fahrlösung zu schaffen.
Das schnelle System, nämlich System 1, wird durch das End-to-End-Modell implementiert, empfängt Sensoreingaben und gibt die Fahrbahn direkt zur Fahrzeugsteuerung aus. Das langsame System, nämlich System 2, wird durch das visuelle Sprachmodell VLM implementiert und gibt nach dem logischen Denken Entscheidungsinformationen an System 1 aus. Die autonomen Fahrfähigkeiten der dualen Systeme werden ebenfalls trainiert und überprüft Nutzung des Weltmodells in der Cloud.
Im horizontalen Vergleich mit Branchenkollegen betonte Lang Xianpeng, dass das End-to-End-Modell von Li Auto das erste One-Model-End-to-End-Modell ist, das sich stark von anderen segmentierten Modellen unterscheidet: „Bei einem Modell geben die Sensordaten die Flugbahn aus.“ Es gibt keine anderen Regeln oder Modelle in der Mitte, und andere End-to-End-Anforderungen müssen möglicherweise mit einigen Regeln verknüpft werden.
Den öffentlichen Informationen zufolge geht die Branche davon aus, dass Xpeng Motors und Huawei durchgängig segmentiert sind. Das von Xpeng Motors in der Massenproduktion verwendete End-to-End-Großmodell besteht aus dem neuronalen Netzwerk XNet + dem Großmodell XPlanner + dem Wahrnehmungsteil von Huaweis End-to- Das Endsystem verwendet GOD (Allgemeine Objekterkennung, allgemeine Hinderniserkennung). Der Netzwerk-, Entscheidungs- und Planungsteil nutzt das PDP-Netzwerk (Prediction-DecisionPlanning, Vorentscheidung und Planung), um die Vorentscheidung und Planung eines Netzwerks zu realisieren.
Früher konnten intelligente Fahrsysteme in mehrere Hauptmodule unterteilt werden: Wahrnehmung, Vorhersage, Planung und Steuerung. Mehrere Module waren für unterschiedliche Aufgaben zuständig. Dies wurde auch als Ära der autonomen Fahrregeln bezeichnet. Das heute beliebte End-to-End ist, um genau zu sein, ein großes KI-Modell, das die Ausgabeergebnisse direkt aus den ursprünglichen Eingabedaten generieren kann Ausgabeergebnisse und Beschleunigung, Fahrverhalten wie Verlangsamen und Bremsen.
In der Praxis können die oben genannten Ideen nicht in einem Schritt umgesetzt werden. Allein auf der technischen Seite müssen eine Reihe komplexer Probleme wie Modellarchitektur, Daten und technische Verifizierung gelöst werden. Aus Sicht der Benutzererfahrung besteht das ultimative Ziel der End-to-End-Lösung darin, dem menschlichen „erfahrenen Fahrer“ unendlich nahe zu kommen und den erfahrenen Fahrer sogar zu übertreffen, indem er ständig die Obergrenze der Fähigkeiten erforscht Es gibt in der Branche keine Schlussfolgerung, wann dieses Ziel erreicht werden kann.
Nach Ansicht von Jia Peng, Leiter der Forschung und Entwicklung für intelligente Fahrtechnologie bei Li Auto, befinden wir uns jetzt in einem unbewohnten Land des intelligenten Fahrens: „Niemand sonst hat gesagt, wie es durchgängig gemacht wird, und alle sind ‚blind‘.“ und versuchen, den Elefanten herauszufinden.‘“ Er glaubt jedoch, dass die Bedeutung von End-to-End nicht darin besteht, dass ein Modell und zwei Modelle im Wesentlichen den gesamten F&E-Prozess verändern System wirklich so menschenähnlich wie möglich.“
Obwohl End-to-End als optimale Lösung für intelligentes Fahren gilt, steckt es noch in den Kinderschuhen und es gibt in der Branche keine klare Definition oder Bewertungsnorm. Lang Xianpeng glaubt, dass inländische Automobilhersteller derzeit durchgehend auf der gleichen Startlinie stehen, aber wenn man sich das One Model ansieht, könnte Ideal die Nase vorn haben. Seiner Ansicht nach ist die End-to-End-Lösung von Li Auto derzeit die beste Lösung, um künstliche Intelligenz in der physischen Welt zu implementieren, „weil sie die menschlichen Wahrnehmungs- und Denkmechanismen sehr gut simuliert und es dem System wirklich ermöglicht, über die Fähigkeiten des menschlichen Denkens zu verfügen.“ und Denken. Die Fähigkeit, die Welt zu verstehen, ist der Vorteil dualer Systeme.
Längerfristig kann End-to-End ein Wettbewerb und ein Wettbewerb der Finanzkraft sein. Nach Ansicht von Lang hochwertige Produkte? Daten; Gibt es eine entsprechende Trainings-Rechenleistung?
„Letztendlich konkurrieren alle um Rechenleistung und Daten, aber die Hürde für diese beiden Dinge ist sehr hoch. Wenn die finanziellen Rücklagen nicht ausreichen, um die jährlichen Schulungskosten zu decken, können Sie später nicht mehr spielen.“ L3 oder L4. Wenn die Anzahl der Unternehmen nicht groß ist, können die Daten den Schulungsbedarf nicht decken. „Lang Xianpeng sagte, dass nach vorläufigen Schätzungen die aktuelle ideale jährliche Investition in die Schulung 1 beträgt Milliarden Yuan, und es wird erwartet, dass die Kosten in Zukunft 1 Milliarde US-Dollar pro Jahr erreichen werden Wenn Sie ein Ausbildungsjahr absolvieren, können Sie im künftigen Wettbewerb zum autonomen Fahren ausscheiden.“
Im Folgenden finden Sie Auszüge (bearbeitet) von Gesprächen zwischen Tencent News „High Beam“ und anderen Medien sowie Lang Xianpeng und Jia Peng:
F: Welche Möglichkeiten gibt es für den Übergang von der herkömmlichen intelligenten Fahrtechnologie zur End-to-End-Technologie? Welche Vor- und Nachteile hat die von Lili vorgeschlagene technische Lösung im Vergleich zu Tesla, Huawei und Xpeng?
Lang Xianpeng: Was die Vorteile dieser Systemarchitekturlösung betrifft, sollten wir von unseren Überlegungen zum autonomen Fahren im August und September letzten Jahres ausgehen. Letztes Jahr haben wir drei Generationen Technologieforschung und -entwicklung betrieben, angefangen bei der Hochgeschwindigkeitsentwicklung bis hin zum autonomen Fahren in Städten. In Städten verwendeten wir zunächst NPN (Neural PriorNet, neuronales Prior-Netzwerk), eine Lösung mit Szenarien. und dann zur aktuellen graphlosen Lösung konvertieren und dann zur aktuellen End-to-End-Lösung iterieren.
Während dieses Prozesses haben wir festgestellt, dass diese Lösung immer noch einen sehr großen Fehler oder ein großes Problem für späteres autonomes Fahren auf L3- und L4-Ebene aufweist. Das Problem ist, dass wir Menschen unbekannte Szenen und Orte verstehen können, an denen wir noch nie waren, und wer normal fährt, kann sich einfach ein wenig daran gewöhnen. Unabhängig davon, ob es sich um die aktuelle End-to-End-Lösung oder die bildlose Lösung handelt, sind es im Wesentlichen die gesehenen Szenen oder die trainierten Daten, die eine bessere Leistung erbringen können. Wenn es eine neue Szene gibt, ist er möglicherweise nicht in der Lage, damit richtig umzugehen. Wenn wir das Auto jedoch vollständig dem System zum Fahren überlassen wollen, anstatt es Menschen zu überlassen, muss unser System in der Lage sein, mit unbekannten Szenen wie Menschen umzugehen .
Um ein einfaches Beispiel zu nennen: Unsere Ampeln unterscheiden sich von den Ampeln an anderen Orten, aber an anderen Orten haben wir entweder Glühbirnen oder Countdowns. Das ist sehr seltsam verstehen. Aber ich glaube, wenn jemand mit normalem gesunden Menschenverstand nach Tianjin fährt und so etwas an der Kreuzung aufgestellt sieht, wird er denken, dass es sich um eine Ampel handelt, und entsprechend den Anweisungen der Ampel normal anhalten und anfahren. Wir müssen also dafür sorgen, dass das System auch über dieses Verständnis der Szene verfügt oder über die Fähigkeit verfügt, diese Art von Wissen logisch zu begründen. Zu diesem Zeitpunkt haben wir die Theorie der dualen Systeme gesehen, die eine gute Erklärung für den Mechanismus der menschlichen Wahrnehmung darstellt. Das schnelle System führt zu zeitnahen Verarbeitungsreaktionen, und das langsame System entspricht komplexem Denken und logischen Urteilen. Zusammen bilden sie das Mechanismus des menschlichen Erkennens und Denkens, deshalb wollen wir darüber nachdenken, wie die Theorie dieses Systems auf das autonome Fahren angewendet werden kann.
Was genau nutzt System 1 also, um eine Systematisierung zu erreichen? Wir haben uns schließlich dafür entschieden, das System durch die Anwendung des End-to-End-Modells zu implementieren, und System 2 wurde mithilfe des großen visuellen Sprachmodells von VLM implementiert. Dies sind unsere beiden spezifischen Implementierungsmethoden. Nach Vorforschung und Entwicklung haben wir diese beiden Systeme nun in unseren echten Serienfahrzeugen implementiert.Wir glauben, dass es derzeit die beste Lösung zur Implementierung künstlicher Intelligenz in der physischen Welt ist, da es die menschlichen Wahrnehmungs- und Denkmechanismen sehr gut simuliert und dem System tatsächlich die Fähigkeit verleiht, die Welt wie Menschen zu denken und zu verstehen. Das ist das Duale System. Vorteil.
Unser duales System weist einige einzigartige Merkmale auf. Erstens ist unser End-to-End-Modell das erste One-Model-End-to-End-Modell, das sich stark von anderen segmentierten Modellen unterscheidet. Zweitens ist unser VLM-Modell das erste Modell, das in einem Auto eingesetzt und in Massenproduktion hergestellt werden kann. Andere Modelle können möglicherweise auf ihren eigenen Trainingsclustern trainiert und getestet werden, aber die tatsächliche Verwendung von Massenautos wie Orin X endet der erste, der den Chip optimiert und im Auto eingesetzt hat, und dieses Modell ist mit 2,2 Milliarden Parametern bereits ein großes Modell im praktischen Sinne. Unser duales System ist auch das erste, das wir vorgeschlagen und implementiert haben. Von der Systemarchitektur bis zur Systemimplementierung haben wir einige unserer eigenen Vorteile und Merkmale.
F: Kann diese Lösung mit dem durchgängigen visuellen Sprachmodell die Entwicklung von L3 und L4 unterstützen?
Lang Xianpeng:Zumindest aus heutiger Sicht denke ich, dass es methodisch möglich sein sollte, aber egal, ob es sich um zwei End-to-End-Modelle plus VLM oder zwei Modelle in einem oder ein Modell mit größeren Parametern oder anderen Strukturen handelt, Ich denke, es kann langsam wiederholt werden, aber ich denke, die Gesamtidee sollte in Ordnung sein.
Frage: Wie sind System 1 und System 2 aufgeteilt?
Jia Peng: Wir haben zwei Modelle, zwei Orin, weil das Auto in Echtzeit gesteuert werden muss. Obwohl VLM über eine große Anzahl von Parametern verfügt, kann es nicht alle ein oder zwei Sekunden gesteuert werden. Jetzt haben wir es auf ein Quasi-Echtzeitniveau von etwa 3,4 Hz mit einer Verzögerung von etwa dreihundert Millisekunden optimiert. Es trifft jeden Moment Entscheidungen und gibt zwei Entscheidungen aus, z. B. eine, langsamer zu werden oder nachzugeben, und die zweite gibt eine Referenzflugbahn an, z. B. ob ich auf diese oder jene Spur zusteuere. Diese beiden Informationen werden angezeigt direkt in das Modell eingespeist werden, und dann werden die Ergebnisse gleichzeitig erzeugt. Es handelt sich grob gesagt um eine Struktur, die die Meinungen von System 2 nicht vollständig übernimmt. System 2 verbessert die Entscheidungsfindung von System 1.
System 1 spielt die Hauptrolle und System 2 dient nur als Referenz oder Beratung für besondere Situationen. Beim Erreichen von L4 wird System 2 eine wichtigere Rolle spielen. Das bedeutet nicht, dass System 2 das Auto ständig steuert, aber es ist Es spielt wirklich eine Rolle bei der Entscheidungsfindung und Beurteilung. In einigen unbekannten Szenarien bestimmt die Fähigkeit von System 2, ob Sie L4 erreichen können, aber die grundlegende Fähigkeit von System 1 ist die notwendige Garantie für L3.
F: Werden die beiden Systeme in Zukunft zu einem verschmelzen?
Jia Peng: Dies ist der nächste Schritt unserer Voruntersuchung. Tatsächlich besteht die aktuelle Idee darin, zwei Modelle in Serie zu produzieren. Derzeit ist Wutu 6.0 landesweit verfügbar . Nun, wie kann man in Zukunft einen L4 in Massenproduktion herstellen? Unsere Idee könnte sein, das Modell in Größe und Kapazität zu vergrößern und gleichzeitig seine Bildrate zu erhöhen, oder es besteht die Möglichkeit, dass dies nicht der Fall ist Modelle können zu einem kombiniert werden. Lassen Sie das Modell selbst entscheiden, ob es System 1 oder System 2 verwendet. Wenn es also in Zukunft Chips mit größerer Rechenleistung und besseren Plattformen gibt, kann das eine große Rolle spielen.
Frage: Warum kann man VLM nicht End-to-End nennen? Meiner Meinung nach ist es auch End-to-End.
Jia Peng: Wenn die Rechenleistung in Zukunft groß genug ist, kann VLM selbst beispielsweise mit mehr als zehn Hz oder sogar 20 Hz in Echtzeit laufen. Vielleicht kann es auch eine durchgängig schnelle Reaktion erreichen, aber derzeit ist VLM Eigentlich mehrere Frage- und Antwortrunden. Ich möchte fragen: Wie kann ich es unter solchen Arbeitsbedingungen fahren? Warum wird es auf diese Weise geöffnet und was sind die Ergebnisse nach dem Öffnen?
Lang Xianpeng: Aus unserer Sicht ist es tatsächlich ein durchgängiges Modell, dessen Eingabe Daten und dessen Ausgabe das Ergebnis ist. Das Ergebnis ist jedoch die Flugbahn im ersten System , und das Ergebnis in System zwei ist Entscheidungsfindung. Lassen Sie mich noch einmal betonen, dass es einen großen Unterschied zwischen End-to-End und End-to-End mehrerer Modelle oder einem Modell und End-to-End gibt.WeilWie das Ein-Modell, das wir hier idealerweise erstellen, wird die Sensordatenausgabe direkt von der Flugbahn ausgegeben, ohne dass dazwischen weitere Regeln oder Modelle erforderlich sind.
Frage: Wo liegt derzeit die Obergrenze der Leistungsfähigkeit des Systems?
Lang Xianpeng: Jetzt sollte VLM an der Grenze zum Niemandsland stehen. In Zukunft wird jedes Unternehmen, auch wir, dies durchgängig tun müssen, aber ich glaube, dass wir das erste Unternehmen sind, das dies tut Während wir dies tun, werden wir feststellen, dass die Leistungsverbesserung durch die Datenskala noch nicht erreicht ist. Wir erforschen immer noch die Grenze zwischen Datenverbesserung und Leistungsverbesserung und haben sie noch nicht erreicht.
Wir haben eine begrenzte Rechenleistung, daher ist die Parameterskala begrenzt. Jetzt haben wir eine End-to-End-Parameterskala von etwa 300 Millionen Tatsächlich gibt es eine Obergrenze. Es ist unmöglich, es auf unbestimmte Zeit hineinzuschütten.
Jia Peng: Obwohl sich die Rechenleistung bei großen Modellen verbessert hat, ist die Speicherbandbreite der schwerwiegendere Engpass aktueller fahrzeugseitiger Chips. Wir haben wirklich einen relativ unbewohnten Ort erreicht. Niemand sonst hat gesagt, wie es durchgängig gemacht wird, und alle sind „blind und versuchen, den Elefanten herauszufinden“.
Unser End-to-End-Modell erreicht die Flugbahn, und nach der Flugbahn werden einige Sicherheitstaschen hinzugefügt, denn bevor das Modell die Obergrenze erreicht, müssen noch einige Dinge erledigt werden, z. B. das Lenkrad stark drehen und ihn lassen Werde es los. Das ist unser Plan.
Frage: Wie lässt sich definieren, dass das integrierte Modell leistungsfähiger und fortschrittlicher ist als das segmentierte Modell? Wie hoch ist die Obergrenze für die endgültige End-to-End-Entwicklung? Wird es in Zukunft leistungsfähigere Modelle geben?
Lang Xianpeng:Erstens glaube ich nicht, dass es etwas Gutes oder Schlechtes gibt, ob es geeignet ist oder nicht. Wenn Sie autonomes Fahren auf den Stufen L3, 4 und höher durchführen möchten, ist dieses integrierte End-to-End-Modell meiner Meinung nach das Richtige Sie müssen ein Modell auswählen, da dies nicht der Fall ist. Bei der Auswahl dieses Modells selbst geht es jedoch eher um die Auswahl eines fortgeschritteneren iterativen oder Forschungs- und Entwicklungsprozesses und einer segmentierten Methode. Sie eignen sich auch sehr gut für das unterstützte Fahren auf L2-Niveau.
Von Ende zu Ende ist die Veränderung nicht so einfach wie bei einem Modell und zwei Modellen, aber sein gesamtes Denken, der Prozess und die Art und Weise, Dinge zu tun, haben enorme Veränderungen erfahren. Es gibt keine Regeln darin Geben Sie ihm hochwertige Daten und Schulungen, um die Fähigkeiten des Modells zu verbessern, damit es bessere Planungen und Entscheidungen treffen kann.
Dann muss ich sinnvolle Iterationen am Rahmen des Modells durchführen. Der wichtigste Weg besteht darin, qualitativ hochwertigere Daten zu finden. Wir haben mittlerweile im Grunde das Niveau von 3 Millionen Parametern erreicht und unsere Datenauswahl ist sehr speziell. Zunächst einmal fahren wir mit unserem Produktteam und unserem subjektiven Bewertungsteam. Diese Leute sind alle erfahrene Fahrer und ihr Fahrerlebnis ist sehr gut.
Sie haben mit uns zusammengearbeitet, um eine Reihe von Standards für erfahrene Fahrer zu entwickeln, wie zum Beispiel ihre sicheren Fahrbedingungen und ihren Fahrstil. Nachdem die Iterationen in mehreren Dimensionen abgeschlossen waren, haben wir diese Regel verwendet, um sie mit unseren bestehenden 80 Wan-Autobesitzern zu vergleichen Vorführung, und wir wollen diejenigen mit einer Punktzahl von 90 oder höher. Dieser Clip muss vorgeführt werden.Da wir über diese Basis verfügen, können wir 1 Million oder 10 Millionen hochwertige Fragmente herausfiltern. Auf den ersten Blick scheinen es nur 10 Millionen zu sein, aber tatsächlich werden sie aus 1,2 Milliarden Kilometern Daten herausgefiltert dass diese wenigen Dies ist eine der Daten von mehreren zehn Millionen Kilometern.
Wenn wir Daten überprüfen, steht uns unsere eigene Werkzeugkette zur Verfügung. Dabei geht es nicht nur um das Auswählen und Auswählen, sondern wir haben auch einige unserer eigenen Kennzahlen und Datenrezepte, was ebenfalls sehr wichtig ist.
Frage: Einige Unternehmen sagen, dass viele der bisherigen Daten in der End-to-End-Ära nicht genutzt werden können. Sie durchleben jetzt die schmerzhafteste Phase: Sie reißen die bisherigen Brücken ab und bauen ein Sicherheitssystem auf Das kann sie testen. Was halten Sie von dieser Aussage?
Lang Xianpeng: Meiner Meinung nach ist seine Aussage inkonsistent. Er meint, dass Daten nicht so wichtig sind, aber seine Aussage zeigt auch, dass Daten wichtig sind. Tatsächlich ist uns bei Idealen schon lange klar: Was ist das Wichtigste am autonomen Fahren? Handelt es sich um Talentförderung? Ich denke, es sind Daten. Ohne Daten wird es keine Grundlage für zukünftiges Algorithmentraining und -verifizierung geben.
Seit der Auslieferung des ersten Fahrzeugs im Jahr 2019 sammeln wir Daten und bauen unsere Datenplattform auf.ausIdeales L9 Am Anfang waren alle Matroschka-Puppen von großem Nutzen für das autonome Fahren. Obwohl es geringfügige Unterschiede in der Länge gibt, können wir diese Daten vollständig wiederverwenden. Da einige Hersteller jedoch möglicherweise Autos oder SUVs haben und die Sensoren unterschiedlich sein können, kann es für sie tatsächlich eine Herausforderung sein.
F: Einige Leute sagen, dass End-to-End den Entwicklungsprozess für intelligentes Fahren vereinfachen und die Arbeitskosten senken wird.
Lang Xianpeng:Wenn wir diese Lösung verwenden, brauchen wir wirklich nicht so viele Leute. Der gesamte End-to-End-F&E-Prozess besteht lediglich aus der Auswahl von Daten, dem Training von Modellen, der Bewertung von Modellen und dem Weltmodell ist ein Prüfungssystem. Die Fähigkeiten von System 1 und System 2 werden von unserem System 3 bewertet und zertifiziert. Bisher wurden unsere Bewertungen und Tests dieses autonomen Fahrsystems jedoch von Menschen durchgeführt, unabhängig davon, ob es einen großen Straßentest durchführte oder einen Der Test des Veranstaltungsortes wird von Menschen bewertet, aber Menschen können ihn nicht bewerten.
Es gibt Millionen von Kilometern Straßen im Laufe des Jahres. Es ist für Menschen unmöglich, sie zu überqueren. Die Schnellstraßen in Peking unterscheiden sich nicht wesentlich von den Schnellstraßen in Guangdong In städtischen Umgebungen ist es wirklich schwierig, sie abzudecken. Daher haben wir System 3, das uns hilft, die Fähigkeiten von System 1 und System 2 zu testen. Wenn wir nach dem Test die Iteration bestehen und online gehen, beginnt die nächste Runde.
In diesem Prozess sind neben dem Bedarf an Personen, die diese Systemplattformen entwickeln, tatsächlich nicht viele Personen an der eigentlichen Arbeit beteiligt, was den Einsatz von Personen erheblich reduzieren wird. Für das optimierte Management innerhalb unserer Organisation Der Einsatz von Menschen wird auch viele Vorteile haben. Daher basieren einige unserer nächsten Anpassungen tatsächlich auf Veränderungen in diesem Geschäft. Es handelt sich nicht um Anpassungen um der Anpassung willen, wie sich jeder vorstellt.
Frage: Welche Art von Upgrade wird aus Sicht der Verbraucher und Benutzer bei der Implementierung der End-to-End-Technologie im Erlebnis zu sehen sein?
Lang Xianpeng:Aus Benutzersicht hängt es nicht von Ihren technischen Lösungen und Routen ab, ob Sie End-to-End- oder andere Technologien verwenden. Benutzer müssen es nur erleben, wenn wir also das End-to-End-Plus-VLM-Produkt allen zugänglich machen Wir hoffen, dass es für zukünftige Benutzer großartig wäre, den Benutzern das Gefühl zu geben, dass ein sehr erfahrener Fahrer für mich fährt.
Benutzer müssen nicht wissen, um welche Art von Technologie es sich handelt, aber wenn sie interessiert sind, haben wir möglicherweise viele Referenzen.Wir werden nicht überbetonen, welche Art von technischen Lösungen wir für Benutzer verwenden. Wir kommunizieren nur mit den Benutzern, welche Art von Produkterfahrung sie haben.
F: Was ist Ihrer Meinung nach ein guter Standard, wenn End-to-End offiziell direkt an die Benutzer weitergegeben werden soll? Wann kann es offiziell gestartet werden?
Jia Peng: Ich denke, der Maßstab ist die Benutzererfahrung. Warum brauchen wir 1.000 Frühbucher-Benutzer, anstatt uns selbst einige Übernahmeziele zu setzen? Wenn es 1.000 Benutzer und 10.000 Benutzer gibt, ist ihre Erfahrung sehr gut, ich denke, sie kann gefördert werden, oder sie kann die Erfahrung der Nr. 1 übertreffen -Bildversion. Bei denjenigen, die derzeit am Frühbuchertest teilnehmen, haben wir einige Bewertungen durchgeführt und festgestellt, dass ihre Erfahrung, Stabilität und Sicherheit alle den Standards entsprechen.
F: Wird es sich bei diesem progressiven Plan um ein One Model handeln? Ist „Ein Modell“ die einzig richtige Richtung?
Jia Peng: Aus unserer Sicht ist One Model nicht durchgängig. Wenn jemand es jedoch auf diese Weise hinzufügen möchte, ist es in der Tat in Ordnung ein Bild. Damals nannten wir es Wahrnehmungsmodell und prädiktives Planungsmodell. Man kann es aber auch als segmentiertes Modell bezeichnen.
Die Bedeutung von End-to-End bedeutet nicht, dass ein Modell und zwei Modelle im Wesentlichen den gesamten Forschungs- und Entwicklungsprozess verändern. Mit dem bahnbrechenden KI-Prozess ist es Ihnen möglich, Ihr System wirklich zu gestalten Menschenähnliche Fahrfähigkeiten haben.
Früher wurde es nur als Funktion zum Passieren von Rampen und Mautstellen bezeichnet, aber jetzt habe ich die Fahrfähigkeiten eines erfahrenen Fahrers. Vielleicht können Sie später unser End-to-End-Erlebnis erleben. Natürlich bin ich dieses Auto viel gefahren, man kann sagen, dass wir mit der ersten Version etwas umständlich angefangen haben, und jetzt fahren wir es sehr gut. Wir sind oft von der Leistung und den Fähigkeiten dieses Modells überrascht.
Bei 800.000 Daten wäre es nicht in der Lage, den Kreisverkehr zu überqueren, aber bei 1 Million wäre es eines Tages plötzlich in der Lage, den Kreisverkehr zu überqueren. Tatsächlich haben wir nicht absichtlich einige Kreisverkehrdaten dafür erhalten, sondern nur behalten Nur Daten. Das ist, als würde man einem Kind beibringen, welchen Kurs es heute besuchen wird und welchen Kurs es morgen besuchen wird. Eines Tages kommt es plötzlich vorbei und bringt einem ein paar Wörter auf Englisch bei.
End-to-End unterscheidet sich von früheren Forschungs- und Entwicklungsaktivitäten. Ich wusste, dass Sie in Zukunft so sein würden, weil ich Sie so entworfen habe. Das End-to-End-Modell hat seine eigene Fähigkeit, zu wachsen und sich zu entwickeln, oder Sie können seine Fähigkeiten vielleicht nur entdecken, aber Sie können seine Fähigkeiten nicht entwerfen. Ich denke, das ist ein sehr großer Unterschied.
F: Sind Sie im End-to-End-Prozess auf größere Herausforderungen gestoßen?
Lang Xianpeng: Tatsächlich gibt es viele Herausforderungen. Der wichtigste Punkt ist, dass wir im Vorfeld einige Recherchen durchgeführt haben.
Zweitens denke ich, dass das Verständnis von künstlicher Intelligenz konsistent und sehr tiefgreifend ist, angefangen bei den Idealen des Unternehmens bis hin zum Verständnis und der Erkenntnis unseres Teams für intelligentes Fahren. Die größte Herausforderung besteht darin, ob alle das gleiche Verständnis und die gleiche Erkenntnis zu diesem Thema haben, ob einige Leute es für radikal halten, andere es für konservativ halten oder ob einige Leute den Plan für zuverlässig oder unzuverlässig halten.
Ich habe tatsächlich viel Zeit damit verbracht, zu erklären, wie wir Schritt für Schritt von NPN zu graphless und End-to-End übergegangen sind. Bei diesem Prozess geht es darum, Probleme zu entdecken und zu lösen. Nach der kognitiven Ausrichtung erfolgt die Entscheidungsfindung sehr schnell, und die starke Ausführungsfähigkeit von Li Auto ist das, was wir in den letzten Jahren trainiert und angesammelt haben.
In Bezug auf Organisation und Effizienz ist der Aufbau der datengesteuerten Toolkette bzw. der Infrastruktur dieses Systems in den letzten fünf Jahren sehr wichtig. Auch wenn wir jetzt über Menschen, Rechenleistung und Daten verfügen, wenn Sie nicht über eine verfügen Vollständig Sie können eine effiziente Toolkette nicht effizient betreiben, um die Datenerfassung, Beispielanmerkung, automatisierte Schulung und anschließende automatisierte Auswertung und automatisierte iterative Entwicklung durchzuführen Die Iterationen wurden seit dem ersten Auto im Jahr 2019 fortgesetzt, sodass die Fähigkeit, eine ideale Daten-Closed-Loop-Infrastruktur aufzubauen, in der Branche absolut erstklassig ist.
F: Sie haben einmal erwähnt, dass das ideale intelligente Fahrerlebnis ein halbes Jahr hinter Tesla zurückbleibt. Wie sind Sie zu dieser Schlussfolgerung gekommen?
Lang Xianpeng: Beginnend mit Tesla FSD V12.3 reisen wir regelmäßig in die USA, um es sowohl an der West- als auch an der Ostküste zu testen. Dies ist, was wir selbst zusammengefasst haben. Tatsächlich schneidet Tesla derzeit an der Westküste der USA sehr gut ab, da es derzeit in Kalifornien über die meisten Daten verfügt. Aber wenn Sie nach Boston und New York kommen, werden Sie feststellen, dass die Leistung stark sinken wird. Insbesondere nach der Ankunft in New York hat der MPI (Mileage Per Intervention) im Grunde etwa 10 oder 11 erreicht. Tatsächlich ist das Übernahmeniveau in New York York ist ungefähr das gleiche wie New York. Die Leistung der einheimischen Führungskräfte hat die Kluft zwischen den Generationen nicht vergrößert. Aber selbst die Verkehrsverhältnisse in New York sind weitaus unkomplizierter als in Shanghai und Guangzhou, China, weshalb wir diese Schlussfolgerung wagen bzw. diese Aussage wagen.
Andererseits kann Tesla (in den USA) viele Informationen erhalten, die in China nicht verfügbar sind, beispielsweise Karteninformationen. Tatsächlich stellt Google viele dieser Art von Straßenstrukturkarten nicht zur Verfügung Geben Sie Ihnen diese Informationen. Tatsächlich habe ich diese Erfahrung auf einer sehr guten Grundlage gemacht.Deshalb haben wir gesagt, dass, wenn FSD nach China kommt, es meiner Meinung nach jetzt in Shanghai getestet werden sollte, einschließlich Karten, weil es nicht so viele umfassende Informationen auf der Karte erhalten kann, und das muss es auch Nehmen Sie viele Änderungen vor, daher haben wir dieses Urteil gefällt.
F: Das Ziel von Ideal besteht in diesem Jahr darin, der absolute Marktführer im Bereich Smart Driving zu werden. Welche Dimensionen werden verwendet, um es zu definieren?
Lang Xianpeng: Ich denke, am Ende kommt es auf das Volumen an. Ist unser AD Max-Modell dieses Jahr marktführend in Bezug auf das Verkaufsvolumen? Tatsächlich ist dies der härteste Indikator. Ich schaue mir nur die Autos von Max an, nicht die Gesamtzahl, die ich diesen Monat verkauft habe, aber wenn AD Max nur 10.000 verkauft, bedeutet das, dass das, was ich mit AD Max gemacht habe, ein Misserfolg war. Aber wenn ich sage, dass ich erfolgreich bin, wird es bei Max der Fall sein Sei hoch.
In dem Monat seit der Einführung von 6.0 bis zur End-to-End-Einführung sind unsere Autobesitzer tatsächlich häufiger in den Laden gegangen und auch die Verkäufe sind gestiegen. Der Anteil der Bestellungen unserer Benutzer für AD MAX ist von 37 % im Mai auf 49 % gestiegen. Beim L9-Modell entfielen 75 % der Bestellungen auf AD MAX. Ich denke, das ist am überzeugendsten, wenn Nutzer tatsächlich für Ihr Produkt bezahlen.
Für uns intern hatten wir bei der Strategiesitzung im März dieses Jahres auch eine Überlegung, dass wir nicht zu sehr auf die Konkurrenz achten sollten. Warum haben sich im ersten Halbjahr dieses Jahres alle über die durchschnittliche Qualität unserer ersten Version ohne Bilder beschwert? Das Problem war damals, dass wir zu sehr auf die Konkurrenz geachtet haben Wettbewerbs-Benchmark, und seine Übernahmerate und Produktindikatoren wurden zu unserem In der Tat, wenn wir uns nur diese Indikatoren ansehen, ist unsere Version nicht schlecht, aber die Benutzererfahrung ist nicht gut, also haben wir sie schließlich in Benutzererfahrung und Bewertung geändert, anstatt sie nur anzusehen die Indikatoren, aber die Indikatoren sind eine Referenz. Es ist etwas, das gesehen werden muss.
Frage: Nachdem Tesla FSD auf den Markt gekommen ist und einige Probleme mit den Straßenverhältnissen in China gelöst hat, stehen einige führende Automobilhersteller möglicherweise an der gleichen Startlinie. Woran werden zu diesem Zeitpunkt alle arbeiten?
Lang Xianpeng: Dies hängt auch mit einigen unserer nachfolgenden Pläne zusammen. Ich glaube, dass führende Akteure dies früher oder später definitiv tun werden. Sobald Sie in diese Richtung gehen, wird die Kluft zwischen allen definitiv größer, anstatt wie jetzt ein Hilfsfahrer zu sein, denken Sie doch, dass jemand mit 7.000 Yuan das schaffen kann, oder? Sie können es mit 1 Orin tun, Sie können es mit 2 Orin tun, Sie können es mit 4 Orin tun, aber wenn Sie wirklich das Zeitalter der künstlichen Intelligenz erreichen, wird jeder tatsächlich zwei Dinge tun.
Das erste ist, ob Sie über genügend hochwertige Daten verfügen, und das zweite ist, ob Sie über einen Cluster mit ausreichend Trainingsrechenleistung verfügen, um diese zu erreichen. Letztendlich müssen also alle um Rechenleistung und Daten kämpfen, aber um die Schwelle dafür Zwei Dinge sind sehr hoch: Wenn die Kapitalreserven Ihres Unternehmens nicht ausreichen, um Ihre jährlichen Schulungskosten zu decken, können Sie die späteren L3- oder L4-Fahrzeuge nicht nutzen Unterstützen Sie Ihren Schulungsbedarf.
Wir haben ursprünglich geschätzt, dass die derzeitige ideale jährliche Investition in die Schulung 1 Milliarde Yuan beträgt. Wir schätzen, dass die zukünftigen Kosten 1 Milliarde US-Dollar pro Jahr betragen werden. Dabei handelt es sich nur um die Rechenleistung der Schulung und nicht um sonstiges Personal Wenn Sie also nicht 1 Milliarde US-Dollar pro Jahr für die Ausbildung ausgeben können, scheiden Sie möglicherweise im zukünftigen Wettbewerb zum autonomen Fahren aus.
Frage: Eine Milliarde US-Dollar pro Jahr, wie lässt sich das ableiten?
Lang Xianpeng:Aus Sicht der Modellparameter ist es am direktesten. FSD V12.3-12.5 erweitert das Modell um das Fünffache und die Rechenleistung wird um das Fünffache erweitert hat etwa 300 bis 400 Millionen Parameter und dann sind es 2,2 Milliarden Parameter. Durch die Thor-Generation wurde die Rechenleistung des Modells natürlich nicht unverändert bleiben Auch die Trainingsrechenleistung muss verdoppelt werden. Ich denke, das ist die Logik.
F: Befinden sich inländische Hersteller jetzt auf dem gleichen Ausgangspunkt für den End-to-End-Weg?
Lang Xianpeng: Inländische Hersteller sind von Anfang bis Ende auf der gleichen Linie, aber ich denke, wenn man sich das One Model anschaut, könnte Ideal die Nase vorn haben.Auf der Grundlage von One Model haben wir zunächst unsere eigene Version von Bird Egg veröffentlicht. Dies war eine relativ große Veröffentlichung und Auslieferung im Maßstab von Tausenden von Menschen, und jeder hat dieses End-to-End und die Leistungsverbesserung tatsächlich erlebt und Erfahrungen, die so etwas mit sich bringt, wurden bisher noch nicht gezeigt. Mein Urteil basiert jetzt auf dieser Grundlage.
Frage: Unterstützt das Unternehmen die Themen Rechenleistung und Kartenkauf?
Lang Xianpeng: Unser Unternehmen unterstützt uns auch sehr. Jetzt kommt Li Xiang hin und wieder vorbei und fragt: „Lang Bo, reicht Ihre Karte noch aus?“ Wenn Sie nicht genug haben, bitten Sie jemanden, Ihnen bei der Lösung zu helfen. Ich sage „Ja“ und danke Ihnen. Obwohl es uns in allen Aspekten unserer Geschäftstätigkeit sehr gut geht, denke ich, dass Li Xiang über ein relativ umfassendes Verständnis der künstlichen Intelligenz verfügt. Daher machen wir uns keine besonderen Sorgen über die Rechenleistung usw. Wenn ich den Haushalt genehmigen möchte, denke ich, dass er diese berücksichtigen wird.
Frage: Sie haben erwähnt, dass nicht jeder Automobilhersteller autonomes Fahren kann. Wie viel Rechenleistung ist erforderlich, um den Eintrittskartenstandard zu erfüllen?
Lang Xianpeng: Nachdem wir unsere Ideale nun umgesetzt haben, müssen wir einen Rechenleistungsaufwand von 1 Milliarde Yuan pro Jahr haben. Wenn Sie keines haben, ist entweder Ihre Iterationsgeschwindigkeit langsam oder Ihr Produkt ist nicht wettbewerbsfähig genug. Wir gehen davon aus, dass für eine solche Rechenleistung in Zukunft eine Investition in Höhe von 1 Milliarde US-Dollar nötig sein könnte. Wir haben es mittlerweile auf etwa 15.000 Karten angerechnet, was schon recht angespannt ist Tag, aber mit der Zeit denke ich, dass die Zunahme der Anzahl der Modellparameter mindestens das 3- bis 4-fache (Eingabe) beträgt, was sich vernünftiger anfühlt. Da sich die Rechenleistung selbst stark verbessert hat, haben sich auch die Bandbreite und der Speicher stark verbessert, was meiner Meinung nach im Grunde dem Gefühl kleiner 100.000 A100 entspricht, was etwa 3 Milliarden Flops Rechenleistung entspricht.
Frage: Ist diese Art von Investition endlos, oder wird es eine Obergrenze geben, oder sie kann sich an einem bestimmten Punkt einpendeln? Wie kann das Gleichgewicht der Kommerzialisierung sichergestellt werden?
Jia Peng: In den letzten zwei Jahren sind die Modellparameter von mehreren zehn Milliarden auf Billionen oder sogar 10 Billionen Parameter gestiegen. Das ist eine sehr steile Kurve, aber in letzter Zeit haben alle wieder darüber nachgedacht, ob größer besser ist, und jetzt beginnt sie ein wenig zu schrumpfen. Vielleicht erfordert die Herstellung einiger großer Modelle im professionellen Bereich nicht so viele Parameter Da die Datenqualität ausreichend ist, muss die Anzahl meiner Modellparameter möglicherweise nicht so groß sein. Sie kann nach einer Weile wieder sinken, aber ich denke, sie wird irgendwann einen stabilen Zustand erreichen Ist die Anzahl der Modellparameter oder die Rechenleistung, wird es einen solchen Prozess geben, der zunächst schnell bergauf geht, und am Ende kann es sein, dass er ein wenig zurückkommt und dann eine echte Praktikabilität erreicht.
F: In der ersten Hälfte des Elektrowettbewerbs hat TeslaBYDWie wird der Wettbewerb um intelligentes Fahren in der zweiten Hälfte aussehen, nachdem die Konkurrenz weit hinter sich gelassen wurde?
Lang Xianpeng:In der ersten Hälfte geht es um Elektrifizierung, und in der zweiten Hälfte geht es definitiv um Intelligenz. Als nächstes werden Sie sicherlich einen Teil unserer Investitionen und Leistungen in Intelligenz sehen.