2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
kann autonomes fahren wirklich realität werden?
die menschheit hat unzählige zeit und geld in die entwicklung des autonomen fahrens investiert. heutzutage haben häufige unfälle, endlose geldverbrennung und langsamer fortschritt viele verwirrungen und fragen hervorgerufen: ist fahrerloses fahren ein betrug oder ist die branche sogar tot?
diese branche ist wirklich eine der am stärksten gespaltenen branchen, die ich je gesehen habe. jede fraktion hat unterschiedliche ansichten, schaut aufeinander herab und beschuldigt sich gegenseitig. und sich gegenseitig besiegen. jeder gibt sein eigenes geld aus.
das ergebnis ist, dass das autonome fahren noch vor 2024 in den kalten winter eintreten wird.
aber in diesem kalten winter, als musk behauptet, teslas fsd „durch end-to-end-ki-technologie“ rekonstruiert zu haben, und ankündigte, dass er in die autonome taxibranche (robaxi) einsteigen wird, scheint es neue vitalität und hoffnung zu geben.
kann uns end-to-end zum echten fahrerlosen fahren führen? liegen l2 und l4 beim autonomen fahren wirklich weit auseinander? wo hat sich die fahrerlose technologie heute entwickelt? ist der kampf zwischen reiner vision und multimodalität wirklich endlos?
um zu erkunden, wie sich die autonome fahrbranche entwickelt, haben wir drei monate lang interviews mit den modernsten autonomen fahrunternehmen auf dem weltmarkt geführt, darunter ehemalige kernmitarbeiter von waymo und cruise, ehemalige tesla fsd-ingenieure sowie primär- und sekundärmarktinvestoren . es gibt bis zu zehn fachleute in der autonomen fahrbranche.
wir haben festgestellt, dass die branche immer noch fragmentiert ist und in vielen technischen bereichen kein konsens in der branche besteht.
in dieser artikelserie werden wir den spitzenstatus der heutigen autonomen fahrtechnologie aus verschiedenen perspektiven wie wahrnehmung, algorithmen, produkten, betrieb, wirtschaft und recht untersuchen.
in diesem artikel gehen wir zunächst umfassend auf die technologie ein und analysieren sie in der nächsten ausgabe aus betrieblicher und wirtschaftlicher sicht.
1. was ist autonomes fahren?
machen wir zunächst eine konzeptionelle unterscheidung: was ist der unterschied zwischen fahrerlosem fahren und autonomem fahren?
je nach intelligenzgrad wird das autonome fahren in 6 stufen von l0 bis l5 eingeteilt:
l0 bedeutet keine automatisierung, l1 bedeutet fahrassistenz, l2 bedeutet teilautomatisches fahren, l3 bedeutet bedingt automatisches fahren, l4 bedeutet hochautomatisches fahren und l5 bedeutet vollautomatisches fahren, also echtes fahrerloses fahren.
waymo und cruise, die wir später erwähnten, sowie die von hou xiaodi gebauten unbemannten lastwagen gehören alle zur l4-stufe. der tesla fsd gehört jedoch zur l2-stufe, aber das tesla robotaxi, das musk behauptet, ist l4.
wenn man in dieser branche derzeit über autonomes fahren spricht, bezieht man sich daher im allgemeinen auf l4-unternehmen, da noch niemand l5 erreichen kann und autonomes fahren im allgemeinen alle ebenen umfasst und eine allgemeinere bezeichnung ist.
werfen wir einen blick darauf, wie die branche des autonomen fahrens begann.
obwohl menschen bereits vor 100 jahren damit begannen, autonomes fahren zu erforschen, gilt als offizieller ursprung des modernen autonomen fahrens die darpa challenge des us-militärs im jahr 2004.
nach mehreren jahren der entwicklung wurde eine operative verbindung von wahrnehmung, planung und kontrolle gebildet. das wahrnehmungsmodul umfasst wahrnehmung und vorhersage.
die wahrnehmungsschicht muss mithilfe von sensoren wie radar und kameras die straßenbedingungen vor ihnen ermitteln, die bewegungsbahnen von objekten vorhersagen und in echtzeit eine karte der umgebung erstellen, was der üblichen vogelperspektive entspricht, die wir bei autos und anderen fahrzeugen sehen maschinen und geben diese informationen dann an die planungsschicht weiter. das system bestimmt die geschwindigkeit und richtung auf der grundlage des algorithmus und wird schließlich an die ausführungssteuerungsschicht übertragen, um die entsprechenden gas-, brems- und lenkgetriebe zu steuern.
später, mit dem aufkommen der ki, begannen die menschen, die maschine selbstständig fahren zu lassen. nachdem das simulationstraining ein bestimmtes niveau erreicht hatte, konnte es mit dem testen auf der straße beginnen .
als tesla in den letzten zwei jahren die „end-to-end“-lösung auf die fsd v12-version anwendete, begann sich auch die operative verbindung von wahrnehmung, planung und kontrolle zu ändern.
als nächstes werden wir uns auf die beiden technischen wege der autonomen fahrbranche auf der wahrnehmungsebene konzentrieren: die reine visuelle schule und die multimodale fusionsschule. diese beiden fraktionen kämpfen seit vielen jahren und jede hat ihre eigene verdienste. lasst uns über ihre beschwerden und ihren hass sprechen.
2. wahrnehmung: reine vision vs. multimodale fusion
derzeit gibt es zwei gängige wahrnehmungslösungen für automobile.
die erste ist eine von vielen unternehmen eingesetzte multimodale fusionssensorlösung, die von sensoren wie lidar, millimeterwellenradar, ultraschallsensoren, kameras und trägheitsmesseinheiten gesammelte informationen aggregiert und zusammenführt, um die umgebung zu bestimmen.
zurück zur darpa challenge, die wir im vorherigen kapitel erwähnt haben: obwohl kein fahrzeug das rennen beendete, erkannte ein teilnehmer namens david hall die bedeutung von lidar während des wettbewerbs, velodyne, das unternehmen gegründet, begann mit der umstellung von audio auf lidar.
zu dieser zeit scannte lidar mit einer einzigen linie und konnte entfernungen nur in einer richtung messen. david hall erfand jedoch ein mechanisches rotierendes lidar mit 64 linien, das die umgebung um 360 grad scannen konnte.
später nahm er mit diesem rotierenden lidar an der zweiten darpa challenge im jahr 2005 teil. schließlich beendete ein auto mit 5 lidars auf dem kopf das rennen und gewann die meisterschaft.
aber das war nicht das auto von david hall ... sein auto ging wegen eines mechanischen defekts auf halbem weg aus dem verkehr, aber seine leistung machte allen klar, dass lidar ein „plug-in“ ist.
bei der dritten darpa challenge im jahr 2007 nutzten fünf der sechs teams, die den wettbewerb beendeten, das lidar von velodyne. zu diesem zeitpunkt erfreut sich lidar zunehmender beliebtheit in der branche des autonomen fahrens, und velodyne hat sich auch zum führenden unternehmen im bereich automobil-lidar entwickelt.
zhang hang (senior director scientist bei cruise):
unabhängig davon, ob es sich um cruise oder waymo handelt, basieren einige auf l4 basierende lösungen hauptsächlich auf lidar, mit dem standortinformationen direkt abgerufen werden können. in diesem fall sind die anforderungen an den algorithmus selbst relativ gering, und dann gibt es viele diese 3d-informationen können direkt über sensoren erfasst werden, was die robustheit und sicherheit des systems verbessert und einige long-tail-probleme erleichtert.
eine weitere technische fraktion ist die von tesla vertretene rein visuelle lösung, die sich ausschließlich auf kameras zur erfassung von umgebungsinformationen verlässt und dann neuronale netze verwendet, um 2d-videos in 3d-karten umzuwandeln, die hindernisse und vorhersagen der umgebung, der geschwindigkeit und mehr enthalten information.
im vergleich zur lidar-lösung, die 3d-karten direkt generiert, gibt es bei pure vision einen zusätzlichen prozess zur konvertierung von 2d in 3d. nach ansicht von zhang hang bringt die reine abhängigkeit von „video“-trainingsdaten, denen 3d-informationen fehlen, gewisse herausforderungen für die sicherheit mit sich.
zhang hang (senior director scientist bei cruise):
es erfordert eine große menge an trainingsdaten, um den mangel an 3d-informationen zu erkennen. da es kein referenzobjekt gibt, ist es schwierig, eine grundwahrheit (wahre wertdaten) zu erhalten. wenn diese halbüberwachung vollständig erfolgt, ist es meiner meinung nach schwieriger, systemsicherheit auf der grundlage der lernmethode zu erreichen. ich denke, teslas hauptzweck besteht darin, die kosten zu kontrollieren, einschließlich der modifizierung einiger schaltmechanismen, um bei einigen teilen kosten zu sparen.
doch laut yu zhenhua, einem ehemaligen ki-ingenieur bei tesla, geht es bei der entscheidung für pure vision nicht nur um kosteneinsparungen.
1. mehr gleich chaos?
yu zhenhua (ehemaliger tesla-ki-ingenieur):
tatsächlich verfügte teslas ursprüngliches autopilotsystem über millimeterwellenradar. die sensorfusion ist tatsächlich ein sehr komplexer algorithmus, der jedoch nicht unbedingt gut ist, wenn er implementiert wird.
ich hatte damals ein auto, das eines der letzten autos war, das über ein millimeterwellenradar verfügte. im jahr 2023 wurde mein auto einer wartung unterzogen und der servicetechniker hat mein radar automatisch entfernt. was ist das fazit dieser angelegenheit? der ausbau des millimeterwellenradars hat keine kostengründe, da mein auto dort bereits über ein millimeterwellenradar verfügt. der hauptgrund dafür ist, dass das reine sehen das millimeterwellenradar überholt hat. also führt tesla eine subtraktion durch und entfernt einige überflüssige dinge, die er für unnötig oder umständlich hält.
yu zhenhua glaubt, dasswenn der fusionsalgorithmus nicht gut funktioniert oder wenn reines sehen ausreichend gute ergebnisse erzielen kann, werden mehr sensoren zur belastung.
viele von uns befragte l4-praktiker waren sich auch einig, dass mehr informationen nicht besser sind. im gegenteil, zu viele zusätzliche ungültige informationen, die von sensoren gesammelt werden, erhöhen die belastung des algorithmus.
kann man sich also ausschließlich auf den kamerasensor verlassen, den musk immer befürwortet hat?
2. weniger ist mehr?
da menschen nur mit zwei augen fahren können, sagte musk, könnten autos auch allein auf der grundlage von bildinformationen autonom fahren. allerdings sei die sorge der branche um reine visuelle täuschung gewesen, was in der vergangenheit tatsächlich zu weniger unfällen geführt habe.
beispielsweise identifiziert tesla einen weißen lastwagen als himmel und den mond als gelbes licht, oder ideal identifiziert den inhalt einer werbetafel als auto, was zu unfällen wie plötzlichem bremsen und auffahrunfällen bei hohen geschwindigkeiten führt.
bedeuten diese fälle, dass reine visuelle lösungen ohne tiefeninformationen inhärente mängel aufweisen?
yu zhenhua (ehemaliger tesla-ki-ingenieur):
mehrere informationsströme können tatsächlich mehr informationen liefern, aber sie müssen eine frage beantworten: verfügt die kamera selbst nicht über genügend informationen? oder reicht die fähigkeit des algorithmus, informationen zu extrahieren, nicht aus?
wenn sie beispielsweise plötzlich bremsen oder sich beim fahren auf stadtstraßen unwohl fühlen, liegt die ursache tatsächlich in der unzureichenden einschätzung der geschwindigkeit und des winkels der umliegenden objekte. wenn dies der grund ist, ist lidar in der tat viel besser als kameras, weil es liefern kann wenn sie direktere informationen bereitstellen, liefert ihnen die kamera tatsächlich informationen, aber unser algorithmus ist nicht gut genug, um solche informationen herauszufinden.
yu zhenhua glaubt nicht, dass die hauptursache für visuelle täuschung unzureichende informationen von der kamera sind, sondern dass der algorithmus nicht ausreicht, um die von der kamera bereitgestellten informationen zu verarbeiten oder auszuwerten. er glaubt, dass insbesondere nach der einführung des fsd v12-algorithmus von tesla bewiesen wurde, dass die gewinnung und verarbeitung von kamerainformationen erheblich verbessert wurde, wenn der algorithmus stark optimiert wurde.
yu zhenhua (ehemaliger tesla-ki-ingenieur):
das heutige fsd v12 ist nicht perfekt und weist viele probleme auf, ich habe jedoch bisher nicht herausgefunden, welches problem auf unzureichende sensoren zurückzuführen ist. natürlich waren vor dem v12 viele probleme auf unzureichende sensoren zurückzuführen, aber beim heutigen v12 gibt es dieses problem nicht.
l4-praktiker haben jedoch eine andere perspektive. sie glauben, dass kameras natürliche nachteile haben.
zhang hang (senior director scientist bei cruise):
ich persönlich halte es für schwierig und glaube nicht, dass es unbedingt ein problem mit dem algorithmus selbst ist.
erstens ist die kamera selbst nicht so kompliziert wie das menschliche auge. jede kamera hat einige parameter und ihre grenzen.
dann ist da noch der algorithmus selbst. ich muss nur wissen, welche autos und welche fußgänger das verhalten meines autos beeinflussen punkte reichen aus und ich brauche nicht viel rechenleistung. diese höhe kann ich durch algorithmen kurzfristig nicht erreichen.
zhang hang, der in der l4-forschung tätig ist, glaubt, dass kameras nicht mit dem menschlichen auge mithalten können. der hauptgrund dafür ist, dass die brennweite und die pixel der kamera fest sind, während das menschliche auge eine sehr hohe präzision hat und automatisch zoomen kann. gleichzeitig kann der springende denkmodus des menschen kurzfristig nicht auf computer übertragen werden, sodass lidar die mängel von kameras ergänzen kann.
es gibt jedoch auch andere meinungen auf dem markt, die davon ausgehen, dass andere sensoren neben visuellen informationen auch störinformationen liefern.
lidar hat beispielsweise auch seine eigenen mängel, da es laserentfernungsmessungen verwendet, wenn es mit reflektierenden objekten, regen oder schnee oder von anderen autos emittierten lasern konfrontiert wird, wird es lidar stören und schließlich illusorische effekte verursachen.
liu bingyan (leiter von kargo software):
ich bin ein sehr strenger, rein visueller mensch. die straßen dieser welt sind für menschen und visionen konzipiert. natürlich kann man die informationen, die man sammelt, auch als störungen betrachten informationen stellen interferenzen dar, und um welchen tatsächlichen wert handelt es sich dabei? um welche art von verbreitung handelt es sich? ich denke, je besser die grafik wird, desto eher könnte das genaue gegenteil der fall sein.
wenn ein multisensor-fusionsalgorithmus entwickelt werden kann, der es ermöglicht, lidar- und bildinformationen gegenseitig zu überprüfen, kann die sicherheit des systems weiter verbessert werden.
hou xiaodi schlug eine anschauliche metapher vor:wenn zwei schüler des gleichen niveaus die prüfung ablegen, hat es am ende derjenige leichter, der einen taschenrechner benutzt. es ist allein die wirtschaftliche grundlage, die darüber entscheidet, ob er sich einen taschenrechner leisten kann.
die debatte zwischen reiner vision und lidar-basierten multimodalen fusionslösungen wird schon seit mehreren jahren geführt, und es scheint, dass es kurzfristig keine antwort geben wird. oderfür einige startups ist der weg überhaupt nicht so wichtig, aber kosten- und wirtschaftsrechnungen sind am wichtigsten.
hou xiaodi (ehemaliger gründer und ceo von tusimple, gründer von bot.auto):
früher galt ich als visueller mensch, da lidar zu dieser zeit noch nicht verfügbar war und wir gezwungen waren, mehr visuelle lösungen zu finden.
ich bin auch nicht gegen lidar;wann wurde lidar billig? ich war der erste, der in der warteschlange stand.lidar ist jetzt wirklich günstig, deshalb stehe ich auch schlange, um lidar zu kaufen. für mich ist es eine gute katze, die die maus fängt. solange die kosten für dieses gerät niedrig genug sind und dieses gerät uns aus informationstheoretischer sicht ausreichend wertvolle informationen liefern kann, sollten wir es verwenden.
david (moderator von „big horses talking about technology“):
chinas kreis des autonomen fahrens stellte diese hardware wie lidar und millimeterwellenradar schnell zu einem schnäppchenpreis zur verfügung. sollten wir in diesem zustand immer noch eine reine vision wie tesla verfolgen? tatsächlich zögern viele unternehmen jetzt, ein solid-state-lidar für mehr als 1.000 yuan zu kaufen oder reines sehen zu verwenden, aber das wird eine menge rechenleistung verschwenden.
yu zhenhua (ehemaliger tesla-ki-ingenieur):
ich finde 1.000 yuan zu teuer und tesla ist nicht einmal bereit, einen regensensor zu verwenden.
wang chensheng (ehemaliger einkaufsleiter von tesla):
aber ich denke, wenn der umfang der lieferkette zunimmt und die kosten erheblich sinken, wenn lidar einen preis erzielen kann, der dem von kameras ähnelt, insbesondere in einem end-to-end-anwendungsszenario, ist reine vision dann immer noch ein einzigartiger weg?
3. buße tun?
da der preis für lidar deutlich gesunken ist, ist die branche interessanterweise uneinig darüber, ob teslas kommendes selbstfahrendes taxi lidar verwenden wird.
zhang hang glaubt beispielsweise, dass tesla möglicherweise einen konservativeren weg wählt und lidar verwendet, das einst missachtet wurde, da für robotaxi kein menschliches eingreifen erforderlich ist und das unternehmen verantwortung übernehmen muss, wenn etwas schief geht.
zhang hang (senior director scientist bei cruise):
insbesondere wenn es für betriebsunfälle verantwortlich sein muss, muss es konservativer vorgehen, und ich denke, dass möglicherweise ein zusätzlicher sensor erforderlich ist. aus dieser perspektive könnte tesla einige technologien übernehmen, die es zuvor verachtete.solange dieses ding nützlich ist und seinen l4-zweck erreichen kann, wird es es nach und nach übernehmen.
kürzlich haben wir auch herausgefunden, dass tesla auch einige aspekte von l4 und l5 in betracht zieht und auch über eine zusammenarbeit mit einigen herstellern dieses lidars spricht, sodass es sein kann, dass jeder auf unterschiedlichen wegen zum gleichen ziel gelangt.
in diesem jahr veröffentlichte der lidar-hersteller luminar seinen finanzbericht für das erste quartal, aus dem hervorgeht, dass teslas bestellungen 10 % erreichten und es damit zum größten kunden machten. aber yu zhenhua war anderer meinung und dachte, dass dies nichts neues sei.
yu zhenhua (ehemaliger tesla-ki-ingenieur):
erstens geht es definitiv nicht um den einsatz von lidar in zukünftigen massenautos, denn der gesamtumsatz von luminar im ersten quartal scheint 20 millionen us-dollar zu betragen, und 10 % sind 2 millionen, was nicht ausreicht, um mehrere zu installieren lidars. tatsächlich ist es kein geheimnis, dass die technischen fahrzeuge und testfahrzeuge von tesla mit lidar ausgestattet sind. der lidar wird zur erfassung von bodenwahrheiten (true-value-daten) für das training neuronaler netze verwendet, da menschen nicht markieren können, wie viele meter ein objekt von ihnen entfernt ist . zur markierung müssen spezielle sensoren verwendet werden.
aber warum lumina dies im ersten quartal offengelegt hat, verwirrt mich tatsächlich sehr, denn musk antwortete damals auch und sagte, dass wir nach erreichen von v12 keine echten wertdaten mehr benötigen, da diese durchgängig sind und das netzwerk beanspruchen das ist eine frage der v11-ära. ich denke vielleicht, dass es hier einige missverständnisse gibt, also aufgrund der finanzberichte oder finanzregeln.
obwohl es derzeit ungewiss ist, ob teslas kommendes robotaxi mit lidar ausgestattet sein wird, ist eines sicher: mit der aktuellen sensorkonfiguration von tesla reicht die sicherheit nicht aus, um l4 zu erreichen oder ein robotaxi zu betreiben.
liu bingyan (leiter von kargo software):
ich bin mir sehr sicher, dass die vorhandenen tesla-modelle sehr deutliche tote winkel haben, also tote winkel, die visuell nicht zugänglich sind, und dieser tote winkel wird dazu führen, dass er, wenn er das nonplusultra erreichen will, sei es autonomes fahren l4 oder l5, sein nächstes ziel erreicht das auto muss dieses problem des toten winkels lösen.
wir werden teslas neuestes end-to-end-technologie-update in den kapiteln 3 und 4 im detail zerlegen und spekulationen über die details von robotaxi anstellen, die im oktober bekannt gegeben werden sollen. lassen sie uns als nächstes zunächst eine weitere wichtige technologie in der wahrnehmung besprechen: hochpräzise karten.
4. zeitlos?
neben lidar sind auch hochpräzise karten eine große kostenquelle bei der sensorik des autonomen fahrens.
hochpräzise karten sammeln straßeninformationen im voraus, verringern den druck auf das wahrnehmungsmodul, 3d-karten zu zeichnen, und verbessern die genauigkeit.
zufälligerweise war sebastian thrun, der gewinner der zweiten darpa challenge im jahr 2005, der erste, der hochpräzise karten propagierte, der autobesitzer mit fünf lidars auf dem kopf.
während der darpa challenge 2004 bereitete google-gründer larry page persönlich die wettbewerbsseite vor, um talente zu identifizieren. nach dem wettbewerb wandte sich page an sebastian thrun und lud ihn ein, bei google mitzumachen die zeichnung der karte wurde ihm gegeben.
dabei wurde thrun und page plötzlich klar:wenn es eine karte gibt, die alle fahrspurlinien, verkehrszeichen, ampeln und andere straßeninformationen genau aufzeichnen kann, wird dies eine große hilfe für das autonome fahren sein., was auch die wichtige stellung hochpräziser karten in autonomen fahrprojekten festlegt.
die erstellung hochpräziser karten ist jedoch sehr teuer. die durchschnittlichen kosten für die sammlung hochpräziser karten betragen etwa 5.000 us-dollar pro kilometer. wenn sie 6,6 millionen kilometer straßen in den vereinigten staaten zurücklegen möchten, betragen die kosten allein die sammlung wird 3,3 milliarden us-dollar erreichen.
in verbindung mit den häufigen wartungskosten der karte wird der endverbrauch unvorstellbar astronomisch sein.
viele automobilhersteller fördern mittlerweile kartenlose lösungen, die auf hochpräzise karten verzichten und stattdessen fahrzeuge nutzen, um umweltkarten vor ort zu erstellen.
ein von uns anonym befragter ingenieur für autonomes fahren sagte, dass diese vergleiche und werbeaktionen eher auf geschäftsmodellüberlegungen zurückzuführen seien. für unternehmen, die robotaxi-geschäfte betreiben, kann die verwendung hochpräziser karten die sicherheit erhöhen.für automobilunternehmen kann der verzicht auf hochpräzise karten die kosten effektiv senken. dies bedeutet also nicht, dass der verzicht auf hochpräzise karten zu einem höheren technischen niveau führt.
anonymer befragter (l4-ingenieur):
huawei hat auch eine ideallösung: ein massenauto. kunden kommen aus verschiedenen städten und sie möchten es in jeder stadt fahren können.
die hauptschwelle für die gängige hochpräzisionskarte besteht darin, dass ein kartenerfassungsprozess erforderlich ist. dieser kartenerfassungsprozess ist tatsächlich relativ zeitaufwändig und arbeitsintensiv und erfordert auch professionelles fachwissen über dieses kartenerfassungsgerät.
wenn sie also in der massenproduktion von autos tätig sind, können sie nicht sagen, dass ich ein eigenes kartensammlungsauto habe und dass ich für sie durch ganz china gereist bin. das ist unrealistisch.
l2-unternehmen wie tesla, huawei und ideal haben auf hochpräzise karten verzichtet, weil sie nicht jede straße und gasse abdecken konnten.
während waymo und cruise dies taten, entschied sich das l4-unternehmen von robotaxi dafür, weiterhin hochpräzise karten zu verwenden, weil sie dies fandenwir müssen nur einige wichtige städte abdecken, um genügend märkte zu erobern.
daher wird entschieden, ob hochpräzise karten verwendet werden sollendas finanzbuchhaltungsproblem von robotaxi ist kein technisches problem.
minfa wang (ehemalige leitende ingenieurin für maschinelles lernen bei waymo):
wenn sie sich nur das geschäftsmodell von robotaxi ansehen und die nachfrage nach robotaxi in den vereinigten staaten aufteilen, werden sie feststellen, dass die fünf größten städte bereits die hälfte des kommerziellen volumens in den vereinigten staaten ausmachen. sie müssen es nicht zum laufen bringen tatsächlich gibt es überall in den vereinigten staaten bereits einen ziemlich großen markt.
in ähnlicher weise teilte ein anderer von uns interviewter gast, der an selbstfahrenden l4-lkw arbeitet, mit, dass er, wenn er seine betriebsrouten erweitern möchte, d. h. die abdeckung hochpräziser karten erweitern möchte, zunächst messen muss, ob diese route rentabel ist ich werde nur ratlos einen verlust machen.
nach einer solchen gesprächsrunde gibt es in der branche keine einheitliche ansicht über die wahrnehmung. genau wie hou xiaodi sagte: eine katze ist eine gute katze, wenn sie mäuse fängt.
konzentrieren wir uns als nächstes auf die jüngsten fortschritte bei autonomen fahralgorithmen, denen in letzter zeit alle große aufmerksamkeit schenken, insbesondere auf die „end-to-end“-technologie, die tesla kürzlich gefördert hat. um welche technologie handelt es sich? wird es wirklich die richtung der autonomen fahrbranche verändern?
3. algorithmus: ist end-to-end die zukunft des autonomen fahrens?
1. was ist tradition?
der traditionelle betriebsablauf des autonomen fahrens besteht darin, zunächst zu erfassen, vorherzusagen, dann zu planen und schließlich zu steuern.
das wahrnehmungsmodul muss zunächst die straße mithilfe von sensoren wie kameras und radargeräten identifizieren, diese informationen in eine sprache übersetzen, die die maschine sehen kann, und sie an das vorhersagemodul weiterleiten.
das vorhersagemodell beurteilt die fahrrouten anderer fahrzeuge und fußgänger, leitet diese informationen dann an das planungsmodul weiter, um den weg mit dem geringsten risiko zu finden, und leitet schließlich das steuersignal an das steuerungssystem weiter.
der algorithmus wird derzeit hauptsächlich von der „regelbasis“ gesteuert. ingenieure müssen kontinuierlich verschiedene regeln schreiben, z. b. das verlangsamen bei der begegnung mit fußgängern, das anhalten an roten ampeln usw. um verschiedene situationen zu berücksichtigen, ist die regelbasis erforderlich man muss möglichst alle möglichkeiten abdecken und dementsprechend ist der code sehr, sehr lang.
welche schwierigkeiten gibt es bei einem solchen algorithmus?
das größte problem besteht darin, dass das system in verschiedene module unterteilt ist, die informationsübertragung zwischen den modulen jedoch verloren geht. wenn nachgelagerte personen keine umfassenden informationen erhalten können, erhöht sich die schwierigkeit der vorhersage und planung.
um ein einfaches und leicht verständliches beispiel zu nennen: jeder hat schon einmal vom multiplayer-teleportationsspiel gehört, oder? 10 personen tragen einen satz vom anfang bis zum ende vor, aber oft gehen die details während des vortrags durch mehrere personen verloren oder werden manipuliert, sodass die bedeutung völlig anders ist, wenn sie die letzte person erreicht.
ähnlich verhält es sich im herkömmlichen regelbasierten modell: wenn das modul der oberen schicht nicht gut genug funktioniert, wirkt sich dies auf die leistung der nächsten schicht aus.
ein weiterer nachteil besteht darin, dass die regeln alle von menschen entworfen und definiert werden, die begrenzten regeln jedoch nicht unendlich viele mögliche situationen im wirklichen leben abdecken können. für einige ungewöhnliche und leicht zu übersehende probleme ist es für maschinen schwierig, entsprechende lösungen zu finden. der „long-tail-fall“ wird auch „corner-fall“ genannt, was bei einer großtechnischen umsetzung zu sehr hohen kosten führen wird.
yu zhenhua (ehemaliger tesla-ki-ingenieur):
eine andere sache ist, dass diese technologie meiner meinung nach schwer zu skalieren ist, wenn sie in zwei module unterteilt ist. jedes mal, wenn sie einer realistischen, komplexen szene eine neue aufgabe hinzufügen, müssen sie einige neue schnittstellen hinzufügen und die wahrnehmung und steuerungsplanung ändern.
nehmen wir zum beispiel tesla: vor einigen jahren verlangte die us-amerikanische transportsicherheitsbehörde, dass tesla einsatzfahrzeuge wie feuerwehrautos und krankenwagen erkennt und diese dann auch kontrolliert dies ist nur eine aufgabe. es kann sein, dass es hunderte oder tausende solcher aufgaben gibt. wussten sie, dass es bei huawei tausende von ingenieuren gibt? etwa 6.000 ingenieure, denn je komplexer die umgebung, desto mehr aufgaben sind meiner meinung nach kein skalierbares modell.
david (moderator von „big horses talking about technology“):
diese methode ist noch relativ altmodisch. obwohl sie für die robotaxi-industrie eine relativ intelligente methode zu sein scheint, kann sie den anforderungen von personenkraftwagen und millionen von fahrzeugen, die in zukunft auf den straßen auf der ganzen welt fahren, nicht gerecht werden.
was sind also die lösungen für diese probleme? zu diesem zeitpunkt müssen wir über „end to end“ sprechen.
2. neue superstars
im bereich des autonomen fahrens lautet die derzeit gängige definition von „end-to-end“:die vom sensor gesammelten informationen werden ohne verarbeitung an das große modell auf basis des neuronalen netzwerks weitergeleitet und die steuerungsergebnisse direkt ausgegeben.
mit anderen worten: es besteht keine notwendigkeit, verschiedene regeln manuell zu schreiben und den algorithmus das fahren lernen zu lassen, indem er den ihm zugeführten daten folgt.
yu zhenhua (ehemaliger tesla-ki-ingenieur):
denn wenn wir menschen fahren, beurteilen wir die geschwindigkeit und den winkel eines bestimmten autos nicht in unserem kopf. sie treffen ihre entscheidungen unbewusst in einer komplexen umgebung.
die denklogik, „algorithmen mehr wie menschen zu machen, weil menschen so funktionieren“, ist genau die richtung, die musk für die führung von tesla einnimmt. es ist kein wunder, dass „end-to-end“-technologie im autonomen fahren nicht neu ist. aber sie wurde zuerst entwickelt tesla.
obwohl tesla den fsd v12 ende 2023 erstmals mit „end-to-end“ auf den markt bringen wird, ist „end-to-end“ in der welt des autonomen fahrens nichts neues. tatsächlich hatte nvidia bereits 2016 ein papier vorgelegt, in dem „end-to-end“ vorgeschlagen wurde.
nun ist „ende-zu-ende“ auch in zwei typen unterteilt: die eine besteht darin, einige module durch neuronale netze zu ersetzen jedes modul um informationen zwischen ihnen zu übertragen, müssen noch verschiedene schnittstellen definiert werden, was zu datenverlust führt.
aus der mainstream-sicht kann es nur dann als reines „end-to-end“ betrachtet werden, wenn mehrere module zu einem ganzen integriert werden und die definitionen von wahrnehmungsschicht, vorhersageschicht und planungsschicht entfernt werden.
im jahr 2023 schlug cvprs bestes papier „planungsorientiertes autonomes fahren“ vor, dass das bisherige „end-to-end“ entweder nur auf einigen modulen lief oder die einfügung einiger komponenten in das system erforderte.
in diesem artikel wird die uniad-modellarchitektur vorgeschlagen. dies ist das erste mal, dass alle erfassungs-, vorhersage- und planungsmodule in ein end-to-end-netzwerk-framework auf basis von transformer integriert werden.
im vergleich zur herkömmlichen regelbasierten (regelgesteuerten) ausführungsverbindung erfordert „end-to-end“ nicht mehr, dass algorithmusingenieure die regelbasis wiederholt verbessern. als musk fsd v12 veröffentlichte, behauptete er daher, dass „sein code gewachsen ist“. 300.000 zeilen bis es wurde auf 2.000 zeilen reduziert.
obwohl die „end-to-end“-technologie beim autonomen fahren nicht von tesla erfunden wurde, war tesla tatsächlich das erste unternehmen, das die „end-to-end“-technologie neuronaler netze entwickelte und auf den mainstream-markt brachte.
3. „end-to-end“-vorteile
im november 2023 veröffentlichte tesla die erste testversion von fsd v12, die jedoch nur ausgewählten mitarbeitern zugänglich war. bis anfang 2024 wird tesla damit beginnen, die fsd v12-version allen tesla-besitzern in den vereinigten staaten zugänglich zu machen, und jeder besitzer wird eine einmonatige kostenlose testversion erhalten.
nach der einführung von fsd v12 sorgte es eine zeit lang für aufruhr. aus der benutzererfahrung geht hervor, dass die meisten öffentlichen meinungen der meinung sind, dass die funktion von teslas fsd im vergleich zum vorgänger erheblich verbessert wurde „erster in der welt des autonomen fahrens“.
david (moderator von „big horses talking about technology“):
was mich wirklich glauben lässt, dass fortschritt planung ist, ist es beispielsweise bei kreisverkehren ziemlich schwierig, den kreisverkehr in der herkömmlichen planungsrichtung zu überqueren, weil das auto vor einem stecken bleiben muss und man einsteigen muss aus dem kreisverkehr heraus. wie richtet man die mittlere priorität ein?
selbst wenn sie die priorität festlegen, wie weit sollten sie sich vom auto vor ihnen und dem auto neben ihnen entfernt halten, bevor sie aussteigen können? das ist eigentlich eine sehr komplizierte logik, aber die leistung davon in der neuen version von fsd ist wirklich beeindruckend ich fühle mich großartig. das ist eine große überraschung.
viele leute, die fsd v12 erlebt haben, sagten, dass dieses system, das aus menschlichen fahrdaten lernt, einen sehr menschenähnlichen fahrstil hat und nicht mehr die frustration aufweist, die durch mechanische algorithmen verursacht wird.
aber gleichzeitig dachten einige gäste, nachdem sie es erlebt hatten:fsd v12 ist nicht so gut, dass die leute es verwenden müssen, und es gibt immer noch eine gewisse lücke zwischen ihm und l4.
justin mok (chief investment officer eines family office):
aber es ist nicht so gut wie gpt4, und es ist nicht so gut, dass ich dieses ding verwenden muss oder es sofort verwenden werde, und es kann für den einsatz in vielen meiner szenarien geeignet sein.
minfa wang (ehemalige leitende ingenieurin für maschinelles lernen bei waymo):
die leistung ist auf der autobahn relativ gut, aber auf der straße muss meiner meinung nach grundsätzlich alle 5 meilen oder so manuell übernommen werden.
besonders beim sogenannten ungeschützten linksabbiegen ist das relativ einfach, was mir das gefühl gibt, dass es kein sehr sicheres verhalten ist. wenn ihr mpi (übernahmekilometer) nur 5 beträgt, dann ist es offensichtlich weit von l4 entfernt liegt noch in weiter ferne.
ich habe die fsd 12.4.4-version auch selbst erlebt. im vergleich zu l4-fahrzeugen wie waymo macht mir der aktuelle tesla fsd zu bestimmten zeiten immer noch angst oder zeigt manchmal unerklärliches verhalten.
als ich beispielsweise nach rechts abbog, wäre der wenderadius des wagens zu groß gewesen und er hätte beinahe das entgegenkommende auto kollidiert, sodass ich manuell übernehmen musste.
aus leistungssicht gibt es beim „end-to-end“-fsd v12 noch raum für verbesserungen. aus technischer, betrieblicher und verwaltungstechnischer sicht bestehen die „end-to-end“-vorteile in drei punkten:
erstens kann es das gesamtsystem einfacher machen.nach dem entfernen der regelbasis müssen sie nur noch kontinuierlich trainingsfälle hinzufügen, um die modellleistung weiter zu verbessern, und auch die wartungs- und upgradekosten werden erheblich reduziert.
zweitens: sparen sie arbeitskosten.da „end-to-end“ nicht mehr auf einer komplexen regelbasis basiert, besteht keine notwendigkeit, ein großes entwicklungsteam einzusetzen oder sich gar auf experten zu verlassen.
drittens kann dadurch eine umfassendere werbung erreicht werden.sie sehen, dass l4-unternehmen derzeit nur in begrenzten bereichen tätig sein können, unabhängig von regulierungs- und lizenzbeschränkungen, da es sich nicht um eine „end-to-end“-lösung handelt und eine optimierung für bestimmte regionen und „end-to-end“-lösungen erforderlich ist „ kommt mit allen straßenbedingungen zurecht. , eher wie ein „universeller“ fahrer, was einer der gründe ist, warum tesla fsd v12 mit chatgpt verglichen wird.
kann „end-to-end“ angesichts der vielen vorteile die technischen probleme lösen, mit denen das autonome fahren derzeit konfrontiert ist?
4. black-box-modell
viele gäste, die wir interviewt haben, glaubten, dassderzeit ist die weiterentwicklung der end-to-end-route ein anerkannter trend im bereich des autonomen fahrens, aber es gibt immer noch viele probleme.
zhang hang (senior director scientist bei cruise):
ich denke, dass diese richtung die richtige ist. es ist für uns unmöglich, eine umfassende l4-lösung durch ständiges patchen zu erreichen. endlösung, daher ist jetzt ein widersprüchlicher zeitpunkt.
warum das aktuelle end-to-end immer noch weit hinter l4 zurückbleibt, beginnt mit seiner unsicherheit.
end-to-end ist wie eine blackbox, die mehr unsicherheit mit sich bringt.
beispielsweise können ingenieure nicht überprüfen, ob die eingabedatenfälle vom modell gelernt wurden. wenn sie auf einen fehler stoßen, können sie nicht feststellen, welcher link das problem verursacht hat oder ob die neu hinzugefügten daten dazu führen, dass das gelernte wissen vergessen oder überschrieben wird. , diese situation wird katastrophales vergessen genannt.
beispielsweise wurde die version von tesla fsd 12.4.2 schon vor langer zeit intern produziert, aber es hat lange gedauert, sie in großem maßstab voranzutreiben, da die eingespeisten daten viele videos enthielten, die manuell übernommen wurden es war schwierig, das niveau des modells zu senken.
da die essenz von end-to-end die nachahmung ist, ist die leistung sehr gut, wenn die angetroffene situation zufällig ähnliche fälle in den trainingsdaten aufweist. wenn sie jedoch die vorhandenen referenzfälle überschreitet, ist die leistung schlechter beispielsweise stellt end-to-end sehr hohe anforderungen an die menge der trainingsdaten und die fülle der fälle.
zhang hang (senior director scientist bei cruise):
wenn es an einer verkehrskreuzung eine rote ampel gibt, dürfen sie nicht über die rote ampel fahren. wenn sie heuristisch ist (heuristischer algorithmus), können wir einfach einen if else verwenden, um einen solchen effekt zu erzielen.
wenn es sich jedoch um ein vollständiges end-to-end-modell handelt, ist es letztendlich sehr schwierig für ihn, auf diese weise zu lernen. daher denke ich, dass es in kurzer zeit immer noch eine große lücke zwischen end-to-end-l4 gibt. ich denke, dieser algorithmus ist unausgereift.
liu bingyan (leiter von kargo software):
sie haben keine festen regeln, aber er kann versuchen, all die dinge zu tun, die sie festlegen und die nicht möglich sind. daher wird es in der simulation viele frontalzusammenstöße geben.
gleichzeitig bereiten manche menschen auch die unerklärlichkeit, die end-to-end mit sich bringt, sorge.
die sogenannte unerklärlichkeit bedeutet, dass änderungen an gewichten, knoten oder schichten im algorithmusmodell unvorhersehbare auswirkungen auf die leistung des modells haben. selbst die designer und trainer des modells können den zwischenprozess nicht kennen.
das gegenteil ist die interpretierbarkeit. im regelbasierten modus haben ingenieure beispielsweise die regel geschrieben, dass „sie weiterfahren können, wenn eine vorbeifahrende plastiktüte erkannt wird“, sodass wir uns in dieser situation keine sorgen über plötzliche änderungen machen müssen . komm schon, tritt auf die bremse.
liu bingyan (leiter von kargo software):
man sieht, dass in v12 die darstellung auf dem bildschirm deutlich besser ist, aber woher kommt diese sogenannte end-to-end-darstellung? wenn diese anzeige vom originalmodell stammt, besteht eines der probleme darin, dass wir diesem modell tatsächlich eine ebene künstlich definierter schnittstellen hinzugefügt haben, damit sie diese informationen von einer bestimmten stelle im modell extrahieren können.
noch beängstigender finde ich, dass diese anzeige einen völlig anderen weg einschlägt. das bedeutet auch, dass das auto anzeigt, dass ein lkw vor ihm ist . wenn dies der fall ist, wäre es sehr, sehr beängstigend, ein auto davor zu sehen, aber man ist sich nicht sicher, ob es nicht angefahren wird.
ich habe tatsächlich einige zweifel, ob es sich wirklich um eine end-to-end-lösung handelt, oder vielleicht auch nicht, aber es könnten hier noch andere gefahren bestehen.
wang chensheng (ehemaliger einkaufsleiter von tesla):
ist die durch das end-to-end-modell verursachte unerklärlichkeit für branchen wie das autonome fahren, die so hohe sicherheitsanforderungen haben, die kehrseite der medaille?
da tesla die technologie von fsd v12 noch nicht angekündigt hat, wissen wir nicht, ob fsd eine multi-modul-strategie verfolgt, aber wir haben es festgestelltbei einigen autobesitzern sind fälle aufgetreten, in denen die bildschirmanzeige nicht mit dem tatsächlichen verhalten übereinstimmte.
die vom fahrzeug erstellte luftaufnahme zeigte beispielsweise, dass sich jemand vor ihm befand, es zeigte jedoch keine anzeichen einer bremsung, sondern fuhr weiter vorbei. glücklicherweise handelte es sich nur um eine fehlerkennung auf der sensorseite, und es kam zu keinem unfall .
obwohl aus diesem fall ersichtlich ist, dass unter dem end-to-end-algorithmus fehler der oberen schicht die vorteile der entscheidungsfindung der unteren schicht nicht beeinträchtigen, zeigt er auch, dass die planungsschicht gelegentlich die ergebnisse der wahrnehmungsschicht nicht erkennt , was liu bingyans bedenken bestätigt.
wird unerklärlichkeit zu einem großen problem werden, das eine durchgängige entwicklung behindert? als nächstes kommt der dritte konflikt, den wir sehen.
yu zhenhua (ehemaliger tesla-ki-ingenieur):
ich glaube schon,ein sehr ernstes problem der ki besteht darin, dass ihre theoretische natur weit hinterherhinkt.
die ki sagt ihnen nicht, ob dies definitiv funktionieren wird oder nicht. daher handelt es sich um ein experimentelles thema, das nicht als wissenschaft gilt und einer umfassenden überprüfung bedarf.
v12 vernichtet v11 völlig, es ist also eine frage der ergebnisse. denken sie dann, dass, wenn es von ende zu ende eine solche unerklärlichkeit gibt, es dann, weil es völlig zerquetscht ist, sehr hirnlos ist und sie untergehen sollten?
yu zhenhua glaubt, dass ki ein experimentelles thema ist. solange die ergebnisse den erwartungen entsprechen, beweist dies, dass die richtung richtig ist und sich weiterentwickeln sollte. hou xiaodi sagte, dass die leistung von v12 der von v11 deutlich voraus sei, nur weil die grundlage von v11 zu schlecht sei und seine leistung immer noch weit von echtem fahrerlosem fahren entfernt sei.
wang chensheng (ehemaliger einkaufsleiter von tesla):
wenn es sich wirklich um „full self driving“ handelt und durch l5 eingeschränkt wird, muss es die aufsichtsbehörden passieren, und diese müssen erklärbar oder vorhersehbar sein.
darüber hinaus gibt es auf der welt so viele städte, dass in den vereinigten staaten jede stadt unterschiedliche gesetze und vorschriften haben kann. ob dieses auto sich in bezug auf hardware und software an lokale gesetze und vorschriften anpassen muss, ist zu einer großen frage geworden, ob es skalierbar ist.
end-to-end kann das modell nicht durch künstlich definierte regeln verfeinern. daher ist es für die end-to-end-skalierung zu einer herausforderung geworden, ob es sich an unterschiedliche vorschriften anpassen kann.
ein weiterer faktor, der die skalierung beeinflusst, besteht darin, dass end-to-end empfindlicher auf datenvolumen und sensoren reagiert.
5. die zukunft ist ungewiss
liu bingyan (leiter von kargo software):
es gibt ein sehr schwerwiegendes end-to-end-problemes wird empfindlicher auf den sensor reagierendas heißt, wenn sie den sensor oder die verteilung des sensors ändern, kann ihr modell vollständig neu trainiert werden.
aus einer anderen perspektive ist es aus technischer sicht inakzeptabel, oder wir können uns nicht vorstellen, dass in zukunft auf der ganzen welt das gleiche auto unterwegs sein wird.
sobald die sensorverteilung geändert wird, wird das modell ungültig und das training muss neu gestartet werden. für das training müssen große datenmengen gesammelt werden, was zwangsläufig enorme kosten mit sich bringt.
das amerikanische finanzmedium cnbc berichtete, dass bis anfang 2023um fsd zu trainieren, nutzte tesla mehr als 10 millionen fahrvideos von tesla-besitzern.
darüber hinaus werden diese mehr als 10 millionen trainingsdaten nicht zufällig verwendet. sie müssen von menschlichen fahrern mit relativ hohen fahrkenntnissen durchgeführt werden. andernfalls wird das niveau des modells immer schlechter.
daher erfordert das training des end-to-end-modells nicht nur viele daten, sondern auch ein komplexes screening, das viel personal verbraucht. für tesla, das viele autos verkauft, mag das kein problem sein, aber für andere unternehmen sind datenquellen zu einem großen problem geworden.
david (moderator von „big horses talking about technology“):
viele oems wurden getäuscht, weil sie blindlings der tesla-methodik folgten, aber diese dinge sind für 90 % der oems wirklich nicht geeignet.
bedeutet das, dass andere hersteller wirklich nicht in den end-to-end-bereich vordringen können?
obwohl sowohl nvidia als auch tesla end-to-end-algorithmusoperationen durch reine vision vorantreiben, kann end-to-end tatsächlich multimodale eingaben akzeptieren.
derzeit häufig verwendete sensoren wie millimeterwellenradar, lidar und ultraschallradar haben relativ feste positionen am fahrzeug, insbesondere am lidar, das sich im wesentlichen auf dem dach des fahrzeugs befindet. daher kann ein durchgängiger multimodaler zugriff verwendet werden die von verschiedenen modellen gesammelten daten werden zum trainieren des modells verwendet, und der dem oem verbleibende designraum wird größer.
nach einer weiteren diskussionsrunde hat jeder algorithmus seine eigenen vorzüge und es ist immer noch unklar, welche methode uns in eine völlig fahrerlose zukunft führen kann.
zhang hang (senior director scientist bei cruise):
ich glaube nicht, dass es derzeit einen algorithmus gibt, der einfach und umfangreich sein kann und dann den l4-standard erfüllt. dieses feld ist ein feld, das jeder gemeinsam fördern sollte. ich bin sehr optimistisch, dass jeder auf unterschiedlichen wegen zum gleichen ziel gelangt, wenngleich jeder leicht unterschiedliche abweichungen haben wird.
6. nichts kann getan werden
unabhängig davon, welcher algorithmus verwendet wird, wird er irgendwann mit dem long-tail-problem konfrontiert.
beim traditionellen regelbasierten (regelgesteuerten) modell erfordert das schreiben einer regelbasis viel energie, und es ist schwierig, alles durchgängig abzudecken. dies gilt auch für das long-tail-problem gelöst werden?
minfa wang (ehemalige leitende ingenieurin für maschinelles lernen bei waymo):
er hat die herkömmlichen fälle gelöst, aber ich denke, das long-tail-problem wird weiterhin bestehen.
minfa ist der ansicht, dass die fehlertoleranzrate des autonomen fahrsystems sehr niedrig ist. wenn ein black-box-system auf l4 verwendet werden soll, müssen andere sicherheitsmechanismen eingeführt werden, was jedoch wieder auf die kostenfrage im regelbasierten modus zurückführt.
der autonome fahralgorithmus wird zunächst im simulationssystem geübt. kann simulationstraining bestimmte long-tail-probleme lösen?
zhang hang (senior director scientist bei cruise):
derzeit gibt es keine gute lösung, die unsere reale straßenleistung durch die generierten simulationsdaten wirklich verbessern kann.
minfa wang (ehemalige leitende ingenieurin für maschinelles lernen bei waymo):
im bereich des autonomen fahrens oder der robotik ist die umgebung sehr, sehr komplex. wenn sie simulieren möchten, simulieren sie nicht nur sich selbst, sondern auch, wie sich das auto in zukunft bewegen wird wenn sie ihr eigenes auto verändern, beeinflussen sie manchmal das verhalten aller autos und menschen um sie herum.
wie man gut simulieren kann, ohne eine verteilungsverschiebung (verteilungsverschiebung) zu verursachen, ist meiner meinung nach noch ein offenes thema.
bedeutet die tatsache, dass virtuelle szenen die möglichkeiten der realität nicht vollständig simulieren können, dass es derzeit keine möglichkeit gibt, das long-tail-problem in der branche zu lösen, und dass man sich nur auf einen langfristigen erfahrungsaufbau verlassen kann?
anonymer befragter (l4-ingenieur):
bis zu einem gewissen grad schon, aber man muss doch nicht perfekt sein, oder? menschen sind nicht perfekt, man muss es nur besser machen als andere. menschen haben auch ihre eigenen unfallraten, solange man besser abschneidet, reicht es.
hou xiaodi (ehemaliger gründer und ceo von tusimple, gründer von bot.auto):
ich denke, das long-tail-thema ist tatsächlich eine falsche behauptung. ich bin froh, dass sie es angesprochen haben.
meiner meinung nach gibt es ein problem mit dem langen schwanz. was soll ich beispielsweise tun, wenn ich ein krokodil sehe? was soll ich tun, wenn ich einen elefanten sehe? ich sehe ein auf der autobahn geparktes starrflügler. was soll ich tun?
tatsächlich fassen wir viele long-tail-probleme in eine große kategorie von problemen ein, die ich noch nie zuvor gesehen habe. es ist ziemlich nachvollziehbar, wenn man es in ein allgemeineres problem einschließt.
wir sahen zum beispiel einmal ein starrflügler auf der autobahn geparkt, also war unsere lösung ganz einfach: stoppen sie es, oder?
ist das long-tail-problem eine falsche annahme oder handelt es sich um ein problem, das gelöst werden muss? jeder hat vielleicht seine eigene antwort auf dieses thema. das long-tail-problem entsteht, wenn l4 oder sogar l5 in großem maßstab eingeführt werden können. schauen wir uns als nächstes den heftigen konflikt zwischen l2 und l4 an.
4. kann tesla robotaxi erfolg haben: der konflikt zwischen l2 und l4
1. „das geht nicht“
wir haben die gäste nach ihrer meinung gefragt, bevor musk die verschiebung von robotaxi ankündigte. alle waren sich darin einig, dass es unmöglich ist, dass teslas autonomes taxi dieses jahr auf den markt kommt.
der hauptgrund für die einheitliche meinung aller ist, dass die bestehenden modelle von tesla den l4-standard für selbstfahrende taxis nicht erfüllen können.
liu bingyan (leiter von kargo software):
ich bin mir sehr sicher, dass die bestehenden tesla-modelle sehr klare tote winkel haben. wenn er das ultimative autonome fahren erreichen will, ob es nun l4 oder l5 ist, muss sein nächstes auto diese frage des toten winkels lösen. um dieses problem des toten winkels zu lösen, kehren wir zu dem zurück, was wir gerade gesagt haben. es muss die position des kamerasensors angepasst werden. das unmittelbare ergebnis der anpassung dieser positionen ist, dass das vorgängermodell vollständig ausfällt.
aus sicht der visuellen kameraarchitektur ist es für bestehende autos unmöglich, eine fsd zu erreichen, die völlig unbeaufsichtigt sein kann. aus dieser perspektive muss es eine neue hardware haben.
zhang hang (senior director scientist bei cruise):
aus sensorischer sicht muss eine gewisse redundanz eingeführt werden, die in l2 zuvor möglicherweise nicht erforderlich war.
brancheninsider sind zwar nicht optimistisch, aber was macht musk so zuversichtlich, robotaxi auf den markt zu bringen?
yu zhenhua (ehemaliger tesla-ki-ingenieur):
ich denke, der hauptgrund sind die zahlreichen technischen durchbrüche dieses fsd v12. als musks charakter heute den fsd v12 in seinem plan sah, war er der meinung, dass robotaxi auf die tagesordnung gesetzt werden sollte.
kann fsd v12 tesla also in die lage versetzen, auf l4 umzusteigen und die wichtige aufgabe des robotaxi zu übernehmen? wie groß ist der unterschied im vergleich zum bestehenden waymo oder cruise?
als wir hou xiaodi zu dieser frage interviewten, ermöglichte uns seine antwort, einen anderen standpunkt in der branche zu erkennen: das heißt, die kluft zwischen l2 und l4 ist sehr groß.
2. „nicht einmal annähernd“
hou xiaodi (ehemaliger gründer und ceo von tusimple, gründer von bot.auto):
erstens handelt es sich bei dem, was tesla heute macht, nicht um eine lösung, die die softwareentwicklungsfirmen dazu zwingt, die verantwortung zu übernehmen. das nennt man fsd fahren, was kein fahrerloses fahren ist, also ist das, was sie tun, nicht dasselbe.
derzeit wird l2-unterstütztes fahren häufig von autoherstellern wie tesla, xiaomi, huawei, xpeng usw. verwendet, während unternehmen wie waymo, cruise, baidu und andere selbstfahrende taxis l4 verwenden hochautomatisiertes fahren, abgesehen von der beschreibung konzeptdefinitionen,der wesentliche unterschied zwischen beiden besteht darin, wer die verantwortung trägt.
hou xiaodi (ehemaliger gründer und ceo von tusimple, gründer von bot.auto):
die lösung, die menschen entfernt und die verantwortung auf softwareentwicklungsunternehmen überträgt, heißt autonomes fahren. lassen sie mich einen witz erzählen: was wäre, wenn ein tesla jemanden anfährt und ihn tötet? für elon musk ist es nicht ihre sache.
wenn tesla also selbstfahrende taxis bauen will, muss es seine eigene verantwortung übernehmen. was sind also die technischen unterschiede zwischen assistiertem fahren und autonomem fahren?
hou xiaodi (ehemaliger gründer und ceo von tusimple, gründer von bot.auto):
was ist das kernproblem, das durch autonomes fahren l4 gelöst werden soll? es ist sicherheit, es ist redundanzwenn jedes modul eines systems ausfallen kann, kann das system dennoch die sicherheit unter dem strich gewährleisten. diese sache ist der schwierigste und kritischste teil von l4. es muss das sicherheitsproblem lösen, bevor es geld verdienen kann, aber diese angelegenheit ist überhaupt nicht teslas designzweck.
ein anderer l4-forscher für autonomes fahren analysierte auch die unterschiede zwischen l2 und l4 aus der perspektive von hardware und software.
zhang hang (senior director scientist bei cruise):
die l4-lösung besteht zunächst einmal darin, dass wir über relativ leistungsstarke sensoren verfügen, die in l2-szenarien möglicherweise schwierig zu verwenden sind, zumindest nicht über ein so hochpräzises lidar.
aus algorithmischer sicht ist l2 möglicherweise stärker darauf ausgerichtet, effizienter zu sein und die kosten sehr gering zu halten. es sind keine besonders teuren sensoren erforderlich und es sind möglicherweise weniger berechnungen erforderlich, um einen solchen effekt zu erzielen. diese l2s müssen diesen einzelfall eigentlich nicht berücksichtigen.
dann streben wir bei l4 an, dass menschliche fernunterstützung nur einmal pro million meilen oder mehr eingeführt werden muss. was wir verfolgen, ist dieser eins-zu-einer-millionen-fall.
zusammenfassend:die l4-lösung nutzt sensoren mit höherer genauigkeit, der chip verfügt über mehr rechenleistung und kann umfassendere szenarien bewältigen.
bei der l2-lösung stehen jedoch die kosten im vordergrund, sodass die hardwareebene etwas niedriger sein wird. gleichzeitig wird der algorithmus bei der anpassung an die hardware auf niedrigerer ebene mehr wert auf effizienz als auf sicherheit legen die übernahmehäufigkeit von l2 wird viel höher sein als die von l4.
können l2-unternehmen wie tesla also l4-effekte erzielen, indem sie hardware und software verbessern?
3. „zwei verschiedene dinge“
hou xiaodi (ehemaliger gründer und ceo von tusimple, gründer von bot.auto):
ich unterstütze die langsame entwicklung von l2 zu l4 und l5 nicht. ich denke, dass dies eine weitere falsche behauptung mit starken extrapolationseigenschaften ist.
können sich delfine im laufe der zeit zur zivilisation entwickeln? ich denke, es ist möglich, aber wir müssen wissen, dass die zivilisation der erde die entwicklung der delfine nicht länger tolerieren kann, denn es gibt bereits unternehmen, die es geschafft haben. mein unternehmen ist hier, um l4 so schnell wie möglich in die praxis umzusetzen. ich werde nichts mehr mit dir zu tun haben, nachdem ich auf dem boden gelandet bin, oder? als der homo sapiens den speer in die hand nahm, gab es keine delfine, die die zivilisation erschaffen konnten.
nach ansicht von hou xiaodidie bestehenden l4-unternehmen haben bereits technische barrieren aufgebaut und werden l2 keine chance geben, sich weiterzuentwickeln.gleichzeitig glauben einige leute, dass dies nicht bedeutet, dass die l4-technologie fortschrittlicher ist als die l2, sondern dass jeder auf unterschiedliche szenarien abzielt.
yu zhenhua (ehemaliger tesla-ki-ingenieur):
wenn wir sagen, dass l4 technisch wirklich überlegen ist und l2 voraus ist, wie sich jeder vorstellt, dann ist es absolut fortschrittlich. daher möchte ich fragen, warum die l4-technologie nicht direkt auf l2 heruntergestuft werden kann.
tatsächlich haben l4-unternehmen in den letzten jahren aufgrund des einkommensdrucks automobilherstellern bei der herstellung von l2 geholfen, aber sie können nicht einfach herunterstufen, sondern müssen sich grundsätzlich neu entwickeln.
dann wissen wir auch, dass in den vereinigten staaten gm (general motors) das cruise l4-unternehmen besitzt und ford argo ai besitzt, das ebenfalls ein l4-unternehmen ist. warum kann gm die technologie von cruise nicht in seinen massenfahrzeugen nutzen? warum kann ford die l4-technologie von argo ai nicht in seinen serienfahrzeugen einsetzen? daher ist l4 nicht absolut fortgeschrittener als l2. was den technischen schwierigkeitsgrad angeht, glaube ich nicht, dass man sehr fortgeschritten erscheint, wenn man l4 macht.
warum kann die l4-technologie nicht direkt zur verwendung auf l2 heruntergestuft werden? zhang hang erklärte, dass die technologien der beiden nicht direkt migriert werden könnten, da l4 höhere hardwarespezifikationen verwende und der algorithmus von l2 an sensoren mit niedrigeren spezifikationen und prozessoren mit geringerer rechenleistung angepasst werden müsse.
genau wie ein architekturdesigner, dessen computer beschlagnahmt wurde und der nur ein weniger präzises lineal sowie stift und papier erhielt, musste auch er sich an die neue art des zeichnens anpassen.
zhang hang (senior director scientist bei cruise):
das problem, das sie zuvor erwähnt haben, ist der rechenaufwand. es ist unmöglich, die l2-lösung zu unterstützen. das ist eine unrealistische lösung.
gleichzeitig zeigte zhang hang auch eine offenere einstellung beim vergleich der technologien von l2 und l4. l2 hat eine breitere abdeckung und muss sich mehr szenarien stellen, und es müssen nur grundlegende probleme gelöst werden. l4 hat eine begrenzte abdeckung, legt aber mehr wert auf verschiedene details. es gibt also vor- und nachteile zwischen den beiden.
zhang hang (senior director scientist bei cruise):
l4 selbst kann nicht als l2-lösung verwendet werden, indem einfach das bestehende system vereinfacht und redundanz entfernt wird, sondern umgekehrt. wenn sie l4-standards in l2 erreichen möchten, dauert die verfeinerung lange. sie benötigen viel zeit, um daten zu sammeln und dann erfahrungen zu sammeln.
ich glaube jedoch nicht, dass unser technischer weg oder unsere technische tiefe höher sein wird als bei l2. ich glaube nicht, dass dies unbedingt der fall ist. l4 verfügt möglicherweise über viele algorithmen, die nicht sehr auf dem neuesten stand sind, aber durch einige gelöst werden sorgfältiges design. dies sind einige sehr detaillierte long-tail-probleme.
welche ansicht würden sie unterstützen? sie können uns eine nachricht hinterlassen. in unseren interviews werden verschiedene personen ihre eigenen antworten auf diese frage haben.
yu zhenhua (ehemaliger tesla l2-ingenieur):
ich denke, die breite öffentlichkeit und sogar einige l4-unternehmen werden jedem das konzept vermitteln, dass die l4-technologie besser ist als l3 und dann besser als l2. ich denke, dass dies ein szenario ist, das sich von seinen beschränkungen löst, um die öffentlichkeit in die irre zu führen, da das aktuelle robotaxi von l4 sehr eingeschränkte szenarien hat und sich in einer bestimmten region befinden muss.
shao xuhui (geschäftsführender partnerinvestor von foothill ventures):
persönlich bin ich gegenüber l4-unternehmen immer noch optimistisch, denn dieser logik zufolge kann l4 die dimensionalität und den angriff reduzieren, aber wenn sie nur dies tun, werden sie nicht auf l2 befördert, oder es wird sehr, sehr schwierig sein, befördert zu werden.
anonymer befragter (l4-ingenieur):
tatsächlich glaube ich nicht, dass es eine besonders schwierige schwelle im technologie-stack gibt. wenn ein unternehmen beispielsweise heute behaupten kann, ein l2-unternehmen zu sein, dann wird es vielleicht morgen einige neue technologien hinzufügen und kann auch l4, richtig ? es hängt alles davon ab, welche technologie es in seiner anwendung verwendet oder welche neuen technologischen durchbrüche es hat, oder?
hou xiaodi (ehemaliger gründer und ceo von tusimple, gründer von bot.auto):
assistiertes fahren und fahrerloses fahren sind zwei verschiedene dinge.
produzenten: hong jun, chen qian, autor: wang ziqin, herausgeber: chen qian