SenseTimen paras näyttelijä Wang Xiaogang: Vaikka "kaksivaiheista" päästä päähän -lähestymistapaa toteutetaan vielä kymmenen vuoden ajan, siitä ei tule älykkään driving

SenseTimen paras näyttelijä Wang Xiaogang: Vaikka "kaksivaiheista" päästä päähän -lähestymistapaa toteutettaisiin vielä kymmenen vuoden ajan, siitä ei tule älykkään ajamisen "ChatGPT:tä".

2024-07-15

Wang Xiaogang, SenseTime Technologyn perustaja ja johtava tutkija sekä Jueying Intelligent Automotive Business Groupin puheenjohtaja

Juuri päättyneessä WAIC 2024 -tapahtumassa SenseTime julkaisi kertaluontoisen videon.

Videolla vain 7 kameralla varustettu UniAD-ajoneuvo ei vain kulje vapaasti kaupunkien rakennusteiden, suurten risteysten ja liikennevaloristeyksien läpi ilman kuvia, vaan pystyy myös sujuvasti navigoimaan maaseututeillä monimutkaisissa liikenneolosuhteissa epäsymmetristen risteysten läpi ilman merkintöjä. voit välttää tienvarteen pysäköityjä paikallaan olevia ajoneuvoja ja kapeilla kaistalla kulkevia ajoneuvoja, ja voit myös kääntyä oikealle suurissa kaistattomissa kaarteissa.

Tämä silkinpehmeiden ajoliikkeiden sarja on vaikuttava. Sen takana on SenseTime Jueyingin ehdottama end-to-end-ajoratkaisu UniAD, joka on alan ensimmäinen, joka yhdistää havainnoinnin ja päätöksenteon.

Älykäs ajaminen on ollut viime vuosina autoyhtiöiden painopisteenä, mutta todellinen ajotaso on usein epätyydyttävä. ChatGPT:n syntymisen jälkeen älykäs ajoteollisuus on odottanut samaa laadullisen muutoksen hetkeä.

Tällä hetkellä "päästä päähän" osoittaa suunnan. Tästä vuodesta lähtien älykäs ajoteollisuus on kiinnittänyt yhä enemmän huomiota päästä päähän. Olipa kyseessä autoyhtiöt, kuten Xpeng, Ideal, NIO tai Great Wall, tai teknologiatoimittajat, kuten Huawei, Yuanrong Qixing ja Haomo Zhixing, ne kaikki ovat kääntyneet päästä päähän -reitille.

Jo vuoden 2022 lopulla SenseTime Jueying ehdotti UniAD-mallia, joka on yleinen malli integroituun autonomiseen ajamiseen havainnointiin ja päätöksentekoon. DriveAGI perustuu myös iteratiivisesti UniADiin luoda uuden sukupolven autonomista tekniikkaa. Vaikka törmäätkin tiellä ambulanssiin, ajoneuvo voi DriveAGI:n kognitiivisten ominaisuuksien avulla tunnistaa ja ymmärtää kohteen tarkasti ja antaa aktiivisesti periksi.

DriveAGI ei voi vain tunnistaa ambulansseja, vaan myös ennakoivasti antaa tietä päivystävälle ambulanssille.

Kahden vuoden ennakoivan suunnittelun jälkeen SenseTime Jueyingin varhaisen markkinoille tulon ja nopean iteroinnin edut tulevat vähitellen esiin. Se on tehnyt yhteistyötä yli 30 kotimaisen ja ulkomaisen autoyrityksen kanssa kattaen yli 90 mallia, ja se on toimittanut yhteensä 1,95 miljoonaa älyautoa. . Yhteistyöprosessin aikana SenseTime Jueying ja autoyritykset ovat löytäneet omat rajansa, käyttäneet täysimääräisesti etujaan ja työskentelevät yhdessä nopeuttaakseen autonomisen ajamisen "GPT-hetken" saapumista.

Jos tekninen reitti on väärä, bussiin pääsykin on turhaa.

Aikana, jolloin monet pelaajat kerääntyvät päästäkseen päästä päähän, Wang Xiaogang, SenseTimen toinen perustaja, johtava tutkija ja Jueying Intelligent Automotive Business Groupin puheenjohtaja, arvioi TMTpost Media Appille, miksi hän oli ensimmäinen keskittyä päästä päähän?

Vuonna 2017 SenseTime ja japanilainen Honda Motor ilmoittivat yhteistyöstä kehittääkseen yhdessä L4 autonomista ajotekniikkaa. SenseTime itse aloitti tekoälyteknologialla. Tuolloin Honda pyysi SenseTimea käyttämään vain kameroita ja toteuttamaan älykkäitä ajotoimintoja ilman tarkkoja karttoja. Siitä lähtien tiimi on jatkanut työskentelyä päästä päähän.

Nyt, vaikka päästä päähän -kilpailu on täydessä vauhdissa, yleinen ongelma on, että päästä päähän -tekninen reitti ei ole vielä muodostanut parasta käytäntöä ja teknisessä reitissä on eroja.

Wang Xiaogang kertoi TMTpost Appille, että useimmat nykyiset päästä päähän -ratkaisut ottavat käyttöön "kaksivaiheisen" ratkaisun, joka on helpompi toteuttaa, eli se koostuu kahdesta mallista: havainnosta ja päätöksenteosta. "Ensimmäisen kappaleen havaintoosa itsessään käyttää jo hermoverkkoja, joten muutosta ei juurikaan ole. Suurin muutos on toisen kappaleen suunnittelu- ja ohjausosassa. Alun perin tämä osa toteutettiin kirjoittamalla sääntöjä, mutta nyt se pätee myös hermoverkkoja.

Hänen mielestään "kaksivaiheinen" ratkaisu on kuitenkin yhdistää kaksi pientä mallia yhteen ja optimoida ne yhdessä päästä päähän. "Kaksivaiheisessa" ratkaisussa sen jälkeen, kun tieto on suodatettu havaintomallilla, häviöitä on paljon ja jäljelle jää vain joitain tunnisteita, kuten ihmisiä, autoja ja esineitä, joten toisen vaiheen malli on itse asiassa vain pieni. malli. "Ydin ero kaksivaiheisen ja yksivaiheisen suunnitelman välillä on, onko kyseessä pienten mallien aikakausi vai suurten mallien aikakausi."

Wang Xiaogang sanoi suoraan, että vaikka "kaksivaiheinen" ratkaisu toteutettaisiin vielä 10 vuotta, siitä ei tule "ChatGPT" autonomista ajamista varten.

Juuri näitä kysymyksiä silmällä pitäen SenseTime Jueying on tutkimuksen ja kehityksen alusta lähtien ottanut käyttöön "yksivaiheisen" ratkaisun, joka yhdistää havainnoinnin, päätöksenteon, suunnittelun ja muut moduulit täyden pinon muuntajaksi päästä to- loppumalli integroidun havainnon ja päätöksenteon saavuttamiseksi. Toisin sanoen anturin tuloa käytetään antamaan suoraan ulos käyttäytymisrata.

Tässä prosessissa kone syntetisoi tietoa ja ajattelee ja tuomitsee aivan kuten lukisit mysteeriromaania. Romaanissa on useita hahmoja ja juonia, mukaan lukien salaiset huoneet ja mysteerit romaani On täysin epäselvää, mitä tapahtuu seuraavaksi. Romaanin eri hahmojen ja juonien avulla voit ennustaa murhaajalle useita mahdollisuuksia Se, mitä koneaivot tekevät, on kuin mysteeriromaanissa.

Vaikka yksivaiheisen suunnitelman ja kaksivaiheisen suunnitelman välillä on vain yksi sana ero, vaikeusaste on kuitenkin hyvin erilainen. Wang Xiaogang selitti, että yksivaiheisella reitillä videoinformaation määrä etupäässä on erittäin suuri, mutta lähtösignaalin on oltava erittäin tarkka, mikä asettaa korkeammat vaatimukset koko verkon koulutukselle, datalle ja putkilinjalle.

""Yksivaiheinen" ratkaisu on vaikea, mutta kun malli on opittu, sen ominaisuudet ovat erittäin vahvat. Tämä on "ChatGPT" -hetki autonomisessa ajamisessa, jota pyrimme tavoittelemaan."

Puhdas päästä päähän autonominen ajomalli ei ole lopullinen vastaus autonomiseen ajamiseen.

Teknisen reitin valinta on ensimmäinen askel. Vuoden 2022 lopussa SenseTime ja sen yhteiset laboratoriot ehdottivat UniAD-mallia, alan ensimmäistä universaalia mallia integroituun autonomiseen ajamiseen havainnointi- ja päätöksenteossa, ja voitti parhaan paperin vuoden 2023 kansainvälisessä tietokonenäön ja kuvioiden tunnistuskonferenssissa (CVPR). seuraavana vuonna.

Tämän vuoden Pekingin autonäyttelyssä SenseTime Jueying esitteli UniAD:n todellisen ajoneuvon tuloksia tiellä, joka voi ajaa vapaasti kaupunki- ja maaseututeillä. Välittömästi sen jälkeen, WAIC 2024:ssä, SenseTime esitti tosielämän UniAD-ajoneuvot monimutkaisilla kaupunkiteillä, maaseututeillä jne.

UniAD on täysin visuaalinen autonomisen ajon yleismalli Vaikka se parantaa älykkään ajojärjestelmän ajo-ominaisuuksia, puhdas päästä päähän -autonominen ajomalli ei ole lopullinen vastaus autonomiseen ajamiseen. Wang Xiaogang sanoi, että tärkeä merkki älyautojen kehittymisestä superälykkäiksi on havainnointi-, päättely-, päätöksenteko- ja vuorovaikutuskyky avoimessa maailmassa. Siksi SenseTime Jueying on luonut DriveAGI:n, suuren älykkään ajomallin, joka perustuu multimodaaliseen suureen malliin.

DriveAGI:n kehityssuunta on tehdä älykkäästä ajamisesta päästä päähän "tulkittava ja interaktiivinen".

Ns. selitettävyys tarkoittaa, että sen avulla ajoneuvot eivät ainoastaan pysty ymmärtämään monimutkaista todellista maailmaa enemmän kuin ihmisiä, saamaan käsityksen eri liikenteen osallistujien käyttäytymismotivaatioista, oppimaan nopeasti erilaisia liikennesääntöjä, ymmärtämään jatkuvasti muuttuvia tietietoja, vaan myös selittämään ajoa. päätöksiä käyttäjille.

Esimerkiksi, jos tavallisesti kaksikaistaisen tien oikealla puolella ajava ajoneuvo on varustettu DriveAGI:lla, se havaitessaan takaa lähestyvän ambulanssin tunnistaa sen välittömästi ja todeta, että ambulanssi on päivystävä. Tästä syystä ensimmäisellä kerralla katsotaan, että tien vasemmalla puolella on tilaa kaistanvaihtoon ja oikea tienpuoli vaihdetaan ajoissa vasemmalle ambulanssin sujuvan ja nopean ohituksen varmistamiseksi. Koko prosessi on samanlainen kuin ihmisen aivot. Se ei ainoastaan näkee selvästi tiellä kohdatut tilanteet, vaan se osaa myös ajatella ja arvioida liikennesääntöjen perusteella ja tehdä oikeita ajotoimia.

Yhteentoimivuus tarkoittaa, että käyttäjät voivat pyytää DriveAGI:ta selittämään päätöksentekoprosessiaan ja ohjata autonomista ajokäyttäytymistä ääni- tai eleohjeiden avulla. Esimerkiksi jatkossa autonomisessa ajossa navigointi ohjaa ajoneuvoa kääntymään seuraavassa risteyksessä perille päästäkseen, mutta kuljettaja tietää, että edessä on oikotie ja voi kääntyä suoraan, jolloin hänen tarvitsee vain sanoa "käänny". vasemmalle suoraan" järjestelmään. Järjestelmä suorittaa tämän komennon nykyisten tieolosuhteiden perusteella.

Mustan laatikon toiminnasta ja yksisuuntaisesta lähdöstä tulkittavuuteen ja vuorovaikutteisuuteen, tärkein temppu on mallin kouluttaminen.

Mallikoulutuksen ensimmäinen elementti on suuri datamäärä ja suuret malliparametrit. Musk on aiemmin puhunut datan tärkeydestä itse ajaville malleille: 1 miljoona videolaukkua on koulutettu, mikä on hieman parempi, ja siitä tulee 10 miljoonaa; uskomatonta.

Wang Xiaogang sanoi myös, että nykyinen verkkorakenne ei ole ydinsalaisuus, ja kaikkien verkkorakenne on suhteellisen samanlainen. Tärkeintä on, kuinka saavuttaa erinomainen suorituskyvyn laatu samanlaisissa verkkorakenteissa. Tämä riippuu pääasiassa siitä, onko mallin koko riittävän suuri ja onko tiedontuotantoputki tehokas.

SenseTime on ollut syvästi mukana tekoälyn alalla kymmenen vuoden ajan, ja sitä on käytetty monilla aloilla, mukaan lukien kaupunkiäly, kauppa, sairaanhoito, rahoitus, autonominen ajaminen ja jopa teolliset skenaariot, kuten teräs, hiilikaivos ja sähkö. ja on kerännyt suuren määrän multimodaalista dataa eri toimialoilla. SenseTime Jueying osoitti 5. heinäkuuta livenä WAIC 2024 -tapahtumassa, että 200 TOPS+ -alustalle asennetussa 8B-mallin autopään käyttöönottoratkaisussa oli 8 miljardia parametria.

SenseTime Jueying ajoneuvon päädyn 8B multimodaalisen mallin suorituskyky

Jos määrä on olemassa, myös laatu on taattava. Wang Xiaogang sanoi, että emme voi keskittyä pelkästään datan määrään ja mallin parametrien määrään. Jos ei ole vaikeaa tehtävää, vaikka datan ja parametrien määrää kasvatettaisiin, mallin ominaisuudet vain pyörivät.

Sitten hän antoi esimerkin: Mehiläiset voivat työskennellä niin monimutkaisessa hunajakennossa, niin tarkasti ja niin hyvin, mutta heillä on aina vain yksi taito ja he voivat tehdä vain yhden asian. Ihmisaivot ovat erilaisia Tuhansien vuosien evoluution jälkeen, ihmiset voivat lähettää satelliitteja ja raketteja taivaalle. "Tämä on ero yleisten kykyjen ja eksklusiivisten kykyjen välillä. Mehiläinen tekee vain yhden asian koko elämänsä, kaksi elämää tai kolme elämää. Aivan kuten malli, jos syötät sille tietoja ihmisistä, autoista ja esineistä, se se voi tehdä tämän vain loppuelämänsä ajan."

Datan lisäksi tehokkaan laskentatehon tarjonta on nykyään niukin ja kilpailukykyisin tekijä.

SenseTime Jueying on yksi harvoista suurimmista laskentatehotoimittajista alalla. Vuodesta 2018 lähtien SenseTime aloitti laskentainfrastruktuurin suunnittelun ja rakensi älykkään laskentakeskuksen AIDC:n Lingangiin, Shanghaihin. Siinä on 45 000 GPU:ta, jotka tarjoavat laajoja mallikoulutus- ja päättelypalveluita ulkomaailmalle, ja se voi kouluttaa malleja, joilla on satoja miljardeja tai jopa. biljoonia parametreja. SenseTime Jueyingin operatiivinen laskentateho on AIDC:n tuella noussut 12 000 P:iin. Vuoden 2024 viimeisellä neljänneksellä laskentatehon huippuarvon odotetaan nousevan 25 000 P:iin.

Älä sulje pois valkoisen laatikon toimitusta, vain kasvillisuuden kukoistaessa voimme saavuttaa ekologisia win-win-tuloksia."

Riippumatta siitä, kuinka hyvä tekniikka on, avain on silti sen toteuttamisessa.

Wang Xiaogang esitteli, että SenseTime Jueyingin massatuotetut älykkään ajotuotteet on tuotu markkinoille useissa merkeissä ja malleissa, kuten GAC Aion LX Plus, Hezhong Nezha S, GAC Haopin GT ja Hongqi, ja muut toiminnot ovat myös alkaneet olla Samaan aikaan Jueying edistää myös uusien mallien toimittamista. Kesäkuun alussa GAC ja FAW valittiin ensimmäiseen kotimaiseen L3-pilottiprojektiin, ja SenseTime Jueying toimitti heille L3-suuntautuneita havaintoalgoritmeja. SenseTime Jueyingin useat nykyiset massatuotetut älykkään ajoratkaisut voidaan päivittää tulevaisuudessa kokonaisvaltaiseksi arkkitehtuuriksi.

Heillä on paljon asiakkaita ja tilauksia, mutta SenseTime Jueyingin edustamat teknologiaratkaisujen tarjoajat joutuvat kohtaamaan ongelman – autoyhtiöiden itsetutkimuksen.

Otetaan esimerkkinä Tesla, että se tekee tekoälyä ja sillä on paljon infrastruktuuria, kuten tuhansia GPU:ita.

Seuraavatko muut autoyhtiöt esimerkkiä? Ja voiko sitä jäljitellä? Wang Xiaogang sanoi, että jopa Microsoftin kaltainen vahva ja henkilöresursseja rikas yritys on päättänyt katkaista tekoälytiiminsä ja tehdä sen sijaan yhteistyötä OpenAI:n kanssa.

Samalla hän selitti, että niin sanottu "itsetutkimus" ei tarkoita, että kaikki pitää tehdä alusta loppuun itse. "Niin kauan kuin autoyhtiön asiakkaat ymmärtävät ja ottavat johtoaseman kaiken tapahtuvan hallinnassa ja voivat käyttää omia alustojaan tuotteiden iterointiin, se riittää."

Siksi yhteistyömenetelmien suhteen SenseTime Jueyingillä oli aiemmin tapana toimittaa koodia mustana laatikkona, koska se uskoi tämän olevan arvokkain voimavara. Mutta Wang Xiaogang paljasti, että nyt SenseTime Jueying ei hylkää valkoisen laatikon toimitusta. Sillä vaikka koodi tarjotaan, kilpailukykyä voidaan nopeasti parantaa syvemmällä iteraatiolla ja yhteistyöllä.

Lisäksi yhteistyö voi auttaa autoyrityksiä säästämään rahaa. "Olemme investoineet yli 10 miljardia suuriin malleihin ja samalla luoneet oman infrastruktuurimme, suuret asennukset ja kannattavat pilvipalvelut kannattavuuden saavuttamiseksi. Yhteistyössämme autoyhtiöiden ei tarvitse kantaa tätä taakkaa. Muutamia valtavia investointeja Autonvalmistajien ei tarvitse itse puuttua näihin asioihin, vaan avaamme tarvittavat resurssit autonvalmistajille.

Hän kuitenkin myönsi myös, että yksi autoyhtiöiden kanssa tehtävän yhteistyön ongelmista on datapalautteen puute. Yleensä päätetietojen palaute perustuu autonvalmistajan aloitteeseen, mikä voi johtaa tehottomaan dataiteraatioon ja -kiertoon. Siksi syvällinen yhteistyö autoyhtiöasiakkaiden kanssa on erityisen tärkeää.

Valkoisen laatikon toimituksen avulla SenseTime Jueying auttaa autoyhtiöiden kumppaneita ymmärtämään suuria mallitekniikoita ja hallitsemaan osaamistaan. Toisaalta OEM-valmistajat voivat jakaa Jueyingin kanssa tietoja ja tietoja, joihin ei liity yksityisyyttä ja luottamuksellisuutta ajoneuvon alkuperäisen suuren mallin, ja osapuolet kehittävät sitä yhdessä nopeuttaakseen tuotteen iteraatiota ja luodakseen aidosti käyttäjäkeskeisen älykäs auton alkuperäisen AI-suurmallituotteen.

Alan johtavan runsaan laskentatehon ja maailman johtavan "Ririxin" suurten malliominaisuuksien sekä syvemmän strategisen yhteistyömallin perusteella SenseTime Jueying luo win-win-tilanteen monien kumppanien, kuten OEM-valmistajien, kanssa.

SenseTime Jueying on asettanut päästä päähän suuren mallin julkaisuajan vuonna 2025. Wang Xiaogang sanoi, että kun ChatGPT ilmestyi, kaikkea ei tehty täydellisesti. Esimerkiksi kun GPT 3.5 teki tehtäviä, oli monia asioita, joita se ei voinut Tehdä hyvää. Mutta tärkeintä on, että kaikki ovat nähneet oikean suunnan. Tämän polun seuraaminen ei ole ongelma, mutta se kestää vielä muutaman kuukauden. Sama pätee päästä päähän.

Samalla hän totesi myös luottavaisesti, että kun SenseTime Jueyingin päästä päähän -massatuotanto alkaa ensi vuonna, käyttäjät näkevät asioita, joita joissain skenaarioissa ennen oli täysin mahdotonta tehdä, ja nämä ovat uusia ominaisuuksia, jotka tulevat esiin.

Wu Xinzhou, NVIDIAn autoosaston varapuheenjohtaja, totesi kerran julkisesti, että päästä päähän on älykkään ajo-trilogian viimeinen kappale. Matkalla loppuun Shangtang Jueying ansaitsee keskittymisen ja odotukset.

uutiset

SenseTimen paras näyttelijä Wang Xiaogang: Vaikka "kaksivaiheista" päästä päähän -lähestymistapaa toteutettaisiin vielä kymmenen vuoden ajan, siitä ei tule älykkään ajamisen "ChatGPT:tä".

Johdanto

yhteystietoni