notizia

Il supervisore del dottorato dell'Università di Pechino negli anni '90 costruisce robot umanoidi, non impara da Tesla

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Gli Stati Uniti non sono un modello per la Cina.

Testo丨Wang Yutong
Redattore丨Cheng Manqi

Nel maggio di quest'anno, un nuovo gruppo di lavoratori alti 1,72 metri è venuto a lavorare nello stabilimento del Texas, negli Stati Uniti, con il compito di caricare le celle cilindriche della batteria 4680 dal tavolo di trasferimento nella scatola rossa di fronte a loro . Non sono molto abili, sono addirittura lenti e goffi. Ma questi lavoratori sono Optimus, il robot umanoide che Tesla rilascerà nel 2022, e tutto è diverso.

"Scenari di utilizzo perfetti", "progresso rapido" e "allarme disoccupazione", sotto il video dei robot diffuso da Tesla, i commenti delle persone spaziavano dall'esclamazione alla preoccupazione.

Wang He non la pensa così. Pensa che Optimus sia "ancora una ricerca (ricerca)" in questa fase.

Wang He, nato nel 1992, è attualmente professore assistente e supervisore del dottorato presso il Frontier Computing Research Center dell'Università di Pechino. Si è laureato al Dipartimento di Elettronica dell'Università di Tsinghua e ha conseguito un dottorato di ricerca presso l'Università di Stanford ha partecipato al CVPR ICCV, la conferenza più importante sulla visione artificiale, la robotica e l'intelligenza artificiale. Attendi la pubblicazione di decine di articoli.

Dopo maggio dell'anno scorso, Wang He ha attirato più attenzione come timoniere della società di robot intelligenti "Galaxy General". Nel giugno di quest'anno, Galaxy General ha battuto il record di finanziamento del round angelico del 2024 con un finanziamento di 700 milioni di yuan.

La maggior parte delle aziende produce robot umanoidi completi. Wang He ritiene che le gambe non siano la soluzione ottimale in questa fase e non faranno altro che aumentare i costi. "Non è che l'abilità operativa del robot umanoide sia abbastanza forte, ma gli mancano le gambe. È che ci sono ancora molti compiti che i bracci robotici tradizionali non possono svolgere." Wang He ha ritenuto che le sue mani siano più preziose quando atterrano sulla scena, e un gran numero di scene in realtà non li richiedono. Con sufficienti capacità motorie, come l'ispezione e il pattugliamento, il cane robot può fare lo stesso dell'auto.

Il Galbot di Galaxy Universal raccoglie la spazzatura. Non ha gambe, ma un telaio pieghevole con ruote e gamba singola.

Ottenere dati sufficienti è una difficoltà nello sviluppo dell'intelligenza incorporata. Tesla e Google hanno scelto di utilizzare la "teleoperazione" per raccogliere dati, ovvero lasciando che le persone reali indossino alcune apparecchiature di raccolta per completare le azioni che il robot deve apprendere. Wang He ha ritenuto che questo non fosse un buon affare: "Google ha impiegato più di dieci mesi e decine di milioni di dollari per produrre centinaia di migliaia di dati". Galaxy Universal ha scelto tutto in "Sim2Real (migrazione dalla simulazione alla macchina reale). )" , basandosi cioè principalmente su dati di simulazione sintetici.

Le aziende di robot umanoidi negli Stati Uniti hanno molti soldi e sono audaci. Una delle osservazioni di Wang He è che ciò impedisce loro di cercare rigorosamente PMF (Product Market Fit, prodotto e adattamento al mercato). hanno i soldi, mettono tutto insieme in una volta sola e tutto è fatto”. Tuttavia, i problemi del settore come la mancanza di dati reali e l'hardware instabile devono essere risolti tramite scenari, quindi ritiene che la commercializzazione debba essere presa in considerazione fin dal primo giorno.

"Non dovremmo considerare quello che fa Tesla come uno standard." Wang He ha detto che le startup cinesi "se continuano a raccontare le storie di altre persone senza capitali abbondanti negli Stati Uniti, non può che essere un vicolo cieco".

Wang He non è d'accordo con Tesla e molte persone del settore non sono d'accordo con Galaxy GM. Prendendo Sim2Real, a cui Wang He è interessato, come esempio, molti professionisti ritengono che esistano differenze naturali tra i dati sintetici simulati e il mondo reale, che influenzeranno l'effetto dell'allenamento. Dopo il rilascio del primo robot Gabot della Galaxy Universal, alcuni oppositori hanno affermato di essersi sentiti "sollevati": "C'è un grande divario tra la demo e l'applicazione vera e propria", "Ho scritto molti articoli sull'afferrare e l'ultima mano è stata un'aspirazione tazza. "

La domanda più grande è che ora non è il momento di avviare un’attività che produca robot umanoidi. Alcuni investitori ritengono che queste aziende diventeranno martiri perché molte tecnologie come hardware, materiali ed energia non sono ancora mature. Kaifu Lee ha parlato di intelligenza incarnata e ha detto: "Non possiamo assolutamente investire ora in qualcosa che accadrà 10 anni dopo". Dai Yusen, un partner di Zhenge, ha affermato che l'incarnazione è ancora nell'era BlackBerry e non può investire nell'iPhone .

I robot umanoidi e l’intelligenza incarnata sono ancora in una fase iniziale, e questo è un settore con una catena lunga e uno stack tecnologico complesso, che comprende intelligenza artificiale, materiali, energia, controllo meccanico, produzione, gestione della catena di fornitura, sviluppo dei clienti e, in ultima analisi,; l'azienda che sopravvive Non possono esserci carenze.

È troppo presto per dirlo al vincitore, ma questa intervista documenta ciò che un giovane scienziato ha visto un anno dopo la partenza. Ora crede che, sebbene le grandi aziende abbiano più risorse, non hanno necessariamente ragione. Questa è la sua opportunità.

Intelligenza incarnata e società umanamassimo comun divisore di

"Più tardi": dal 2016 studi l'intelligenza incarnata di oggi, combinando modelli visivi, modelli del linguaggio naturale e modelli operativi dei robot. Cosa avete visto in questi anni di ricerca e sviluppo?

Wang He: Stavo lavorando sull'intelligenza incarnata quando stavo studiando per il mio dottorato. A quel tempo non si chiamava "intelligenza incarnata", inizialmente, ho combinato questi tre piccoli modelli separati per ottenere una stima della posa dell'oggetto a livello di categoria (posa: an oggetto La posizione e la postura nello spazio tridimensionale; stima della posizione: trovare la postura di un oggetto) è in realtà un'operazione bimanuale.

Dopo essere tornato in Cina e prima di fondare qui, ho installato un braccio sul dorso del cane robot Yushu e ho provato a fargli eseguire una serie di operazioni. Tuttavia, abbiamo scoperto che molti aspetti dell'informatica, delle risorse e persino dell'intero sistema non potevano soddisfare le nostre esigenze.

A quel tempo, sentivo che se non avessimo prodotto hardware, avremmo dovuto fare affidamento interamente su altri e le iterazioni di sviluppo del sistema sarebbero state limitate. Quando l’industria dei robot non esiste, è difficile fare solo intelligenza.

"Più tardi": quali cambiamenti sono avvenuti dopo? Perché hai deciso di avviare un’attività nel 2023?

Wang He: L’imprenditorialità intelligente incarnata ha iniziato a fermentare in Cina prima che negli Stati Uniti. La ragione principale è la maturità dell’hardware e dell’ontologia.

L’industria manifatturiera negli Stati Uniti non consente la rapida produzione di demo complete di intelligenza incarnata. La fornitura di componenti negli Stati Uniti è incompleta, molte cose devono essere importate e c’è carenza di ingegneri hardware. La produzione di hardware in Cina può raggiungere i costi più bassi e la massima affidabilità. Ad esempio, il robot umanoide di Yushu può essere costruito da poche persone in sei mesi.

Ma l’ontologia è solo un grande giocattolo. Il passo successivo è come competere in termini di intelligenza. Entro il 2023, in tutto il mondo appariranno grandi modelli multimodali incarnati come il PaLM-E, e la scintilla tra percezione multimodale e funzionamento incarnato sarà accesa. Ho deciso di avviare un'attività in questo momento.

"Più tardi": Perché hai scelto di avviare un robot umanoide? Il portatore dell'intelligenza incarnata non è necessariamente umanoide.

Wang He: Esistono infatti varie forme, inclusi cani, aeroplani e automobili. Ma tra tutte le forme, il massimo comune denominatore tra l’intelligenza incarnata e la società umana non può che essere la “forma umana”.

Poiché l’intero ambiente produttivo e di vita è progettato per gli esseri umani, l’umanoide può eseguire il maggior numero di operazioni, ne avrà il maggior numero in futuro e avrà il maggior valore di produzione economica. Dal punto di vista della visione, l’intelligenza incarnata e i robot umanoidi possono essere equiparati.

"Tardi": molte persone credono che la finestra imprenditoriale per l'intelligenza incorporata non sia ancora arrivata. Ora queste aziende diventeranno martiri e molte tecnologie come hardware, materiali ed energia non sono ancora mature. Ad esempio, quando Kai-Fu Lee ha parlato dell'intelligenza incarnata, ha detto: "Non possiamo assolutamente investire in qualcosa che accadrà 10 anni dopo". Dai Yusen, un partner di Zhenge, ha affermato che l'incarnazione è ancora nell'era dei BlackBerry e non può investire nell'iPhone.

Wang He: Quando ho incontrato il signor Kaifu Li nel 2019, ha detto che ci sarebbero voluti altri 50 anni. Ora ha accelerato da 50 a 10 anni.

Non possiamo usare i telefoni cellulari come un’analogia con l’intelligenza incarnata. Dai telefoni funzionali agli smartphone, la tecnologia è cambiata molto, e ora la direzione tecnica dell’intelligenza incarnata è stata chiara: l’ontologia è integrata con un modello di grandi dimensioni per diventare un robot universale. .

In questo momento, prima finisce il gioco, più tecnologia e dati verranno accumulati, il che amplierà il divario nella fase successiva. Dopo che il robot entra in scena, i dati della scena reale ne integrano l'intelligenza. È estremamente difficile per i nuovi arrivati ​​superare un’azienda che dispone già di decine di migliaia di robot, restituisce costantemente dati reali e ha già sperimentato delle insidie ​​sulla scena.

Questo eGuida autonomaAllo stesso modo, solo vendendo un numero sufficiente di automobili si avranno dati sufficienti e i dati potranno essere utilizzati per migliorare più rapidamente l’algoritmo. Nella battaglia tra Google e Tesla, Tesla vince perché ha abbastanza automobili.

L’intelligenza incorporata ha il potenziale per crescere in un mercato paragonabile a quello delle automobili. Ha le stesse caratteristiche dei precedenti cambiamenti tecnologici: è lento all’inizio e sostituisce gradualmente i robot per scopi speciali, ma una volta raggiunta la scala di 10.000 unità, accelererà la sostituzione delle industrie tradizionali;

"Tardi": un fatto è che il boom dell'imprenditorialità basata sull'intelligenza incorporata si è verificato nel ChatGPT e la grande mania dei modelli. Ma in realtà, i modelli di grandi dimensioni possono risolvere solo una piccola parte dei problemi dell’intelligenza incarnata, quindi alcune persone pensano che sia troppo presto.

Wang He: L'intelligenza incorporata è il prodotto dell'integrazione di software, hardware e algoritmi. In questa fase, i suoi punti di integrazione con modelli di grandi dimensioni sono: percezione generale e comunicazione linguistica, che risolve i problemi di interazione. Ad esempio, qualcuno si presenta in una farmacia e chiede al robot quale medicina prendere quando si sente a disagio? Solo i robot che hanno familiarità con i nomi e le posizioni dei medicinali possono parlare con le persone.

Un'altra combinazione è che ora, quando eseguono operazioni specifiche come afferrare e posizionare oggetti, il robot ha anche realizzato end-to-end basato sul modello di grandi dimensioni (la traiettoria del robot viene emessa direttamente dopo aver immesso le informazioni sensoriali). il grande modello giocherà un ruolo nell'intera pianificazione globale.

Nel complesso, i modelli di grandi dimensioni sono ora ausiliari, ma la combinazione di modelli grandi e modelli piccoli può portare a robot universali.

"Late": il percorso della Galassia è un piccolo modello visivo tridimensionale + un grande modello base Come lo capisci?

Wang He: Proprio come noi umani abbiamo il Sistema 1 e il Sistema 2, il pensiero veloce e il pensiero lento sono la capacità del cervelletto, mentre nei robot sono abilità come il controllo interattivo e l'abilità operativa, che possono essere gestite da piccoli modelli. ; quest'ultimo è Le capacità del cervello sono la cognizione, la comprensione, la pianificazione e la risoluzione di problemi con modelli di grandi dimensioni.

Si tratta di un sistema a tre livelli: lo strato inferiore è l'hardware, lo strato intermedio è costituito da piccoli modelli in grado di eseguire varie abilità e lo strato superiore è il grande modello di base responsabile della pianificazione delle attività. Dopo che il robot ha ricevuto le istruzioni, il modello grande è responsabile di richiamare il modello piccolo nello strato intermedio. Dopo aver eseguito il modello piccolo, il modello grande studierà il passaggio successivo in base ai risultati.

I piedi non sono così importanti;Le mani sono la chiave

"Più tardi": sono tutti umanoidi. La maggior parte delle aziende del settore dispone di robot con gambe. Il tuo primo robot, Galbot, è un telaio con ruote + mani.

Wang He: La domanda più importante è: quale valore può portare il tuo prodotto sulla scena? I bipedi risolvono solo il problema del traffico e non hanno capacità operative, quindi possono solo fare pattuglie, ispezioni e altre scene. Questo non è un cambiamento qualitativo rispetto all'uso di auto e cani in passato.

Ma le mani possono svolgere una produzione flessibile che i robot tradizionali non possono fare. Si tratta per lo più di lavori pesanti nelle industrie ad alta intensità di manodopera e sono più facili da generalizzare. Esistono molti spazi e scenari fantasiosi, quindi la parte superiore del corpo è più importante della parte inferiore.

"Late Later": Cos'è più difficile, la capacità di azionare le mani o la capacità di eseguire movimenti complessi dei piedi? La forma finale che tutti immaginano è una forma umana completa. La società che inizia per prima non sarà in grado di tenere il passo quando vorrà integrare le proprie capacità atletiche?

Wang He: Al giorno d'oggi, la maggior parte delle operazioni vengono eseguite con entrambe le mani, quindi usiamo prima le "mani" per entrare in scena e utilizziamo un telaio a ruote sostituibile e a basso costo per le gambe. Per prima cosa commercializziamo e otteniamo dati reali.

Il problema con i prodotti a due gambe è che non possono essere implementati in scenari reali, quindi le aziende che realizzano prodotti a due gambe devono puntare a capacità di finanziamento sostenibili e ci saranno grandi ondate nei prossimi tre anni. Naturalmente, man mano che le prestazioni delle gambe migliorano e il prezzo diventa giusto, sostituiremo anche le gambe.

"Più tardi": perché non è un'opzione farlo insieme?

Wang He: Perché le capacità operative del robot umanoide non sono abbastanza forti, ma gli mancano le gambe. Ci sono ancora molti lavori che i bracci robotici tradizionali non sono in grado di gestire.

Considerando l’uso reale, il costo e la stabilità dei robot su ruote sono di gran lunga migliori di quelli dei robot bipedi. Alla stessa altezza, il BOM (costo della materia prima) di due gambe è dieci volte più costoso di un telaio con ruote. Inoltre, i piedi cadono facilmente e, se il robot cade, verrà completamente danneggiato.

Le attuali difficoltà tecniche delle gambe devono ancora essere superate e sono molto indietro rispetto alla scena a due mani. Ad esempio, se qualcosa cade da uno scaffale al pavimento, nessun robot umanoide dotato di gambe al mondo può chinarsi per raccoglierlo.

"Più tardi": accovacciarsi è abbastanza facile per gli umani, perché i robot non possono farlo?

Wang He: La cosa più difficile è mantenere l'equilibrio del corpo durante l'intero processo. La capacità di equilibrio delle gambe ha diverse fasi: la prima fase è camminare, la seconda fase è salire i gradini. Questo ha già sconcertato diverse aziende. Il terzo passo è piegarsi. La difficoltà è che il baricentro uscirà. Poi ci sono gli squat e gli split squat, che attualmente non sono possibili in laboratorio.

Lo sviluppo delle gambe è in ritardo rispetto a quello delle mani, e lo stesso vale per le persone. Quando i bambini possono solo gattonare, le loro mani possono esplorare ovunque, ma ci vuole molto tempo per alzarsi e camminare in modo stabile. Molte persone continuano a cadere quando lo sono sei o sette anni.

In effetti, 20 anni fa ci furono dimostrazioni di camminata bipede. Oggi, ci sono solo una manciata di persone che possono effettivamente camminare per terra per dieci minuti senza alcun problema. La stabilità di molti robot bipedi semplicemente non soddisfa le aspettative di tutti. Nel campo dell’intelligenza incarnata, lo sviluppo del cervello è più avanti delle braccia e delle mani, e le braccia e le mani sono più avanti delle gambe.

"Late": il robot umanoide di Tesla Optimus è sia mani che piedi e ora può lavorare nelle fabbriche.

Wang He: L’attuale scena lavorativa di Optimus non ha nulla a che fare con le gambe. Catturare le batterie in fabbrica e fare ispezioni avanti e indietro nel parcheggio non richiede un miglioramento della capacità delle gambe.

Ed è difficile da calcolare: il costo del robot va da centinaia di migliaia a duecentomila dollari, ma il suo compito è mettere esattamente le stesse batterie in una scatola cinque per sei con un totale di trenta griglie, cioè inserire le batterie standard nello standard Nel cestello, la posizione del cestello è fissa. Perché qualcosa del genere richiederebbe un’intelligenza incarnata? Perché non usare il tradizionaleAutomazione industriale

"Late": il generale galattico Galbot smista i medicinali nelle farmacie di Meituan. Questo può essere fatto anche con un braccio robotico, ma hai utilizzato anche la parte superiore del corpo umanoide.

Wang He: Abbiamo creato questa scena per dimostrare le nostre capacità incarnate. Se qualcosa è troppo difficile e la tecnologia non è ancora arrivata a questo livello, dovremmo prima cercare qualcosa che possa essere fatto. La scena di Tesla è stata originariamente realizzata con un braccio robotico, senza nemmeno sostituire le persone. Il lavoro svolto in farmacia è svolto da esseri umani e la difficoltà stessa è maggiore di quella di Tesla. In secondo luogo, non può essere raggiunto utilizzando solo l’automazione industriale, perché farmaci diversi non sono prodotti standard e ordini diversi non sono requisiti standard.

Non considerare Tesla come un modello,Il funzionamento remoto non può risolvere i problemi relativi ai dati

"Late": la mancanza di dati è una delle difficoltà dell'intelligenza incarnata oggi: i dati di testo sono ora 15T, le immagini sono 6B e i video sono 2,6B, ma i dati dei robot sono solo 2,4M. Tesla e Google raccolgono entrambi i dati tramite la "teleoperazione", ovvero lasciando che persone reali indossino l'attrezzatura di raccolta per completare le azioni che il robot deve apprendere, mentre Galaxy General utilizza "all in Sim2Real", ovvero dati sintetici simulati. Perché sei diverso da loro?

Wang He: Il controllo remoto non è qualcosa che le startup possono permettersi. Il funzionamento remoto richiede l'assunzione di molte persone per eseguire varie operazioni ripetutamente. Per ottenere un dato valido, sono necessari un robot e una persona che trascorrano 30 secondi o un minuto insieme.

È qui che i robot umanoidi sono molto diversi dalla guida autonoma. La guida autonoma di Tesla consente a un milione di proprietari di automobili di spendere soldi per acquistare un'auto e guidarla per centinaia di milioni di ore senza dover spendere soldi aggiuntivi per i dati. E guidare è solo una cosa, ma in fabbrica ci sono molti tipi di lavori: chi incolla, chi mette le batterie, chi stringe le viti... La correlazione tra i diversi compiti può essere forte o debole.

Tesla ha trovato dozzine di persone che eseguivano operazioni a distanza sulla scena del posizionamento delle batterie, ma poi c'erano più scene operative come l'avvolgimento e l'assemblaggio, e non era tutto. Tesla ha molti soldi e una propria fabbrica per acquistare i propri robot. Può farlo, ma le startup no.

Proprio come le auto senza conducente sono ora dotate di monitor remoti, la teleoperazione può svolgere il ruolo di controllo remoto. Se qualcosa va storto mentre il robot sta lavorando sulla scena e non c'è nessuno sul posto, è possibile utilizzare il controllo remoto per intervenire.

"Più tardi": Quindi il telecomando è un gioco prodotto da una grande azienda?

Wang He: Questa è la storia che Musk sta raccontando. Non prendiamo come standard ciò che fa Tesla. Ad essere onesti, questa è ricerca.

Quando Google stava lavorando su RT (trasformatore robot, un algoritmo di controllo robot), c'era un team "Every day Robots" di oltre 200 persone. Dopo aver terminato RT-1, questo dipartimento è stato abolito perché il modello di business non esisteva.

Attualmente, tra le società di intelligence cinesi, solo quelle senza percorsi propri possono imitare Tesla e Google negli Stati Uniti. Se un'azienda americana non è ben capitalizzata e continua a raccontare le storie degli altri, sarà un vicolo cieco.

"Più tardi": dipende anche dalla quantità di dati necessari per realizzare un robot universale Se è inferiore a un ordine di grandezza, anche una grande azienda particolarmente ricca o una startup in grado di raccogliere fondi potrebbe essere in grado di gestire il telecomando? percorso dell'operazione?

Wang He: I nostri esperimenti hanno scoperto che, ad esempio, nel compito di scansione, quando vengono eseguiti un miliardo di dati, la percentuale di successo del robot può raggiungere l'87% se la quantità di dati viene ridotta a un decimillesimo , ovvero 100.000 Durante la prima scansione, la percentuale di successo era solo del 58%. Ciò dimostra che anche l’intelligenza incarnata ha chiare leggi di scalabilità e ha una maggiore sete di dati.

Nel mondo reale è difficile ottenere miliardi di dati. Google ha impiegato più di dieci mesi e decine di milioni di dollari per compilare centinaia di migliaia di dati.

"Late": quanto può la simulazione ridurre i costi?

Wang He: Attraverso la sintesi della simulazione, tutte le sessanta immagini possono essere renderizzate in un secondo. Rispetto alla raccolta di dati del mondo reale, i dati sintetici sono quasi gratuiti. La nostra seconda curva serve per ottenere dati dal mondo reale.

Nel simulatore, sintetizziamo il movimento di ciascun oggetto in 200 video, quindi simuliamo e sintetizziamo un singolo oggetto in una classe di oggetti. Ciò genera una grande quantità di dati, che utilizziamo per addestrare le capacità di presa del robot.

"Late": molte persone credono che i dati sintetici ottenuti utilizzando un emulatore (un sistema che fornisce un ambiente virtuale simulato) siano naturalmente diversi dai dati del mondo reale, il che influenzerà l'effetto dell'addestramento. Come lo risolvi?

Wang He: Il simulatore non può mai essere completamente reale, ma il percorso Sim2Real non richiede che il simulatore sia completamente simulato. Si tratta di un processo di ottimizzazione congiunta di hardware, algoritmi e simulazione.

In questa fase, il simulatore è uno strumento di verifica e il modello fisico matematico espresso in un algoritmo è il nucleo per ottenere le qualifiche di scansione.

Il simulatore ha alcune limitazioni: ad esempio, quando le nostre mani toccano una bottiglia di acqua minerale, cioè quando una mano flessibile e deformabile tocca un oggetto apparentemente rigido che in realtà può deformarsi, questo processo non è un contatto puntuale, ma non c'è attrito fisicamente perfettamente modellato.

In questo momento, il nostro algoritmo deve avere forti capacità adattive, come aggiungere il controllo del tocco e della forza, apprendere la "forma" e quindi controllarla dopo averla afferrata. In questo modo possiamo evitare la parte più difficile della simulazione. Un'altra premessa è che l'hardware deve essere sufficientemente robusto (robusto, nel senso che il sistema può funzionare in modo relativamente stabile anche in circostanze anomale).

"Late": come interagiscono simulatori e algoritmi, ad esempio modelli matematici e fisici?

Wang He: Proponiamo una serie di modelli matematici e fisici per acquisire ricerche efficienti, quindi utilizzare un simulatore per verificare se tale acquisizione è fattibile.

Qui viene affrontata anche la differenza tra apprendimento per rinforzo e apprendimento supervisionato. Se si tratta di apprendimento per rinforzo, significa interagire con il simulatore più volte, prove ed errori e trovare una soluzione. Ciò avrà molti requisiti sull'autenticità del simulatore. La camminata a piedi si basa interamente sull'apprendimento per rinforzo del simulatore Sim2Real. Ma questo è stato provato e l'efficienza è relativamente bassa.

Se puoi dire al robot come afferrare, può essere convertito in apprendimento supervisionato e l'efficienza dell'apprendimento sarà maggiore. Utilizziamo l'apprendimento supervisionato per apprendere la presa con due e cinque dita.

Consideralo dal primo giornocommercializzazione

"Più tardi": la maggior parte delle aziende cinesi che producono umanoidi realizzano anche altri prodotti. Ad esempio, Zhiyuan ha un robot per la pulizia commerciale, Zhuji e Yushu producono entrambi cani robot, mentre gli Stati Uniti lanciano principalmente robot umanoidi direttamente. Perché c'è questa differenza?

Wang He: L’abbondanza di capitali in Cina e negli Stati Uniti è diversa. Negli Stati Uniti, poiché hanno soldi, fanno tutto in una volta. Aziende come Figure AI e Tesla utilizzano tutte modelli umanoidi. Tuttavia, la valutazione attuale di Figure AI è di 2,5 miliardi di dollari e le operazioni mostrate nella demo non hanno nulla a che fare con l'abilità atletica. La bolla negli Stati Uniti impedisce loro di pensare in termini di PMF (product market fit) molto rigido.

Nell'agosto di quest'anno, FigureAI ha rilasciato un nuovo robot, Figure 02, che può già eseguire alcune dimostrazioni di assemblaggio nella fabbrica automobilistica BMW.

"Più tardi": Pensi che il modo più corretto sia pensare all'implementazione del prodotto fin dall'inizio? È troppo ansioso in un campo all'avanguardia come quello dei robot umanoidi?

Wang He: Da un lato è ancora una questione di dati. L’intelligenza incorporata è legata all’hardware, quindi se il robot non è schierato nella scena, è difficile ottenere una grande quantità di dati. Ma non può essere distribuito gratuitamente in grandi quantità perché il costo di costruzione del corpo principale è troppo alto. I modelli di grandi dimensioni non hanno bisogno di essere commercializzati per ottenere dati perché il costo della loro divulgazione è ancora molto inferiore a quello dei robot.

Allo stesso tempo, anche il robot necessita di lucidatura. Senza l'osservazione a lungo termine del robot nella scena, è impossibile portare il robot in uno stato in cui possa funzionare stabilmente. Questo è anche il motivo per cui non ci sono aziende PPT nel settore della robotica.

"Più tardi": che tipo di implementazione del prodotto hai visto?

Wang He: Il primo passo è eseguire una singola operazione su più oggetti in un unico ambiente, come spostare oggetti diversi nella stessa fabbrica o nella stessa linea di produzione. Questo è ciò che fanno ora Google RT-1 e Tesla Optimus, ma Optimus gestisce meno oggetti. Entrambi questi fattori non sono veramente generalizzati, cioè universali, e non possono ancora generare realmente profitti.

Il passo successivo prevede che i robot eseguano le stesse operazioni su oggetti diversi in scenari diversi nello stesso settore. Ad esempio, nel settore manifatturiero industriale, si è passati dalla possibilità di ottenere pezzi nelle fabbriche automobilistiche alla possibilità di ottenere tutti i pezzi in qualsiasi fabbrica; nel settore della vendita al dettaglio, si è passati dalla possibilità di immagazzinare merci nei piccoli supermercati; poter immagazzinare merci in Wal-Mart. Una sessione di formazione per analizzare diversi scenari nello stesso settore è di grande valore.

Il prossimo passo sarà avere più compiti, più scenari, gestire tutti i settori e continuare a diventare universale.

"Più tardi": L'intero settore sta facendo il primo passo in questo momento. Come scegli la prima scena o il primo gruppo di scene?

Wang He: In qualsiasi settore, purché si tratti di uno scenario di produzione flessibile ma non completamente automatizzato, è probabile che vengano implementati robot intelligenti incorporati. In particolare, ci sono alcune operazioni poco appariscenti nel settore manifatturiero. La domanda può essere forte e la tecnologia richiesta potrebbe non essere complicata.

Dobbiamo farlo uno per uno, dal facile al difficile, dal costo del lavoro elevato a quello basso, dalla domanda elevata a quella bassa.

"Più tardi": prendere le medicine in farmacia è conforme alla logica che hai menzionato? Oppure hai girato questa scena perché Meituan ha votato per te?

Wang He: Vogliamo essere i primi a cogliere scenari ad alto profitto e ad alto valore che possono essere trasformati in una maggiore versatilità. Il nostro obiettivo futuro è entrare nella casa.

B to C è più adatto per l'uso domestico che puro to B, quindi abbiamo creato una scena B to C nella vendita al dettaglio per interagire con le persone.

"Più tardi": quando verrà rilasciato il tuo primo robot?

Wang He: Accetteremo piccoli ordini in lotti nel quarto trimestre di quest'anno, al prezzo di 500.000.

"Più tardi": è troppo costoso acquistare il medicinale in farmacia?

Wang He: Ora abbiamo due direzioni di vendita principali, scenari di ricerca scientifica e scenari commerciali come Meituan. I prezzi e le configurazioni di questi scenari sono diversi.

Ciò che vendiamo agli scenari di ricerca scientifica è una versione sviluppabile con potenza di calcolo sufficiente. I prodotti che vendiamo in scenari commerciali non supportano lo sviluppo e aggiungeranno alcune funzioni e ridurranno altre funzioni non necessarie e la potenza di calcolo. Ad esempio, i robot sono ora dotati di schede OrinX, ma negli scenari commerciali l'elaborazione può essere collocata nel cloud .

Ora ci sono dozzine di riserve per le scene di ricerca scientifica. Negli scenari aziendali, dalle macchine ai servizi, il nostro team sarà responsabile dell'intero processo.

"Più tardi": Una volta hai detto che Galaxy dovrebbe contenere il costo di un set di robot a 50.000 yuan. Quando sarà?

Wang He: Non possiamo farlo quest’anno, ma quando raggiungeremo le 1.000 o 10.000 unità, continueremo ad avvicinarci a questo obiettivo.

"Più tardi": si scherza sul fatto che le vendite di robot umanoidi in Cina siano supportate da startup, laboratori universitari e altri peer.

Wang He: Il tetto per la ricerca scientifica è decisamente basso, ma la ricerca scientifica è il primo passo. È impossibile per un’azienda nata un anno vendere mille robot, a meno che non si tratti di un giocattolo.

"Più tardi": abbiamo parlato molto dell'attuale non consenso nel settore dell'intelligence incarnata. Quale pensi che sia l'attuale consenso?

Wang He: Finora non è emerso nessuno scenario di intelligenza incorporata che possa produrre benefici economici su larga scala. Non c’è consenso su come fare soldi, quindi non c’è consenso sulla forma del prodotto, sulla tecnologia, sull’industria e sugli scenari da respingere.

Nessun consenso è una buona cosa. Vale a dire, se tutti raggiungono un consenso, la battaglia finale sarà sui costi, sulle risorse e sulle connessioni. Questi fattori non sono ciò in cui gli imprenditori sono bravi e sono dannosi per l’imprenditorialità.

Ma per immaginare il futuro, la fine della tecnologia, entrare nella casa + umanoide completo + modello di grandi dimensioni, temo che tutti possano essere d'accordo.

"Più tardi": come descriveresti il ​​gran numero di nuove aziende che ora perseguono Emfilled? AGI Il viaggio?

Wang He: Questo è il processo in cui gli esseri umani interpretano nuovamente il ruolo di creatore. Anche l’industria automobilistica è un settore completamente creato dalle persone, e lo stesso varrà in futuro per i robot universali. Tra noi ci saranno anche aziende automobilistiche leader come Tesla.