notizia

il robot di openai è troppo simile all’uomo? gli investitori sono rimasti stupiti: pensavano che sotto i vestiti ci fosse una persona reale

2024-09-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

serie dei rappresentanti di classe: l'interpretazione più rapida e completa dei principali eventi dell'ia questo articolo si concentra sull'ultimo robot neo rilasciato dalle tecnologie 1x, un robot umanoide investito da openai, e lo utilizza come indizio per rivelare il percorso tecnico speciale e le considerazioni sul posizionamento. adottato da 1x robots.

guida futura all'intelligenza artificiale per il nord di hao boyang e zhou xiaoyan

l'editore zheng kejun

anche se dopo aver visitato la world robot conference, alcuni investitori hanno detto a tencent technology che nella pista dei robot umanoidi, ma vediprodotto da 1x, un'azienda di robot umanoidi investita da openaidopo il robot neo hanno ricominciato ad avere fiducia.

anche wang yuquan, fondatore di haiyin capital, che si è sempre opposto alla trasformazione dei robot in forme umanoidi, è rimasto sorpreso. ha dichiarato a tencent technology: "i movimenti di neo sono molto naturali e coordinati, eliminando completamente gli stereotipi umani sui robot." quando ho visto questo robot per la prima volta, la mia prima reazione è stata che sotto i vestiti c’era una persona reale”.

il robot investito da openai ha iniziato a svolgere i lavori domestici ed era così realistico che è stato messo in discussione come un guscio umano

rimaniamo stupiti anche dalla sua fluidità, ma in più quello che vogliamo sapere di più è: perché sceglie di utilizzare la modalità "bipiede" nel mondo della modalità "ruota" nella scena familiare?

nel rapporto di cui sopra, abbiamo menzionato che oltre l’80% dei robot che servono scene industriali adotterà una modalità “bipede” nella progettazione della parte inferiore del corpo. nella scena domestica, i compiti sono meno standardizzati, i compiti sono più banali e le emergenze sono più frequenti, il che richiede che i robot domestici siano sicuri e silenziosi. rispetto al costo elevato e agli algoritmi di controllo immaturi dei "bipodi", che portano all'instabilità nel camminare e nello stare in piedi e all'elevato rumore, il tipo con ruote è più silenzioso e più stabile su strade pianeggianti.

neo adotta un approccio diverso. è un robot in modalità "bipede" raro nelle scene domestiche.

nel video visualizzato, neo è molto “morbido”.senza lo spago che gli pende dalla schiena, sembrerebbe un vero essere umano che prepara i calici in cucina.

può prevedere il prossimo passo degli esseri umani che svolgono i lavori domestici senza alcuna istruzione, basandosi solo sulle proprie "osservazioni".

neo si muove molto silenziosamente, ma se alzi il volume del video sul display, puoi comunque sentire il sottile ronzio che neo emette quando si china per prendere lo zaino.

a differenza di molti robot umanoidi che sembrano "alti", neo sembra un vicino che viene a casa tua indossando abiti casual e può aiutarti nelle faccende domestiche.

neo è alto 1,65 metri e ha 55 gradi di libertà in tutto il suo corpo. pesa solo 30 chilogrammi, ovvero quasi 1/3~1/2 più leggero della maggior parte dei robot umanoidi della stessa altezza. tuttavia, la forza di neo non è piccola secondo i rapporti medi, neo ha un carico utile di 20 kg e la sua presa è abbastanza forte da sollevare 70 kg (154 libbre).

(immagine: confronto del peso dei robot umanoidi nella fascia "altezza adulta" in patria e all'estero)

a giudicare dai parametri, neo è di piccole dimensioni, ma la sua forza non è inferiore a quella dei robot umanoidi tradizionali del settore. tra questi robot umanoidi bipedi, solo neo è chiaramente posizionato per servire scenari di applicazioni domestiche, mentre altri robot bipedi servono fondamentalmente scenari industriali.

allora, come può neo camminare "leggero" a casa? come possiamo prevedere le azioni umane semplicemente osservandole? potrebbe essere che abbia superato il problema della generalizzazione dei robot umanoidi?

da dove viene la divergenza progettuale tra ruote e gambe?

i robot umanoidi bipedi sono adatti in scenari industriali, ma devono affrontare molte sfide una volta passati alla modalità domestica.

il nocciolo della sfida è che la struttura meccanica del “bipiede” è complessa e devono essere mobilitate più articolazioni per mantenere il funzionamento del robot, che richiederà inevitabilmente una potenza maggiore se deve essere utilizzato in scenari domestici. deve risolvere una serie di problemi causati da elevate perdite di potenza, come la dissipazione del calore e il rumore.

al contrario, negli scenari industriali, i robot lavorano solitamente in magazzini o fabbriche chiuse. questi luoghi sono spesso dotati di apparecchiature di refrigerazione o raffreddamento per favorire la dissipazione del calore, quindi i robot bipedi non devono preoccuparsi troppo dell’influenza delle alte temperature in questi ambienti .

in quanto "operai", non hanno elevati requisiti per l'aspetto. possono essere seminudi (con parti esposte), o addirittura camminare per la fabbrica con dei fili appesi. la mancanza di "vestiti" aiuta anche a dissipare il calore. come l'atlante idraulico della boston dynamics. puoi correre avanti e indietro "ferocemente".

(foto: atlante idraulico della boston power)

inoltre, l'ambiente industriale stesso è pieno di vari suoni meccanici e il suono delle articolazioni mobili del robot bipede e il suono dei passi quando si cammina non sono così evidenti.

ma una volta passati alla scena domestica, questi problemi che non sono evidenti nella scena industriale diventano tutti dei bug: la scarsa prestazione di dissipazione del calore del robot può causare incendi, il troppo rumore può causare nevrastenia e le parti esposte sono soprattutto per le famiglie con bambini. ci sono enormi rischi per la sicurezza.

il tipo con ruote ha un basso consumo energetico, che riduce naturalmente problemi come dissipazione del calore e rumore.

ciò significa che per poter spostare un robot "bipede" in una scena domestica, deve essere ottimizzato e trasformato dall'ontologia.

eric jiang, vicepresidente di 1x robot ai, ha fornito soluzioni per la produzione di neo e ha ottimizzato il componente principale del "motore" del robot. ha affermato in una recente intervista:contrariamente all'idea di "piccolo motore, ampio rapporto di trasmissione ed elevata energia cinetica" utilizzata da molti robot umanoidi, la password chiave di neo è "coppia elevata, piccolo rapporto di trasmissione e bassa energia cinetica" del motore.

quindi, come capire cosa ha detto eric jiang? possiamo innanzitutto comprendere brevemente la relazione tra il "motore" e il "rapporto di trasmissione" dei robot umanoidi.

analogamente agli esseri umani, in realtà esistono solo due tipi di movimento per i robot umanoidi: movimento lineare e movimento rotatorio. ad esempio, nel video del display 1x, ci sono alcuni secondi in cui neo "saluta" gli esseri umani. le componenti anatomiche di questa azione sono: prima allungare la mano destra (movimento lineare), quindi agitare la mano (movimento rotatorio). ).

se provi a smontarlo, scoprirai che l'intero sistema di movimento del robot umanoide è una combinazione di questi due movimenti.

tra questi, il movimento lineare è realizzato dalla combinazione "motore + vite" del robot umanoide, mentre il movimento rotatorio è realizzato da "motore + riduttore". qui ci concentriamo sulla realizzazione del movimento rotatorio "motore + riduttore". completata la rotazione “articolare”, rispetto al tipo di ruota, i principali movimenti coinvolti nel “bipiede” si riflettono anche nelle articolazioni.

il nucleo del "rapporto di trasmissione" influisce sulla velocità di rotazione, che è la velocità combinata di "motore + riduttore".

in poche parole,il "rapporto di trasmissione" si riferisce a quello del motorevelocità di uscitaela velocità con cui il componente viene effettivamente eseguitoil rapporto tra. ad esempio, se la velocità di movimento delle gambe del robot umanoide è v, un rapporto di trasmissione elevato significa che il motore funziona ad alta velocità, mentre un rapporto di trasmissione basso significa che il motore funziona a bassa velocità.

molti robot umanoidi hanno rapporti di trasmissione elevati(ad esempio, 10:1), quindi dopo che la velocità del motore viene ridotta dall'ingranaggio, la velocità di movimento dei giunti del robot rallenterà. questa configurazione è più adatta per occasioni che richiedono elevata resistenza ma non richiedono movimenti ad alta velocità.

se viene utilizzato un rapporto di trasmissione basso(ad esempio 3:1), la velocità del motore subisce una decelerazione minore e i giunti del robot si muovono più velocemente. questa configurazione è adatta per situazioni che richiedono una risposta rapida e un funzionamento flessibile.

neo può ridurre il consumo energetico dei giunti principali impostando un rapporto di trasmissione basso e riducendo la velocità di uscita del motore.

il basso rapporto di trasmissione del motore significa che la velocità operativa del motore viene sacrificata. eric jiang ha dichiarato nel documento tecnico "motor physics" che ha scritto che neo utilizza "coppia elevata" per compensare la mancanza di potenza che potrebbe essere causata. dal basso funzionamento del motore. ha inoltre affermato: "la maggior parte dei motori non è abbastanza potente da esercitare grandi quantità di coppia, quindi gli ingegneri meccanici prendono motori ad alta velocità e vi aggiungono ingranaggi, scambiando velocità con coppia".

(immagine: screenshot del documento tecnico "motor physics" pubblicato da eric jiang, che descrive come gli ingegneri meccanici scambiano la velocità del motore con la coppia)

questo spiega perché molti robot bipedi possono essere utilizzati solo in scenari industriali:"la maggior parte delle aziende di robotica umanoide sceglie di implementare i propri robot nelle fabbriche piuttosto che nelle case perché fanno affidamento su sistemi di azionamento rigidi e altamente equipaggiati. questi sistemi non sono sicuri in presenza di persone e devono essere rinchiusi in gabbie."

da questo punto di vista, il team 1x ha trovato un percorso hardware per consentire ai robot bipedi di operare in sicurezza in scenari domestici, in modo che neo possa indossare abiti umani senza preoccuparsi di bruciare i vestiti a causa delle scarse prestazioni di dissipazione del calore.

in effetti, eve, il robot della generazione precedente di 1x, era su ruote. solo nella generazione neo è diventato bipede. il motivo principale è ancora il problema dell'adattamento alla scena.

la scena domestica è molto complessa e richiede che il robot si infili sotto il tavolo per prendere oggetti o prenda oggetti dal bancone. poiché la base occupa spazio, un robot con telaio su ruote deve "estendere" le braccia per raggiungere alcuni angoli della casa eric jiang ritiene che "in questo caso, il robot dovrebbe sfruttare il cambiamento del suo baricentro per raccogliere cose come gli esseri umani". il robot dovrebbe essere in grado di sollevare una gamba come un essere umano, posizionare una mano sul tavolo e utilizzare il baricentro per raggiungere l'oggetto.

anche eric jiang ha fatto un esempio nell'intervista: perché molti scaffali lasciano un certo spazio vuoto nella parte inferiore? "è solo per rendere più facile per gli esseri umani mettere le dita dei piedi", in modo che le persone possano premere i loro corpi contro lo scaffale per prendere i libri.

pertanto, i due piedi possono ridurre l'ingombro del movimento del robot, mentre la base con ruote non può adattarsi a banali scene domestiche.

questa è la logica del passaggio di 1x dalla postura sulle ruote a quella sui piedi. forse, in un contesto familiare, la postura sulle ruote non può "correre" così come la postura sui piedi. inoltre, neo dispone anche di alcune formule “uniche” in termini di generalizzazione e raccolta dati.

i robot sono già in grado di generalizzare sulla soglia?

essendo un robot utilizzabile in casa, oltre alla sicurezza, la cosa più importante è che possa essere un vero aiutante dalle mille sfaccettature. ciò richiede che il robot sia "intelligente", in grado di comprendere le esigenze del proprietario, in grado di operare in modo autonomo e sufficientemente generalizzato.

guardando tutte le aziende di robot in cui openai ha investito, la caratteristica comune dei loro prodotti è che sono molto “intelligenti”, ovvero riescono a combinare molto bene modelli di grandi dimensioni con robot.

ad esempio, le straordinarie prestazioni di figure 01 derivano in gran parte dalla sua capacità di comprendere le istruzioni e identificare gli elementi per esprimere giudizi. e questo è proprio il risultato della combinazione tra grandi modelli multimodali e robot.

un'altra società partecipata, physical intelligence, finora ha solo una pagina web e nessun prodotto. ma nelle interviste, la società ha affermato che la sua visione è quella di “costruire un modello di intelligenza artificiale generico che, invece di alimentare robot che eseguono compiti ripetitivi in ​​magazzini o fabbriche, possa essere applicato a un’ampia gamma di scenari”.

per quanto riguarda la parte meccanica, hanno addirittura annunciato che non produrranno direttamente l’hardware, ma acquisteranno diversi tipi di robot per addestrare il loro software.

(immagine: intelligenza fisica)

questa non è tanto un'azienda di robotica quanto un'azienda modello su larga scala.

e i robot di 1x non fanno eccezione.

eric jang, vicepresidente dell'intelligenza artificiale di 1x, ha una vasta esperienza nell'integrazione di modelli di grandi dimensioni nei robot. prima di unirsi a 1x nel 2022, una volta ha guidato un team nel progetto saycan di google deepmind. questo progetto è il primo tentativo di intelligenza incarnata per integrare modelli linguistici e robot.

nel febbraio di quest'anno, 1x ha pubblicato un video del suo eve mentre esegue una missione completa sulla rete neurale, che è diventato un piccolo successo. durante una riunione di condivisione grasp sfi del 24 aprile, possiamo vedere la logica operativa complessiva di questo modello.

è inoltre suddiviso in una pipeline (modulo del flusso di lavoro). innanzitutto, viene utilizzato un modello dit (diffusion-transformer), combinato con comandi in linguaggio naturale, per utilizzare difussion per generare un'immagine prevista della sua posizione futura. quindi inserisci questa previsione, l'immagine corrente e il target in un nuovo modello transformer per prevedere le successive attività meccaniche richieste.

dal video possiamo vedere che eve può ordinare gli oggetti, trasportarli e persino caricarsi (non c'è da stupirsi che si chiami eve). alcuni di questi compiti possono essere svolti anche con due mani. ma guardando attentamente questo video, si scopre che le abilità di eve all'epoca erano limitate all'identificazione, alla presa e al posizionamento degli oggetti. successivamente, queste abilità di base sono state combinate in compiti specifici, come imballare, spostare e classificare.

entro agosto o settembre di quest’anno, praticamente tutte le aziende di robotica che hanno accesso a circuiti modello su larga scala saranno in grado di raggiungere queste capacità.

ad esempio, alla fine di febbraio figure 01 ha pubblicato un video del proprio robot che utilizza un modello di grandi dimensioni per guidare il caffè, in cui può persino correggere gli errori da solo.

(immagine: figura 01 erogazione del caffè nel video dimostrativo)

tuttavia, successivamente, figure e 1x hanno preso strade diverse in termini di modelli.

a marzo, figure ha scelto di utilizzare direttamente gpt-4o, conferendo ai suoi robot potenti capacità di conversazione e logica. hanno utilizzato una pipeline (flusso di lavoro) per integrare i tre modelli.

innanzitutto, il modello di grandi dimensioni gpt-4o viene utilizzato per riconoscere il linguaggio e pianificare azioni. quindi il proprio livello di policy neurale, ovvero il proprio modello di attività end-to-end addestrato, esegue l'azione. allo stesso tempo, utilizza il proprio modello di controllo del corpo per mantenere l'equilibrio del robot.

(immagine: figura spiegazione ufficiale della composizione del modello)

dopo che l'interazione è diventata il punto forte del loro robot, la figura 02 ha anche sottolineato il miglioramento del livello cerebrale determinato dalla sua potenza di calcolo 3 volte maggiore. in termini di modelli, una migliore integrazione dei modelli openai è diventata il loro obiettivo di sviluppo.

ma è stato solo il 31 maggio che 1x ha rilasciato l’aggiornamento della direttiva linguistica. nel video dimostrativo, il robot può finalmente comprendere i compiti ed eseguire le operazioni corrispondenti tramite la comunicazione vocale. ma anche finora, 1x non utilizza ancora un ampio modello linguistico di alto livello. nella documentazione sulla pagina di visualizzazione del loro sito web ufficiale, hanno menzionato: “dopo aver creato un set di dati di coppie di comandi dal linguaggio visivo a quello naturale, il passo successivo è utilizzare modelli di linguaggio visivo come gpt-4o, vila e gemini vision per prevedere automaticamente alta- azioni a livello "ciò fa sì che i loro robot non abbiano la capacità di pianificare compiti complessi.

sembra che l'1x sia un grande passo indietro in termini di prestazioni intelligenti.

ma ciò potrebbe essere dovuto al fatto che i loro sforzi vanno in direzioni diverse. rispetto alle capacità di interazione e pianificazione, 1x si preoccupa maggiormente della generalizzazione dei compiti.

nel suo blog ufficiale di marzo, 1x ha spiegato il modello che stava costruendo. stanno cercando di addestrare un “modello base” per comprendere un’ampia gamma di comportamenti fisici, dalla pulizia e riordino della casa alla raccolta di oggetti fino alle interazioni sociali con esseri umani e altri robot. hanno quindi aggiunto insiemi di competenze più specifici al modello (ad esempio, un modello per le operazioni generali sulle porte e un altro per le attività di magazzino) accumulando più dati sulla formazione delle competenze. in altre parole, stanno cercando di costruire un “modello base” di robot che supporti la generalizzazione multi-task.

questa è la generalizzazione delle capacità dei compiti, consentendo a un singolo robot di fare affidamento su un unico modello per impegnarsi in più compiti. in realtà questo non è niente di speciale. quasi tutte le aziende che producono software per robot si addestrano su più compiti singoli. tuttavia, in vari video dimostrativi di robot e mostre durante conferenze, raramente abbiamo visto un robot completare continuamente un compito complesso allo stesso tempo, come pulire l’intera stanza e poi cucinare.

questo perché attualmente nessun modello può essere generalizzato tra le attività.

eric jang ha dichiarato in un'intervista a "the robot report": "abbiamo già dimostrato che i nostri robot possono raccogliere e manipolare oggetti semplici, ma per avere un robot domestico veramente pratico, deve essere in grado di eseguire più attività senza intoppi in serie. " ma questo non può essere realizzato semplicemente suddividendo un compito complesso in più compiti attraverso un modello di alto livello come un "cervello". perché la posizione di partenza e le condizioni sono diverse tra le attività.

se un robot deve eseguire un secondo compito, deve prima rimediare alle carenze del primo compito. ad esempio, se il primo robot non riesce a raggiungere la posizione corretta accanto al tavolo, il secondo robot dovrà allungare le braccia per afferrare l'oggetto e il terzo compito richiederà un'ulteriore compensazione. gli errori tendono ad accumularsi.

la soluzione 1x è dividere il modello. attualmente, il suo modello è composto da due parti, una è un modello di base che comprende tutti i compiti e le "catene di attività", e l'altra è costituita da tanti piccoli modelli che comprendono meglio compiti specifici. è diventato anche una sorta di pipeline (flusso di lavoro).

hanno sviluppato un'interfaccia in linguaggio naturale che consente ai dipendenti di guidare il robot attraverso la voce per completare le azioni combinate di più piccoli modelli e intervenire sugli errori durante il processo. ciò consente ai modelli di essere collegati in serie in "catene di attività" a lungo termine. i dati relativi a questi interventi e all'intero multi-task verranno utilizzati per addestrare il grande “modello base”. alla fine, adatteranno e addestreranno il "modello di base" attraverso i dati delle attività accumulati e i dati della "catena di attività", in modo che questo modello di base possa non solo risolvere l'esecuzione di una singola attività, ma anche risolvere il problema di connessione tra le attività.

(immagine: interfaccia di controllo del linguaggio naturale sviluppata da 1x)

si differenzia quindi dal percorso scelto da figure che privilegia l'interazione e la pianificazione. il problema principale che 1x attualmente sceglie di risolvere è la capacità di generalizzazione tra le attività. e questo potrebbe essere il punto critico affinché gli attuali robot diventino davvero universali.

allora, come procede la generalizzazione tra attività di 1x?

nell'ultimo documentario, possiamo vedere un membro dello staff che usa la voce per istruire un robot a completare i compiti di aprire la porta, entrare nella toilette, chiudere il sedile del water e uscire passo dopo passo. questo compito non viene dato in una volta sola, ma dato individualmente e in connessione.

ciò non sembra troppo "automatico", ma in realtà dimostra che il robot 1x ha già la capacità preliminare di lavorare ininterrottamente tra più compiti di comando. purché si disponga delle capacità esecutive di base della “task chain” e delle capacità di pianificazione di modelli all’avanguardia come gpt-4, sarà presto possibile portare a termine autonomamente compiti complessi e continuativi.

anche eric jang sembra pensarla così. in un blog intitolato "tutte le strade portano alla robotica" nel marzo di quest'anno, ha scritto: "molti ricercatori di intelligenza artificiale credono ancora che ci vorranno decenni per realizzare robot generici. ma ricorda, la nascita di chatgpt sembrava avvenuta da un giorno all'altro. penso che anche il campo della robotica introdurrà tali cambiamenti”.

ai suoi occhi, i robot universali in grado di generalizzare sembrano essere in vista.

ma il pessimismo del settore è giustificato. la loro preoccupazione principale non è l’algoritmo, ma il fatto che i dati attuali sull’intelligenza incarnata non sono abbondanti, sono anche molto difficili da raccogliere e mancano standard.

ma grandi quantità di dati sono la chiave per raggiungere la generalizzazione nella legge di scala. rispetto a un semplice modello linguistico su larga scala, l’intelligenza incarnata potrebbe richiedere una maggiore quantità di dati per essere universale perché include immagini e azioni. e la raccolta di questi dati richiede molto tempo.

utilizzare metodi “stupidi” per raccogliere dati “intelligenti”.

eric jang una volta fece una dichiarazione nel documentario contraria alle preoccupazioni generali del settore,"molte persone sopravvalutano il collo di bottiglia nella raccolta dei dati. in pratica, nei prossimi 12 mesi, i dati potrebbero diventare sempre meno importanti."

la sua fiducia nei dati deriva dalla pratica passata. la logica di 1x nella raccolta dei dati è sempre stata leggermente diversa da quella di altre aziende di robotica.

altre aziende generalmente utilizzano tutti i mezzi disponibili per raccogliere quanti più dati possibile. i metodi includono il posizionamento di robot simulati in ambienti fisici simulati come unreal 5 per raccogliere grandi quantità di dati o l’utilizzo di dati video per intercettare video di esseri umani che utilizzano oggetti ed estrarre informazioni.

ma in realtà, il metodo tradizionale più comunemente utilizzato al momento è l’uso della teleoperazione (training from demostration) per ottenere dati attraverso esseri umani che indossano la realtà virtuale per effettuare dimostrazioni ai robot.

questo tipo di raccolta operativa remota generalmente colloca il robot in un ambiente di "fabbrica di raccolta dati" molto fisso per raccogliere dati sufficienti nel modo più efficiente possibile. anche se ci sono alcune ripetizioni e somiglianze.

(immagine: la fabbrica di raccolta dati di tesla)

secondo eric jang, il metodo attualmente utilizzato è un metodo molto "stupido". rispetto alla modalità di raccolta centralizzata apparentemente efficiente utilizzata da tesla, 1x ha scelto di insistere sul ritorno a varie scene di vita per la raccolta. quindi li vediamo raccolti in molti spazi molto diversi da quelli di una fabbrica. inoltre, non hanno utilizzato dati di formazione video e simulazione, insistendo sull’utilizzo solo dei dati raccolti tramite teleoperazione.

(immagine: le scene di allenamento di eve sono sorprendentemente diverse)

il ceo bernt bornich ha dichiarato in un'intervista: "la diversità è l'aspetto più importante dei dati dei robot umanoidi. imparare dalla diversità nell'ambiente non strutturato dei robot di consumo renderà possibili robot universali veramente intelligenti. intelligenza dalla diversità di pensiero".

dal punto di vista di x1, gli ambienti domestici e di ufficio in cui i robot alla fine atterreranno non hanno una struttura fissa e cambiano costantemente con l’uso umano, quindi devono esserci dati sufficientemente diversificati per essere significativi. pertanto, la formula di raccolta dati 1x fornita da eric jang è "diversità>qualità>quantità>algoritmo".

per ottenere questa diversità di raccolta, 1x ha organizzato appositamente un team di operatori robot, tutti accuratamente selezionati. tutti possono addestrare personalmente alcuni modelli comportamentali attraverso una serie di semplici interfacce grafiche nle. a questo proposito, eric jang ha scritto in un blog tecnologico: "1x è la prima azienda che conosco che consente ai raccoglitori di dati di addestrare da soli le capacità del robot. ciò riduce notevolmente il tempo necessario affinché il modello raggiunga un buono stato, perché i dati ottenere rapidamente un feedback sulla qualità dei dati e sulla quantità di dati effettivamente necessaria per risolvere le attività robotiche è qualcosa che prevedo diventi un modello comune per la raccolta dati robotica in futuro.

quindi non hanno solo addetti alla raccolta, ma hanno un gruppo di ingegneri della raccolta che possono mettere a punto direttamente il modello. identificano ciò che non funziona in attività specifiche, raccolgono dati per tali scenari, quindi riqualificano e ottimizzano il modello e ripetono il processo finché il modello non è perfetto. formazione tutto in uno.

(immagine: su linkedin di 1x, il reclutamento di questi operatori avviene tutti a tempo pieno, non in outsourcing, con uno stipendio mensile di 6.000-8.000 dollari, che è circa 1,5 volte lo stipendio mensile medio negli stati uniti)

questi metodi "stupidi" garantiscono la qualità e la diversità dei dati raccolti e ogni dato è il più "utile" possibile. nelle interviste degli ultimi giorni, rric ha affermato: "se si distribuiscono robot in una fabbrica e si eseguono ripetutamente le stesse identiche attività, i dati sono sostanzialmente inutili".

questa raccolta relativamente accurata rallenterà senza dubbio la crescita della grandezza dei dati, ma il suo effetto è molto significativo.

(in alto: numero di ore di dati raccolti da 1x, in basso: diversità di azioni raccolte da 1x)

secondo la condivisione tecnica di eric jang, fino a marzo 2024, hanno raccolto un totale di 1.400 ore di dati di allenamento che coinvolgono 7.000 diverse azioni uniche. ha anche detto che con l'apprendimento di questi dati, il robot eve può attualmente avere centinaia di abilità indipendenti.

al contrario, rt-2 ha utilizzato 130.000 esempi durante l’addestramento e 13 robot hanno trascorso 17 mesi interi a raccoglierli. se ogni esempio dura in media 5 secondi, la durata totale di questi esempi può raggiungere decine di migliaia di ore. può eseguire attività con 700 istruzioni diverse.

da questo punto di vista, l’effetto di una raccolta dati raffinata è davvero buono. usa 1/10 dei dati per raggiungere almeno la metà del livello di abilità. l’idea che la fretta crea sprechi è vera anche nel mondo della robotica.

conclusione

nel complesso, la più grande “carta vincente” di 1x è l’attenzione alle persone.

la cultura aziendale trasmessa da 1x rivela un senso di "relax". che si tratti del precedente eve o del recente neo, i suoi video promozionali sono completamente diversi dalle fredde figure tecnologiche 1x evita gli spigoli vivi e non si attiva deliberatamente su larga scala anche la comunicazione è una sorta di idealismo.

dal video promozionale di neo si può vedere che 1x sta creando un'immagine di "uomo cordiale" come il "fratello della porta accanto". indossa abiti casual attillati, evidenziando le linee muscolari simili agli uomini umani. può anche muoversi con leggerezza. si prende cura della vita quotidiana della sua famiglia, prepara i tuoi pacchi prima che tu esca e ti abbraccia affettuosamente prima di partire.

inoltre, nel video dimostrativo si può vedere che neo è in grado di comprendere i gesti umani, il che significa anche una comprensione approfondita della comunicazione umana. gran parte della comunicazione tra le persone non si basa sul linguaggio. ci sono momenti in cui gli umani sono "a corto di parole". pertanto, neo può "leggere" il passo successivo degli umani e può capirsi a vicenda senza parole, il che è particolarmente speciale. la terra ha un sapore "umano".

dal punto di vista della generalizzazione dei compiti e della progettazione flessibile, neo può essere definito il primo robot umanoide bipede sulla scena domestica.

se i robot possono essere eterni nel futuro, allora di che tipo di robot abbiamo bisogno per accompagnare noi stessi e anche le generazioni future? forse neo è una buona risposta.