uutiset

onko openai:n robotti liian ihmisen kaltainen? sijoittajat olivat hämmästyneitä: he luulivat, että vaatteiden alla oli todellinen henkilö

2024-09-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

class representative series - nopein ja täydellisin tulkinta tekoälyn suurista tapahtumista tämä artikkeli keskittyy uusimpaan 1x-teknologian julkaisemaan neo-robottiin, openai:n investoimaan humanoidirobottiin, ja käyttää tätä vihjeenä paljastaakseen erityiset tekniset polut ja paikannusnäkökohdat. 1x robotsin hyväksymä.

ai future guide to the north, hao boyang ja zhou xiaoyan

toimittaja zheng kejun

vaikka vierailtuaan world robot conference, jotkut sijoittajat kertoivat tencent technology, että humanoidi robotti radalla, mutta katsotuottaja 1x, openai:n sijoittama humanoidirobottiyritysneo-robotin jälkeen he alkoivat taas luottaa.

jopa wang yuquan, haiyin capitalin perustaja, joka on aina vastustanut robottien tekemistä humanoidimuotoisiksi, hän sanoi tencent technologylle: "neo:n liikkeet ovat hyvin luonnollisia ja koordinoituja, ja ne pääsevät eroon ihmisten stereotypioista roboteista." kun näin tämän robotin ensimmäistä kertaa, ensimmäinen reaktioni oli, että vaatteiden alla oli oikea henkilö.

openai:n sijoittama robotti alkoi tehdä kotitöitä, ja se oli niin todenmukainen, että sitä kyseenalaistettiin ihmiskuoreksi

olemme myös hämmästyneitä sen sileydestä, mutta lisäksi haluamme tietää lisää, miksi se valitsee "bipod"-tilan "wheel"-tilan maailmassa perhekuvassa?

mainitsimme yllä olevassa raportissa, että yli 80 % teollisia kohtauksia palvelevista roboteista ottaa käyttöön "kaksijalkaisen" tilan alavartalon suunnittelussa. kotielämässä tehtävät ovat vähemmän standardoituja, tehtävät ovat triviaalisempia ja hätätilanteet yleisempiä, mikä edellyttää kotirobottien turvallisuutta ja hiljaisuutta. verrattuna "kaksijalkaisten" korkeisiin kustannuksiin ja kehittymättömiin ohjausalgoritmeihin, jotka johtavat epävakauteen kävellessä ja seisomisessa sekä suureen meluon, pyörillä varustettu tyyppi on hiljaisempi ja vakaampi tasaisilla teillä.

neo ottaa toisenlaisen lähestymistavan se on "kaksijalkainen" robotti, joka on harvinainen kotimaisissa kohtauksissa.

näyttövideossa neo on hyvin "pehmeä".ilman sen selässä roikkuvaa narua se näyttäisi oikealta ihmiseltä, joka pakkaa pikareita keittiössä.

se voi ennustaa ihmisten seuraavan askeleen kotitöissä ilman ohjeita, luottaen vain omiin "havaintoihinsa".

neo liikkuu erittäin hiljaa, mutta jos lisäät näytettävän videon äänenvoimakkuutta, kuulet silti hienovaraisen surisevan äänen, jonka neo antaa, kun se kumartuu nostaakseen repun.

toisin kuin monet humanoidirobotit, jotka näyttävät "korkeilta", neo näyttää naapurilta, joka tulee kotiisi arkivaatteissa ja voi auttaa sinua kotitöissä.

neo on 1,65 metriä pitkä ja sen koko on 55 vapausastetta. se painaa vain 30 kiloa, mikä on lähes 1/3–1/2 kevyempi kuin useimmat samanpituiset humanoidirobotit mediumin mukaan neo:n hyötykuorma on 20 kg ja sen pito on tarpeeksi vahva nostaakseen 70 kg (154 paunaa).

(kuva: humanoidirobottien painon vertailu "aikuisen pituuden" alueella kotimaassa ja ulkomailla)

parametreista päätellen neo on pienikokoinen, mutta sen vahvuus ei ole huonompi kuin alan valtavirran humanoidirobotit. näistä kaksijalkaisista humanoidiroboteista vain neo on selvästi sijoitettu palvelemaan kotikäyttöskenaarioita, kun taas muut kaksijalkaiset robotit palvelevat periaatteessa teollisia skenaarioita.

joten kuinka neo voi kävellä "kevyesti" kotona? kuinka voimme ennustaa ihmisten toimia pelkästään tarkkailemalla niitä? voisiko olla, että se on voittanut humanoidirobottien yleistysongelman?

mistä pyörien ja jalkojen suunnitteluero tulee?

kaksijalkaiset humanoidirobotit sopivat teollisiin skenaarioihin, mutta ne kohtaavat monia haasteita siirtyessään kotikäyttöön.

haasteen ydin on, että "kaksijalan" mekaaninen rakenne on monimutkainen, ja robotin toiminnan ylläpitämiseksi on mobilisoitava enemmän niveliä, mikä vaatii väistämättä suurempaa tehoa, jos sitä käytetään kotiskenaarioissa, sen on ratkaistava sarja suurista tehohäviöistä aiheutuvia ongelmia, kuten lämmön haihtumista ja melua.

sitä vastoin teollisissa skenaarioissa robotit työskentelevät yleensä varastoissa tai suljetuissa tehtaissa. nämä paikat on usein varustettu jäähdytys- tai jäähdytyslaitteilla, jotka auttavat poistamaan lämpöä, joten kaksijalkaisten robottien ei tarvitse huolehtia liikaa korkeista lämpötiloista .

"työmiehinä" heillä ei ole korkeita vaatimuksia ulkonäölle. he voivat olla puolialasti (osia näkyvillä) tai jopa kävellä ympäriinsä langat ripustettuina. kuten boston dynamicsin hydraulinen atlas. voit juosta edestakaisin "raivokkaasti".

(kuva: boston power hydraulic atlas)

lisäksi teollisuusympäristö itsessään on täynnä erilaisia ​​mekaanisia ääniä, eikä kaksijalkaisen robotin liikkuvien nivelten ääni ja askelten ääni kävellessä ole niin havaittavissa.

mutta kun vaihdat kotikuvaukseen, nämä teollisuuselämässä epäselvät ongelmat muuttuvat bugeiksi: robotin huono lämmönpoistokyky voi aiheuttaa tulipaloja, liiallinen melu voi aiheuttaa neurastheniaa ja paljaat osat ovat erityisesti lapsiperheille. turvallisuusriskit ovat valtavat.

pyörätyypissä on alhainen virrankulutus, mikä luonnollisesti vähentää ongelmia, kuten lämmön haihtumista ja melua.

tämä tarkoittaa, että jotta "kaksijalkainen" robotti voidaan siirtää kotikuvaukseen, se on optimoitava ja muutettava ontologiasta.

eric jiang, 1x robotics ai:n varapuheenjohtaja, tarjosi ratkaisuja neo:n tuotantoon optimoimalla robotin ydinkomponentin, hän sanoi äskettäisessä haastattelussa.vastoin monien humanoidirobottien käyttämää ajatusta "pienestä moottorista, suuresta välityssuhteesta ja suuresta liike-energiasta", neo:n avainsalasana on moottorin "suuri vääntömomentti, pieni välityssuhde ja alhainen kineettinen energia".

joten kuinka ymmärtää, mitä eric jiang sanoi? voimme ensin lyhyesti ymmärtää humanoidirobottien "moottorin" ja "välityssuhteen" välisen suhteen.

ihmisen tapaan humanoidiroboteille on olemassa vain kaksi liikettä: lineaarinen liike ja pyörivä liike. esimerkiksi 1x-näytön videossa on muutama sekunti, jolloin neo "aaltoilee" ihmisille tämän toiminnon anatomiset osat ovat: ensin kurkotetaan oikea käsi (lineaarinen liike) ja sitten heilutetaan kättä (kiertoliike). ).

jos yrität purkaa sen, huomaat, että humanoidirobotin koko liikejärjestelmä on näiden kahden liikkeen yhdistelmä.

niiden joukossa lineaarinen liike toteutetaan humanoidirobotin "moottori + ruuvi" -yhdistelmällä, kun taas pyörivä liike toteutetaan "moottori + vähennysventtiilillä" tässä keskitymme pyörivän liikkeen toteuttamiseen "moottori + vähennysventtiili". täydennä "nivel "kierto, verrattuna pyörätyyppiin, "kaksijalkaiseen" liittyvät pääliikkeet näkyvät myös nivelissä.

"välityssuhteen" ydin vaikuttaa pyörimisnopeuteen, joka on "moottorin + alennusvaihteen" yhdistetty nopeus.

yksinkertaisesti sanottuna,"välityssuhde" viittaa moottoriinlähtönopeusjanopeus, jolla komponentti todella suoritetaanvälinen suhde. jos esimerkiksi humanoidirobotin jalkojen liikenopeus on v, suuri välityssuhde tarkoittaa, että moottori käy suurella nopeudella ja pieni välityssuhde tarkoittaa sitä, että moottori käy alhaisella nopeudella.

monilla humanoidirobotteilla on korkeat välityssuhteet(esimerkiksi 10:1), sitten kun moottorin nopeutta on vähennetty vaihteella, robotin nivelten liikenopeus hidastuu. tämä kokoonpano sopii paremmin tilanteisiin, joissa vaaditaan suurta lujuutta, mutta jotka eivät vaadi nopeaa liikettä.

jos käytetään pientä välityssuhdetta(esimerkiksi 3:1), moottorin nopeus hidastuu pienemmällä tavalla ja robotin nivelet liikkuvat nopeammin. tämä kokoonpano sopii tilanteisiin, joissa tarvitaan nopeaa reagointia ja joustavaa toimintaa.

neo voi vähentää ydinnivelten virrankulutusta asettamalla matalan välityssuhteen ja pienentämällä moottorin lähtönopeutta.

moottorin alhainen välityssuhde tarkoittaa, että moottorin käyttönopeus uhrataan eric jiangin mukaan teknisessä asiakirjassa "motor physics", että neo käyttää "suuria vääntömomentteja" korvatakseen mahdollisesti aiheutuvan tehon puutteen. hän totesi myös: "useimmat moottorit eivät ole tarpeeksi tehokkaita kohdistamaan suuria vääntömomentteja, joten mekaaniset insinöörit ottavat nopeita moottoreita ja lisäävät niihin vaihteita ja vaihtavat nopeutta vääntömomentilla."

(kuva: kuvakaappaus eric jiangin julkaisemasta teknisestä asiakirjasta "motor physics", joka kuvaa kuinka mekaaniset insinöörit vaihtavat moottorin nopeuden vääntömomentiksi)

tämä selittää, miksi monia kaksijalkaisia ​​robotteja voidaan käyttää vain teollisissa skenaarioissa:"useimmat humanoidirobotiikkayritykset päättävät sijoittaa robottejaan tehtaisiin kodin sijaan, koska ne luottavat jäykkään, hyvin vaihdettuihin käyttöjärjestelmiin. nämä järjestelmät eivät ole turvallisia ihmisten läheisyydessä, ja ne on suljettava häkeissä."

tästä näkökulmasta katsottuna 1x-tiimi on löytänyt laitteistopolun kaksijalkaisille roboteille, jotka voivat toimia turvallisesti kotiskenaarioissa, joten neo voi käyttää ihmisvaatteita huolehtimatta siitä, että vaatteet palavat huonon lämmönpoistokyvyn vuoksi.

itse asiassa eve, 1x:n edellisen sukupolven robotti, oli pyörillä. vasta neo-sukupolvessa siitä tuli kaksijalkainen.

kotitilanne on erittäin monimutkainen ja vaatii robotin kurkottamaan pöydän alle tavaroiden poimimiseksi tai poimimaan tavaroita tiskiltä. koska alusta vie tilaa, pyörillä varustetun robotin on "ojennettava" kätensä päästäkseen joihinkin kulmiin. kodin eric jiang uskoo, että "tässä tapauksessa robotin pitäisi käyttää painopisteensä muutosta poimiakseen asioita, kuten ihmisiä." robotin pitäisi pystyä nostamaan toinen jalka kuin ihminen ja aseta toinen käsi pöydälle ja käytä painopistettäsi päästäksesi esineeseen.

eric jiang nosti myös esimerkin haastattelussa: miksi monet kirjahyllyt jättävät tietyn tilaraon pohjaan? "se on vain siksi, että ihmisten olisi helpompi työntää varpaitaan", jotta ihmiset voivat painaa kehoaan kirjahyllyä vasten noutaakseen kirjoja.

siksi kaksi jalkaa voivat pienentää robotin liikkeen jalanjälkeä, kun taas akseliväli ei voi mukautua triviaaleihin kotitilanteisiin.

tämä on logiikka 1x siirtymiselle pyöräasennosta jalka-asentoon. ehkä perheympäristössä pyöräasento ei voi "juoksua" yhtä hyvin kuin jalka-asento. lisäksi neo:lla on myös joitain "ainutlaatuisia" kaavoja yleistyksen ja tiedonkeruun kannalta.

ovatko robotit yleistyskykyiset jo kynnyksellä?

kotona käytettävänä robottina turvallisuuden lisäksi tärkeintä on, että se voi olla todellinen monipuolinen apulainen. tämä edellyttää, että robotti on "älykäs", kykenee ymmärtämään omistajan tarpeita, kykenee toimimaan itsenäisesti ja riittävän yleisluonteinen.

tarkasteltaessa kaikkia robottiyrityksiä, joihin openai on investoinut, niiden tuotteiden yhteinen piirre on, että ne ovat erittäin "älykkäitä" eli pystyvät hyvin yhdistämään suuria malleja robottien kanssa.

esimerkiksi kuvan 01 hämmästyttävä suorituskyky johtuu suurelta osin sen kyvystä ymmärtää ohjeita ja tunnistaa kohteita arvioiden tekemiseksi. ja tämä on juuri tulosta multimodaalisten suurten mallien ja robottien yhdistelmästä.

toisella sijoittajayhtiöllä, physical intelligencellä, on vain web-sivu eikä yhtään tuotetta toistaiseksi. mutta haastatteluissa yritys sanoi, että sen visiona on "rakentaa yleiskäyttöinen tekoälymalli, jota voidaan soveltaa useisiin eri skenaarioihin sen sijaan, että se toimittaisi voimanlähteenä robotteja, jotka suorittavat toistuvia tehtäviä varastoissa tai tehtaissa".

mitä tulee mekaaniseen osaan, he jopa ilmoittivat, etteivät he valmista laitteistoa itse, vaan ostavat useita erilaisia ​​robotteja ohjelmistojensa kouluttamiseksi.

(kuva: fyysinen äly)

tämä ei ole niinkään robotiikkayritys, vaan se on suuren mittakaavan malliyritys.

ja 1x:n robotit eivät ole poikkeus.

eric jangilla, 1x:n tekoälyn varapresidentillä, on laaja kokemus suurten mallien integroimisesta robottiin. ennen kuin hän liittyi 1x:ään vuonna 2022, hän johti tiimiä google deepmindin saycan-projektissa. tämä projekti on varhaisin yritys ruumiillistuneelle älykkyydelle integroida kielimalleja ja robotteja.

tämän vuoden helmikuussa 1x julkaisi videon evestään suorittamassa täyden hermoverkkotehtävän, josta tuli pieni hitti. grasp sfi:n jakamiskokouksessa 24. huhtikuuta voimme nähdä tämän mallin yleisen toimintalogiikan.

se on myös jaettu putkilinjaan (työnkulkulomake). ensinnäkin dit (diffusion-transformer) -mallia käytetään yhdistettynä luonnollisen kielen komentoihin difuusion avulla luomaan ennustettu kuva tulevasta sijainnistaan. laita sitten tämä ennuste, nykyinen kuva ja kohde uuteen transformer-malliin ennustaaksesi myöhemmät vaaditut mekaaniset toiminnot.

videosta näemme, että eve voi lajitella tavaroita, kantaa niitä ja jopa ladata itseään (ei ihme, että sitä kutsutaan nimellä eve). osa näistä tehtävistä voidaan hoitaa myös kahdella kädellä. kuitenkin, jos katsot tätä videota huolellisesti, huomaat, että eve:n ominaisuudet rajoittuivat siihen aikaan tavaroiden tunnistamiseen, tarttumiseen ja sijoittamiseen. myöhemmin nämä perusominaisuudet yhdistettiin erityistehtäviin, kuten pakkaamiseen, siirtämiseen ja luokitteluun .

tämän vuoden elokuussa tai syyskuussa periaatteessa kaikki robotiikkayritykset, joilla on pääsy suuriin mallipiireihin, voivat saavuttaa nämä ominaisuudet.

esimerkiksi kuva 01 julkaisi helmikuun lopussa videon omasta robotistaan ​​isolla mallilla kahvia ajamassa, jossa se pystyy jopa itse korjaamaan virheet.

(kuva: kuva 01 kahvin keittäminen esittelyvideossa)

sen jälkeen figuuri ja 1x kulkivat kuitenkin eri polkuja mallien suhteen.

maaliskuussa figure päätti käyttää suoraan gpt-4o:ta, mikä antoi roboteilleen vahvat keskustelu- ja logiikkaominaisuudet. he käyttivät putkilinjaa (työnkulkua) kolmen mallin integroimiseen.

ensinnäkin gpt-4o suurta mallia käytetään kielen tunnistamiseen ja toimien suunnitteluun. sitten sen oma hermopolitiikkakerros, eli oma koulutettu päästä päähän -tehtävämalli, suorittaa toiminnon. samalla se käyttää omaa kehonhallintamalliaan ylläpitämään robotin tasapainoa.

(kuva: kuvan virallinen selitys mallin koostumuksesta)

kun vuorovaikutuksesta tuli heidän robottinsa suurin kohokohta, kuva 02 korosti myös aivojen tason paranemista sen 3-kertaisen laskentatehon ansiosta. mallien osalta openai-mallien parempi integrointi on noussut niiden kehittämisen painopisteeksi.

mutta vasta 31. toukokuuta 1x julkaisi kieliohjepäivityksensä. esittelyvideossaan robotti voi vihdoin ymmärtää tehtäviä ja suorittaa niitä vastaavat toiminnot puheviestinnän avulla. mutta vielä toistaiseksi 1x ei vieläkään käytä suurta korkean tason kielimallia. virallisen verkkosivustonsa näyttösivun dokumentaatiossa he mainitsivat: "kun on rakennettu tietojoukon visuaalisen ja luonnollisen kielen komentopareja, seuraava askel on käyttää visuaalisia kielimalleja, kuten gpt-4o, vila ja gemini vision, ennustamaan automaattisesti korkean "tämä johtaa myös siihen, että heidän roboteistaan ​​puuttuu kyky suunnitella monimutkaisia ​​tehtäviä.

näyttää siltä, ​​​​että 1x on iso askel takana älykkään suorituskyvyn suhteen.

mutta tämä voi johtua siitä, että heidän ponnistelunsa ovat eri suuntiin. vuorovaikutus- ja suunnittelukykyyn verrattuna 1x välittää enemmän tehtävien yleistämisestä.

maaliskuussa virallisessa blogissaan 1x selitti rakentamansa mallin. he yrittävät kouluttaa "perusmallin" ymmärtämään monenlaisia ​​fyysisiä käyttäytymismalleja kodin siivoamisesta ja siivoamisesta esineiden poimimiseen ja sosiaaliseen vuorovaikutukseen ihmisten ja muiden robottien kanssa. sitten he lisäsivät malliin tarkempia taitoja (esim. yksi malli yleisiin ovitoimintoihin ja toinen varastotehtäviin) keräämällä enemmän taitojen koulutustietoja. toisin sanoen he yrittävät rakentaa robotin "perusmallia", joka tukee usean tehtävän yleistämistä.

tämä on tehtäväominaisuuksien yleistys, jonka ansiosta yksi robotti voi luottaa yhteen malliin useiden tehtävien suorittamisessa. tämä ei itse asiassa ole mitään erikoista. lähes kaikki robottiohjelmistoja valmistavat yritykset harjoittelevat useita yksittäisiä tehtäviä. erilaisissa robottiesittelyvideoissa ja konferensseissa järjestetyissä näyttelyissä olemme kuitenkin harvoin nähneet robotin suorittavan yhtä aikaa monimutkaisia ​​tehtäviä, kuten koko huoneen siivoamista ja sitten ruoanlaittoa.

tämä johtuu siitä, että tällä hetkellä mikään malli ei voi yleistää tehtävien välillä.

eric jang sanoi "the robot report" -lehden haastattelussa: "olemme aiemmin osoittaneet, että robottimme voivat poimia ja käsitellä yksinkertaisia ​​esineitä, mutta saadakseen todella käytännöllisen kotirobotin, sen on kyettävä suorittamaan useita tehtäviä sujuvasti sarjassa. "mutta tätä ei voida saavuttaa yksinkertaisesti jakamalla monimutkainen tehtävä useiksi tehtäviksi korkean tason mallin, kuten "aivojen" avulla. koska lähtökohta ja ehdot vaihtelevat tehtävien välillä.

jos robotin on suoritettava toinen tehtävä, sen on ensin korjattava ensimmäisen tehtävän puutteet. jos esimerkiksi ensimmäinen robotti ei saavuta oikeaa paikkaa pöydän vieressä, toisen robotin on ojennettava kätensä tarttuakseen esineeseen, ja kolmas tehtävä vaatii lisäkompensaatiota. virheillä on tapana kasautua.

1x ratkaisu on jakaa malli. tällä hetkellä sen malli koostuu kahdesta osasta, joista toinen on perusmalli, joka ymmärtää kaikki tehtävät ja "tehtäväketjut", ja toinen on monia pieniä malleja, jotka ymmärtävät paremmin tiettyjä tehtäviä. siitä on myös tullut eräänlainen putkisto (työnkulku).

he kehittivät luonnollisen kielen käyttöliittymän, jonka avulla työntekijät voivat ohjata robottia äänellä suorittaakseen useiden pienten mallien yhdistetyt toiminnot ja puuttuakseen virheisiin prosessin aikana. tämä mahdollistaa mallien kytkemisen sarjaan pidemmän aikavälin "tehtäväketjuiksi". näihin interventioihin ja koko monitehtävään liittyvää dataa käytetään suuren "perusmallin" kouluttamiseen. lopulta he mukauttavat ja kouluttavat "perusmallia" kertyneiden tehtävätietojen ja "tehtäväketjun" tietojen avulla, jotta tämä perusmalli ei pysty ratkaisemaan vain yksittäisen tehtävän suorittamista, vaan myös ratkaisemaan tehtävien välisen yhteysongelman.

(kuva: 1x:n kehittämä luonnollisen kielen ohjausliittymä)

siksi se on erilainen kuin figuurin valitsema vuorovaikutusta ja suunnittelua painottava polku. ydinongelma, jonka 1x päättää tällä hetkellä ratkaista, on tehtävien välinen yleistyskyky. ja tämä voi olla keskeinen kohta, jossa nykyisistä roboteista tulee todella universaaleja.

miten 1x:n tehtävien välinen yleistys edistyy?

uusimmassa dokumentissa voimme nähdä henkilökunnan jäsenen ohjaamaan robottia äänellä avaamaan oven, menemään wc-tilaan, sulkemaan wc-istuimen ja kävelemään ulos askel askeleelta. tätä tehtävää ei anneta kerralla, vaan se annetaan yksilöllisesti ja yhdistettynä.

tämä ei näytä liian "automaattiselta", mutta se itse asiassa todistaa, että 1x-robotilla on jo alustava kyky työskennellä jatkuvasti useiden komentotehtävien välillä. niin kauan kuin sillä on "tehtäväketjun" perussuorituskyky ja gpt-4:n kaltaisten huippumallien suunnitteluominaisuudet, se on pian mahdollista suorittaa itsenäisesti monimutkaisia ​​ja jatkuvia tehtäviä.

myös eric jang näyttää ajattelevan niin. blogissa nimeltä "kaikki tiet johtavat robotiikkaan" hän kirjoitti tämän vuoden maaliskuussa: "monet tekoälytutkijat uskovat edelleen, että yleiskäyttöisten robottien saavuttaminen kestää vuosikymmeniä. muista kuitenkin, että chatgpt:n synty tuntui kuin yhdessä yössä between. uskon, että myös robotiikka tuo mukanaan tällaisia ​​muutoksia."

hänen silmissään yleiskäyttöiset robotit, jotka voivat yleistää, näyttävät olevan näköetäisyydellä.

mutta alan pessimismi on perusteltua. heidän päähuolinsa ei ole algoritmi, vaan se, että ruumiillistuneen älyn nykyiset tiedot eivät ole runsaita, niitä on myös erittäin vaikea kerätä ja standardit puuttuvat.

mutta suuret tietomäärät ovat avain yleistyksen saavuttamiseen skaalauslaissa. verrattuna yksinkertaiseen suuren mittakaavan kielimalliin ruumiillistuva äly saattaa vaatia suuremman määrän dataa ollakseen universaali, koska se sisältää kuvia ja toimintoja. ja näiden tietojen kerääminen vie paljon aikaa.

käytä "tyhmiä" menetelmiä "älykkäiden" tietojen keräämiseen

eric jang esitti kerran dokumentissa lausunnon, joka oli vastoin alan yleisiä huolenaiheita,"monet ihmiset yliarvioivat tiedonkeruun pullonkaulan. käytännössä tietojen merkitys voi muuttua seuraavan 12 kuukauden aikana yhä vähemmän tärkeäksi."

hänen luottamuksensa tietoihin tulee aiemmasta käytännöstä. 1x:n logiikka tiedonkeruussa on aina ollut hieman erilainen kuin muiden robotiikkayritysten.

muut yritykset käyttävät yleensä kaikkia käytettävissä olevia keinoja kerätäkseen mahdollisimman paljon tietoa. menetelmiin kuuluu simuloitujen robottien sijoittaminen simuloituihin fyysisiin ympäristöihin, kuten unreal 5:een, keräämään suuria tietomääriä tai videodatan käyttö videoiden sieppaamiseen ihmisistä, jotka käyttävät esineitä ja poimimaan tietoa.

mutta itse asiassa tällä hetkellä yleisimmin käytetty valtavirran menetelmä on käyttää teleoperaatiota (training from demostration) datan hankkimiseen vr:ää käyttävien ihmisten kautta demonstroitavaksi roboteille.

tällainen etäkäyttökeräys sijoittaa robotin yleensä erittäin kiinteään "tiedonkeruutehdas"-ympäristöön keräämään tarpeeksi tietoa mahdollisimman tehokkaasti. vaikka toistoja ja yhtäläisyyksiä olisikin.

(kuva: teslan tiedonkeruutehdas)

eric jangin mukaan heidän nykyinen menetelmänsä on erittäin "tyhmä" menetelmä. verrattuna teslan käyttämään näennäisesti tehokkaaseen keskitettyyn keräystilaan, 1x päätti vaatia palauttamista erilaisiin elämäntilanteisiin keräämistä varten. joten näemme, että niitä kerätään hyvin erilaisissa tiloissa kuin tehtaalla. he eivät myöskään käyttäneet videokoulutus- ja simulaatiotietoja, vaan vaativat käyttämään vain teleoperaatiolla kerättyä dataa.

(kuva: even harjoituskohtaukset ovat yllättävän erilaisia)

toimitusjohtaja bernt bornich totesi haastattelussa: "monimuotoisuus on tärkein osa ihmisrobottien rakenteellisesta ympäristöstä, mikä mahdollistaa aidosti älykkäiden yleiskäyttöisten robottien.

x1:n näkemyksen mukaan koti- ja toimistoympäristöillä, joihin robotit lopulta laskeutuvat, ei ole kiinteää rakennetta ja ne muuttuvat jatkuvasti ihmisen käytön myötä, joten monipuolista dataa on oltava tarpeeksi merkityksellinen. siksi eric jangin antama 1x tiedonkeruukaava on "monimuotoisuus>laatu>määrä>algoritmi".

saavuttaakseen tämän monipuolisen kokoelman 1x on järjestänyt erityisesti robottioperaattoreiden tiimin, jotka kaikki on valittu huolellisesti. he kaikki voivat henkilökohtaisesti kouluttaa joitain käyttäytymismalleja yksinkertaisten nle-graafisten käyttöliittymien avulla. tältä osin eric jang kirjoitti teknisessä blogissaan: "1x on ensimmäinen yritys, jonka tiedän ja jonka avulla tiedonkerääjät voivat kouluttaa robottivalmiuksia itse. tämä lyhentää huomattavasti aikaa, joka tarvitaan mallin saavuttamiseen hyvässä tilassa, koska tiedot keräilijät voivat saada nopeasti palautetta siitä, kuinka hyvä data on ja kuinka paljon dataa todellisuudessa tarvitaan robottitehtävien ratkaisemiseen, on mielestäni tulossa yleinen malli robottitiedonkeruulle tulevaisuudessa.

heillä ei siis ole vain keräilytyöntekijöitä, vaan heillä on joukko kokoelmainsinöörejä, jotka voivat hienosäätää mallia suoraan. he tunnistavat, mikä ei toimi tietyissä tehtävissä, keräävät tietoja kyseisiä skenaarioita varten, sitten kouluttavat ja virittävät mallia ja toistavat prosessia, kunnes malli on täydellinen. all-in-one koulutus.

(kuva: 1x:n linkedinissä näiden operaattoreiden rekrytointi on kokopäivätyötä, ei ulkoistamista, ja kuukausipalkka on 6 000–8 000 dollaria, mikä on noin 1,5 kertaa yhdysvaltojen keskimääräinen kuukausipalkka)

nämä "tyhmät" menetelmät varmistavat kerätyn tiedon laadun ja monipuolisuuden, ja jokainen data on mahdollisimman "hyödyllistä". viime päivien haastatteluissa rric sanoi: "jos otat käyttöön robotteja tehtaalla ja suoritat täsmälleen samat tehtävät toistuvasti, tiedot ovat periaatteessa hyödyttömiä."

tämä suhteellisen hieno kokoelma epäilemättä hidastaa datan suuruuden kasvua, mutta sen vaikutus on erittäin merkittävä.

(yläosa: 1x keräämien tietojen tuntimäärä, alaosa: 1x keräämien toimien monimuotoisuus)

eric jangin teknisen jakamisen mukaan maaliskuuhun 2024 asti he ovat keränneet yhteensä 1 400 tuntia harjoitusdataa, joissa on mukana 7 000 erilaista ainutlaatuista toimintaa. hän sanoi myös, että näiden tietojen koulutuksen myötä eve-robotilla voi tällä hetkellä olla satoja itsenäisiä kykyjä.

sitä vastoin rt-2 käytti koulutuksessa 130 000 esimerkkiä, ja 13 robottia käytti täydet 17 kuukautta niiden keräämiseen. jos jokainen näistä esimerkeistä on keskimäärin 5 sekuntia, näiden esimerkkien kokonaispituus voi olla kymmeniä tuhansia tunteja. se voi suorittaa tehtäviä 700 eri ohjeella.

tästä näkökulmasta tarkastellun tiedonkeruun vaikutus on todella hyvä. käytä 1/10 tiedoista saavuttaaksesi vähintään puolet kykytasosta. ajatus siitä, että kiire tekee hukkaa, pitää paikkansa myös robotiikkamaailmassa.

johtopäätös

kaiken kaikkiaan 1x:n suurin "valttikortti" on keskittyminen ihmisiin.

1x:n välittämä yrityskulttuuri paljastaa "rentoutumisen" - olipa kyseessä sitten edellinen eve tai äskettäinen neo, sen promootiovideot ovat täysin erilaisia ​​kuin kylmät, 1x välttelee teräviä reunoja eikä laukaise tarkoituksella suuria viestintä on myös eräänlaista idealismia.

neo:n promootiovideosta näkee, että 1x luo "lämpimän miehen" imagoa kuin "naapuriveli hän käyttää tiukkoja vapaa-ajan vaatteita, jotka tuovat esiin ihmismiehiä muistuttavat lihaslinjat". hän huolehtii perheensä jokapäiväisestä elämästä, pakkaa paketit ennen kuin lähdet ulos ja halaa sinua lämpimästi ennen lähtöä.

lisäksi demonstraatiovideolta näkyy, että neo ymmärtää ihmisen eleitä, mikä on myös syvällistä ymmärrystä ihmisten välisestä kommunikaatiosta. suuri osa ihmisten välisestä kommunikaatiosta ei perustu kieleen. on aikoja, jolloin ihmiset ovat "sanoissa" siksi, että neo osaa "lukea" ihmisten seuraavan askeleen ja antaa toisilleen ymmärrystä ilman sanoja maalla on "inhimillinen" maku.

tehtävien yleistämisen ja joustavan suunnittelun näkökulmasta neo:ta voidaan kutsua ensimmäiseksi kaksijalkaiseksi humanoidirobotiksi kotielämässä.

jos robotit voivat olla ikuisia tulevaisuudessa, niin millaisen robotin tarvitsemme itsemme ja jopa tulevien sukupolvien mukana? ehkä neo on hyvä vastaus.