uutiset

Zhang Zhengyou, Tencentin johtava tutkija: Pelkästään suurten mallien täyttäminen robotteihin ei voi tuottaa todellista ruumiillistuvaa älykkyyttä

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhang Zhengyou Tencentin päätutkija, Tencent Robotics X Laboratoryn johtaja

Tutkiakseen syvällisesti ihmisen ja koneen suhdetta tekoälyn aikakaudella ja saada yhteiskunta pohtimaan yhdessä taloudellisia kehitysmahdollisuuksia ja sosiaalisia vastausstrategioita ihmisen ja koneen symbioosin aikakaudella, Tencent Research Institute järjesti yhdessä Qianhai Institute of International Affairs -järjestön. , Qingteng, Hong Kong Science and Technology Parks Corporation ja muut laitoksetNäkymät ihmisen ja koneen välisille suhteille tekoälyn aikakaudellaFoorumi, tämä myösTekoäly + sosiaalinen kehitys -sarjan huippuluokan seminaarittoisesta numerosta.
Foorumilla Zhang Zhengyou, Tencentin päätutkija ja Tencent Roboticsin johtaja "Hierarkkinen" sisältää kolme ontologian, ympäristön ja tehtävien hallinnan tasoa. Hierarkkisen ruumiillistuneen älykkyyden etu on, että tietoa voidaan jatkuvasti päivittää ja kertyä ja tasojen välisiä kykyjä voidaan irrottaa.Tencent's Robotics

Mitä tulee älykkäiden robottien tulevaan ihmisten elämään, Zhang Zhengyou sanoi: "Pitkällä aikavälillä robotit tulevat varmasti tuhansiin kotitalouksiin. Tällä hetkellä robotit voivat saada aikaan valtavia muutoksia kuntoutuksen, vanhustenhoidon ja henkilökohtaisen koulutuksen aloilla. .

Seuraava on Zhang Zhengyoun jakamisen koko teksti:


Hyvät johtajat, arvoisat vieraat, arvoisat opettajat ja arvoisat opiskelijat: Hyvää iltapäivää kaikille. Tänään haluan jakaa kanssasi joitain haasteita ja edistystä ruumiillisessa älykkyydessä.

Mitä tulee ruumiillistuneeseen älykkyyteen, tästä termistä tuli yhtäkkiä suosittu viime vuonna, ja kaikkien mielestä se oli siistiä. Itse asiassa ruumiillinen älykkyys on suhteellinen ruumiilliseen älykkyyteen, ChatGPT:llä on älykkyyttä ilman ruumista. Minulle ruumiillistuva agentti on älykäs robotti. Mitä tulee siihen, pitäisikö tällä älykkyydellä olla keho vai ei, me robotteja valmistavamme haluamme ehdottomasti omaa kehon.

Vuoden 2018 alussa Tencentin puheenjohtaja ja toimitusjohtaja Ma Huateng päätti perustaa Tencent Robotics The Walking Dead, sielu ilman ruumista on tyhjyyden haamu Luomme robotteja, jotka auttavat harmonisesti ihmisiä! - luominen ja win-win ihmisten ja robottien välillä, tämä on alkuperäinen tarkoituksemme perustaa Tencent Robotics X.

Itse asiassa on kiistanalaista, vaatiiko älykkyys ruumiillistumaa. Tämä kiista pyörii pääasiassa kognitiivisen tieteen ympärillä. Tällä alalla kaikki uskovat, että monet kognitiiviset ominaisuudet edellyttävät organismin kokonaisominaisuuksia muodostaakseen kehon älykkyyttä. Jotkut ihmiset kuitenkin uskovat, että älykkyys ei vaadi kehoa, koska kohtaamme pääasiassa tiedonkäsittelyä, ongelmanratkaisua. päätöksentekoa ja hallintoa sekä muita tehtäviä, jotka voidaan suorittaa ohjelmistojen ja algoritmien avulla. Ruumiillistuneen älyn käsite ja käsite on ollut olemassa jo pitkään. Monille ihmisille keho on älykkyyden kannalta ratkaiseva tekijä, koska älykkyys syntyy organismin ja sen ympäristön välisestä vuorovaikutuksesta ja näiden kahden välinen vuorovaikutus edistää kasvua ja kehitystä. älykkyyden kehittämiseen.

Kun katson taaksepäin, Turing kirjoitti artikkelin vuonna 1950, jossa käsiteltiin koneälyn saavuttamista. Voidaan nähdä, että joidenkin mielestä joidenkin hyvin abstraktien toimintojen, kuten shakin pelaamisen, avulla voidaan saavuttaa (älykkyyttä), ja joidenkin mielestä koneessa pitäisi olla jokin elin (urut), kuten kaiutin (mikrofoni) auttaa Toteutamme koneälyn nopeammin. Turing itse sanoi kuitenkin, ettei hän tiennyt, mikä kategoria oli paras. Kun Open AI osti satoja robottikäsivarsia, he toivoivat suoraan, että he voisivat käyttää robotteja AGI:n toteuttamiseen Yli vuoden kovan työn jälkeen he havaitsivat, että tämä tie oli väliaikaisesti toimimaton, joten he luopuivat ja keskittyivät tekstipohjaiseen suureen. mallia, ja lopulta ChatGPT kehitettiin onnistuneesti.

Roboteilla on pitkä historia. Se oli alun perin mekaanisten aseiden automatisointia tunnetussa ympäristössä, ja se vaatii tarkkaa hallintaa, koska tämä prosessi ei vaadi älykkyyttä. Vaikka tämän tyyppisellä robotilla on erittäin vahvat toimintaominaisuudet, nämä toimintaominaisuudet on esiohjelmoitu kiinteään ympäristöön ja niillä ei ole älykkyyttä.

Suurten mallien aikakauteen tullessa jotkut ihmiset ajattelevat, että suuret mallit ovat erittäin tehokkaita ja ne voidaan toteuttaa välittömästi roboteissa. Itse asiassa näin ei ole. Mikä on tilanne nyt? Vertailun vuoksi se vastaa 20-vuotiaiden aivojen asettamista 3-vuotiaan kehon päälle. Vaikka robotilla on tiettyjä liikeominaisuuksia, sen toimintakyky on erittäin heikko. Todellisen ruumiillistuneen älyn on kyettävä oppimaan ja käsittelemään ongelmia itsenäisesti, ja kyettävä sopeutumaan ja suunnittelemaan automaattisesti, kun ympäristö muuttuu ja on epävarma. Tämä on erittäin tärkeä prosessi, jonka uskomme voivan johtaa AGI:hen tai yleisen älykkään robotin luomiseen.

Erityisesti,Ruumiillinen älykkyys on agentin, jolla on fyysinen kantaja (älykäs robotti), kyky kerätä tietoa ja taitoja havainnoinnin, hallinnan ja itsenäisen oppimisen kautta vuorovaikutuksen sarjassa, muodostaen älyä ja vaikuttaen fyysiseen maailmaan. Tämä eroaa ChatGPT:stä. Kehollinen älykkyys hankkii tietoa ihmisen kaltaisten havainnointimenetelmien avulla (näkemys, kuulo, kieli, kosketus) ja abstraktioi sen ilmaisun semantiikkaksi ymmärtääkseen maailmaa, ryhtyäkseen toimiin ja ollakseen vuorovaikutuksessa maailman kanssa. Tähän liittyy useiden tieteenalojen integrointi, mukaan lukien koneenrakennusautomaatio, sulautettujen järjestelmien ohjauksen optimointi, kognitiotiede, neurotiede jne. Se on kyky, joka voi ilmaantua, kun kaikki alat kehittyvät tietyssä määrin.

Ruumiillinen älykkyys kohtaa monia haasteita.

Ensimmäinen on monimutkainen havaintokyky, mukaan lukien näkö ja kuulo. Nyt suuressa GPT-4o-mallissa on vain näkö ja kuulo, ei kosketusta. Ruumiilliselle älylle kosketus on erittäin tärkeää. Roboteilla on oltava monimutkaisia ​​havaintokykyjä, jotta he havaitsevat ja ymmärtävät ympärillään olevia arvaamattomia ja rakenteettomia ympäristöjä ja esineitä.

Toinen on tehokkaat suorituskyvyt, mukaan lukien liike, tarttuminen ja manipulointi vuorovaikutuksessa ympäristön ja esineiden kanssa.

Kolmas on oppimiskyky, kyky oppia ja sopeutua kokemuksesta ja tiedosta, jotta voidaan paremmin ymmärtää ympäristön muutoksia ja vastata niihin.

Neljäs on sopeutumiskyky, kyky itsenäisesti mukauttaa käyttäytymistään ja strategioitaan paremmin selviytymään erilaisista ympäristöistä ja tehtävistä.

Viides on erittäin tärkeä. Kyse ei ole siitä, että näiden kykyjen superpositio saavuttaisi ruumiillistuneen älykkyyden, vaan näiden kykyjen orgaaninen ja tehokas yhteistoiminta saavuttaaksemme todella halutun ruumiillistuneen älykkyyden.

Kuudenneksi tässä prosessissa tarvitsemamme tiedot ovat erittäin niukat, mutta alun perin toivoimme saavuttavansa AGI:n suoraan robottien kautta, mutta myöhemmin luovuttiin tietojen puutteen vuoksi data on valtavia haasteita. Käyttäjien yksityisyyttä on myös suojattava, kun tietoja kerätään todellisissa skenaarioissa.

Seitsemänneksi, koska ruumiillistuneen älyn on asuttava ihmisen elinympäristössä, sen on varmistettava itsensä ja ympäristönsä turvallisuus.

Kahdeksas on sosiaalinen etiikka Kun robotit ovat vuorovaikutuksessa ihmisten kanssa, niiden on noudatettava moraali- ja lakinormeja ja suojeltava ihmisten etuja ja ihmisarvoa.

Kehittyneen älyn saavuttamiseksi on tehtävä paljon työtä. Tällä hetkellä kaikki ajattelevat, että suuret mallit voivat ratkaista älykkäiden robottien ongelman. Olen piirtänyt kuvan, joka vastaa suuren mallin laittamista robotin päähän Se näyttää olevan ratkaistu, mutta tämä on vain osa tarinaa. Odotamme, että älykkyys ja ontologia integroituvat orgaanisesti, jotta todellista älykkyyttä voi syntyä robottien ja ympäristön välisestä vuorovaikutuksesta.

Tämän vision saavuttamiseksiMielestäni ohjausparadigmaa on muutettava. Jos katsot robottioppikirjoja, perinteinen ohjausparadigma on suljetun silmukan prosessi, jossa havainto ensin, havainnointi seuraa suunnittelua, suunnittelu ja toiminta ja toiminta tämän jälkeen. Tämä ohjausparadigma ei voi saavuttaa älykkyyttä. Vuonna 2018 ehdotin "SLAP-paradigmaa", jossa S on havainto, L on oppiminen, A on toiminta ja P on suunnittelu. Havainto ja toiminta on kytkettävä tiiviisti toisiinsa, jotta voidaan reagoida muuttuviin ympäristöihin reaaliajassa. Niiden yläpuolella on suunnitelmia monimutkaisempien tehtävien ratkaisemiseksi. Oppiminen läpäisee jokaisen moduulin, kokemuksesta ja tiedoista oppiminen sekä kyky säätää omaa käyttäytymistään ja strategioitaan itsenäisesti. Tämä SLAP-paradigma on hyvin samanlainen kuin ihmisen älykkyys.

Nobel-palkinnon voittaja Daniel Kahnemanilla on kirja "Thinking, Fast and Slow", jossa uskotaan, että ihmisaivoissa on kaksi järjestelmää. Ensimmäinen järjestelmä, System 1, on intuitiivisempi ja ratkaisee ongelmat nopeasti. Toinen järjestelmä on syvempää ajattelua, rationaalista ajattelua, nimeltään System 2. Itse asiassa ihmiset viettävät 95 % ajastaan ​​System 1:ssä, ja heidän tarvitsee vain ajoittaa System 2 tehdäkseen monia monimutkaisia ​​tehtäviä. Miksi ihmisaivot ovat niin tehokkaita Ajatteluongelmien ratkaisemiseen tarvitaan vain muutama kymmenkunta wattia? GPU kuluttaa Energiaa ei tarvita Tämä johtuu siitä, että ihmiset voivat ratkaista 95 % järjestelmän 1 ongelmista ja vain vaikeat tehtävät menevät järjestelmään 2.

Ehdottamani SLAP-paradigma alimmalla tasolla liittyy läheisesti havainnon ja toiminnan välillä reaktiivisen autonomian ratkaisemiseksi, mikä vastaa järjestelmää 1. Tietoinen autonomia on saavuttaa System 2 rationaalinen ajattelu ja ajattelu.

SLAP-paradigman mukaan, yhdistettynä tietoon siitä, kuinka ihmisen aivot ja pikkuaivot hallitsevat raajoja, kehitimme hierarkkisen ruumiillistuneen älyjärjestelmän, joka on jaettu kolmeen kerrokseen: alin kerros on Proprioception, joka on robotin paikan käsitys moottorisignaali, joka ohjaa moottorin liikettä.

Toinen kerros on Exteroception, joka on ympäristön havainnointi. Ympäristön havainnointiälyn kautta se tietää, mitkä kyvyt on kutsuttava tehtävän suorittamiseen.

Ylin kerros liittyy tehtävään ja on nimeltään Strategic Level Planner Vain suunnittelemalla tiettyä tehtävää, ympäristöä ja robotin kehon kykyjä, tehtävä voidaan ratkaista hyvin.

Alla annan sinulle joitain konkreettisia esityksiä liikkeen hallinta alimmalla tasolla (Proprioception Level) on myös opittu tiedoista. Täällä todellinen koira saa juosta jatkuvasti juoksumatolla ja tiedonkeruu suoritetaan samanaikaisesti. Jäljitelmäoppimisen ja vahvistusoppimisen avulla robotti voi oppia oikeiden koirien kaltaisia ​​liikkeitä. Käytämme integroidun virtuaalisen ja reaalimaailman, digitaalisen kaksoismaailman, yhtenäisen virtuaalisen ja reaalimaailman maailmaa. Tässä nähdään vain koiran ulospäin suuntautuva liiketapa, mutta se, miten robotti liikkuu, kuinka paljon voimaa tarvitaan, sekä lähetettävän nivelten ja moottoreiden signaalivoimakkuus on hankittava vahvistusoppimisen kautta.

Toinen video, jossa ei ole erityistä ihmisen ohjausta, on antaa robottikoiran oppia oikean koiran liiketapa Oppimisen jälkeen se juoksee itsekseen, mikä tuntuu hieman todenmukaiselta.

Tämä on alkeellisin kyky (motorinen kyky). ryömi Kuinka kiivetä portaita luonnollisesti, miten aitaa ja kuinka hypätä esteiden yli.

Tällä hetkellä robottikoira on oppinut hyppäämään ja ylittämään esteitä simulaatiomaailmassa. Tämä koira on itse kehittämä, ja sen nimi on Max. Se eroaa tavallisista koirista, että sillä on pyörät polvissaan modaaliyhdistelmiä.

Kun meillä on kyky sopeutua ympäristöön, voimme antaa sen tehdä erilaisia ​​asioita. Esimerkiksi pyydämme toista koiraa ottamaan kiinni toisen koiran, ja se voittaa. Monimutkaisuutta lisää, että jos lippu ilmestyy, koira, joka oli alun perin paennut, voi joutua takaa-ajoon, kun se koskettaa lippua. Voit katsoa, ​​tämäkin oppii automaattisesti vahvistusoppimisen kautta. Koira jahtaa toista koiraa Tietenkin rajoitamme nopeutta, jotta koira juoksee hitaammin. Nyt juoksukoira ajoi takaa-ajokoiran vaihdon jälkeen se kääntyi nurkkaan ja petti toisen koiran.

Tällaisen hierarkkisen ruumiillistuneen älykkyyden etuna on, että kunkin tason tietoa voidaan jatkuvasti päivittää ja kerätä ja tasojen väliset kyvyt irrottaa toisistaan. Muiden tasojen päivittäminen ei vaikuta olemassa oleviin tietotasoihin.

Esimerkiksi kun yksi koira jahtasi juuri nyt toista koiraa, opin harjoittelemaan tasaisella maalla intensiivisen oppimisen aikana. Nyt kun esteitä oli lisätty, ei ole tarvetta opetella uudelleen, koska minä Tiedän kuinka käsitellä esteitä, kun olen pohjakerroksessa. Voit katsoa tätä videota, jota emme ole kouluttaneet on automaattinen (oppiva).

Tämä teos valmistui viime vuoden alussa ja julkaistaan ​​lähitulevaisuudessa kansainvälisessä akateemisessa huippulehdessä Nature Machine Intelligence. Sitä käytetään myös kansitarinana, mikä osoittaa, että kaikki uskovat tämän työn johtavan edelleen .

Puhutaanpa siitä, mitä olemme tehneet kuluneen vuoden aikanaEdistystä suuressa mallifuusiossa , eli integroimme suuret kielimallit ja multimodaaliset havaintomallit hierarkkiseen ruumiillistuneeseen älyjärjestelmäämme. Esimerkiksi, jos ihminen antaa munakastehtävän robotille, LLM-pohjainen suuri suunnittelumalli hajottaa munakkaan tehtävän, eli ota ensin munat jääkaapista, murskaa munat kattilaan ja paista sitten munat. Multimodaalisen käsityksen perusteella meidän on ensin tiedettävä, että muna asetetaan jääkaappiin, ja seuraavat keskitason taidot on otettava käyttöön. Robotin on ensin mentävä jääkaapin luo ottamaan muna ulos, avaamaan jääkaapin ovi, ota muna ja palauta se liedelle. Pohja on alatason säädin, joka ohjaa kuinka robotti menee jääkaapin luo, kuinka jääkaapin ovi avataan jne. Kun se oppii, se tapahtuu automaattisesti. Palaa lopuksi huipputason Strategisen tason suunnittelijaan. Huomaa, että tässä suljetussa silmukassa robotin toiminnot vaikuttavat virtuaalitodellisuuteen integroituun maailmaan, jossa digitaalinen maailma ja fyysinen maailma ovat tiiviisti integroituja Digitaalisessa simulaatiotilassa on robotteja ja hyvin aidon näköisiä kohtauksia robotin taidot voidaan oppia virtuaalitilassa suoraan todelliseen tilaan.

Katso video tästä. Laitamme älykkään robotin ympäristöön, jota se ei ole koskaan ennen nähnyt. Ensimmäinen askel on, että robotti kääntyy ympäri ja tutkii maailmaa. Esimerkiksi videossa robotin tehtävänä on lähettää roskat roskakoriin, joten sen täytyy ensin löytää roskakori ja sitten laittaa se sinne roskakorin löytämisen jälkeen. Siirrä myös roskakori toiseen paikkaan. Oletetaan, että hän ei tunne ympäristöä, löytää roskakorin tutkimalla ja lähettää sitten roskat sinne.

Seuraava kohtaus kertoo hiiren antamisesta sinisissä vaatteissa ja farkuissa pukeutuneelle. Monet ihmiset, jotka tapasin tänä aikana, olivat joko sinisissä vaatteissa tai farkuissa, kunnes robotti näki siniset vaatteet ja farkut, se lähetti hiiren.

Tutkimusprosessin aikana robotti muistaa ympäröivän ympäristön, eikä hänen tarvitse tutkia joka kerta uudelleen. Seuraavassa kohtauksessa lääke annetaan ensin kollegalle, jonka jälkeen robotti heittää pois kylmälääkepussin. Se tietää jo tutkimisen ja mallinnuksen aikana, missä roskakori on, ja menee suoraan roskakoriin. Voit myös käyttää tilan suhdetta, esimerkiksi missä jakkara on ja missä taulu on Jos haluat lähettää esineen henkilölle taulun ja korkean jakkaran välissä, jos keskellä on esteitä. automaattisesti vältetty.

Viime vuonna teimme myös baarimikkorobotin Tuolloin se käytti itse kehitettyä kolmisormea ​​ja runkoa saa katsoa.

Tämä komea baarimikko myös keräsi ensin oikean henkilön baarimikkoksi, oppi hänen liikeradansa ja toteutti sen sitten robotissa. Sormissa on myös tuntoantureita. Nyt kepin työntämiseksi reikään pelkkä visuaalinen kyky ei riitä, eikä tarkkuus riitä, joten se luottaa tuntoon, onko se työnnetty sisään. Jos sitä ei ole asetettu. , se on siirrettävä sivulle Siirrä se ylös ja aseta lopuksi tikku.

Tämä oli viime vuoden työ. Tämän vuoden työ sisältää itse kehitetyn viisisormeisen käden ja itse kehittämän robottikäsi Suuri tunnistusmalli ja suuri suunnittelumalli, joka voi toteuttaa toimintoja. Robotti voi puhua ja suorittaa tehtäviä vapaasti. Katso video.

Oikeassa alakulmassa näkyy mobiili älykäs robotti Pöydältä löytyy pullo viskiä ja sitä pyydetään kaatamaan viskilasi. Tämä näkyy robotin näkökentästä ja se tunnistaa erilaisia erilaisia ​​viinejä reaaliajassa.

Jaa se nyt täällä. Kiitos kaikille.