notizia

Zhang Zhengyou, capo scienziato della Tencent: Il semplice inserimento di modelli di grandi dimensioni nei robot non può produrre una vera intelligenza incarnata

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhang Zhengyou Scienziato capo di Tencent, direttore del Tencent Robotics X Laboratory

Al fine di esplorare in profondità la relazione uomo-macchina nell'era dell'intelligenza artificiale e portare la società a pensare congiuntamente alle opportunità di sviluppo economico e alle strategie di risposta sociale nell'era della simbiosi uomo-macchina, il Tencent Research Institute ha organizzato congiuntamente il Qianhai Institute of International Affairs , Qingteng, Hong Kong Science and Technology Parks Corporation e altre istituzioniProspettive delle relazioni uomo-macchina nell’era dell’AIForum, anche questo èSeminari di fascia alta della serie Intelligenza Artificiale + Sviluppo Socialedella seconda questione.
Al forum, Zhang Zhengyou, capo scienziato di Tencent e direttore di Tencent Robotics "Gerarchico" include tre livelli di controllo su ontologia, ambiente e compiti. Il vantaggio dell'intelligenza incarnata gerarchica è che la conoscenza a ciascun livello può essere continuamente aggiornata e accumulata e le capacità tra i livelli possono essere disaccoppiate.La robotica di Tencent

Per quanto riguarda il modo in cui i robot intelligenti entreranno nella vita delle persone, Zhang Zhengyou ha affermato: "A lungo termine, i robot entreranno sicuramente in migliaia di famiglie. Al momento, i robot potrebbero apportare enormi cambiamenti nei campi della riabilitazione, dell'assistenza agli anziani e dell'educazione personalizzata ".

Quello che segue è il testo completo della condivisione di Zhang Zhengyou:


Cari leader, illustri ospiti, illustri insegnanti e illustri studenti: buon pomeriggio a tutti. Oggi voglio condividere con voi alcune sfide e progressi riguardo all’intelligenza incarnata.

Per quanto riguarda l’intelligenza incarnata, questo termine è diventato improvvisamente popolare l’anno scorso e tutti hanno pensato che fosse interessante. In effetti, l'intelligenza incarnata è relativa all'intelligenza non incarnata. ChatGPT ha un'intelligenza senza corpo. Per me, un agente incarnato è un robot intelligente. Per quanto riguarda la questione se questa intelligenza debba avere o meno un corpo, noi che produciamo robot vogliamo sicuramente avere un corpo. Solo avendo un corpo l'intelligenza può svilupparsi meglio.

All'inizio del 2018, il presidente e amministratore delegato di Tencent Ma Huateng ha deciso di fondare Tencent Robotics. I morti che camminano, l'anima senza corpo è un fantasma del nulla. Non creiamo morti che camminano, non vogliamo che i fantasmi vaghino, noi creare robot che aiutino armoniosamente le persone!” Vale a dire, vogliamo creare robot intelligenti per migliorare l’intelligenza umana e liberare il potenziale fisico umano, prendendoci cura delle emozioni umane, promuovendo l’interazione tra esseri umani e robot e dando il benvenuto a un’era di coesistenza -creazione e vantaggio per tutti tra esseri umani e robot, questa è la nostra intenzione originale di creare Tencent Robotics X.

In effetti, è controverso se l’intelligenza richieda l’incarnazione. Questa controversia ruota principalmente attorno alla scienza cognitiva. In questo campo, tutti credono che molte caratteristiche cognitive richiedano le caratteristiche generali dell'organismo per modellare l'intelligenza dell'organismo. Tuttavia, alcune persone credono che l'intelligenza non richieda il corpo, perché ciò che dobbiamo affrontare principalmente è l'elaborazione delle informazioni, la risoluzione dei problemi, la risoluzione dei problemi. e il processo decisionale e la governance e altri compiti, che possono essere tutti svolti attraverso software e algoritmi. Il termine e il concetto di intelligenza incarnata esistono da molto tempo. Per molte persone, il corpo è fondamentale per l'intelligenza, perché l'intelligenza ha origine dall'interazione tra un organismo e il suo ambiente, e l'interazione tra i due è favorevole alla crescita e alla crescita. sviluppo dell'intelligenza.

Guardando indietro, Turing scrisse un articolo nel 1950 in cui discuteva come raggiungere l’intelligenza artificiale. Si può vedere che alcune persone pensano che alcune attività molto astratte, come giocare a scacchi, possano essere utilizzate per raggiungere (intelligenza), e alcune persone pensano che la macchina dovrebbe avere qualche organo (organo), come un altoparlante (microfono). per aiutare Realizziamo l'intelligenza artificiale più velocemente. Tuttavia, lo stesso Turing ha affermato di non sapere quale fosse la categoria migliore. Quando Open AI ha acquistato per la prima volta centinaia di bracci robotici, sperava di utilizzare direttamente i robot per implementare l'AGI. Dopo più di un anno di duro lavoro, hanno scoperto che questa strada era temporaneamente impraticabile, quindi hanno rinunciato e si sono concentrati su un progetto basato su testo. modello e infine ChatGPT è stato sviluppato con successo.

I robot hanno una lunga storia. In origine si trattava dell'automazione di bracci meccanici sulle linee di produzione, il che significa completare una serie di azioni in un ambiente conosciuto e che richiede un controllo preciso. Io la chiamo intelligenza zero perché questo processo non richiede alcuna intelligenza. Sebbene questo tipo di robot abbia capacità operative molto elevate, queste capacità operative sono preprogrammate per un ambiente fisso e non hanno intelligenza.

Entrando nell’era dei modelli di grandi dimensioni, alcune persone pensano che i modelli di grandi dimensioni siano molto potenti e possano essere implementati immediatamente sui robot. In realtà non è così. Qual è la situazione adesso? Per usare un’analogia, equivale a mettere un cervello di 20 anni su un corpo di 3 anni. Sebbene il robot abbia determinate capacità di movimento, le sue capacità operative sono molto deboli. La vera intelligenza incarnata deve essere in grado di apprendere e gestire i problemi in modo indipendente ed essere in grado di adattarsi e pianificare automaticamente quando l’ambiente cambia ed è incerto. Questo è un processo molto importante che crediamo possa portare all’AGI o creare un robot intelligente generale.

Nello specifico,L'intelligenza incarnata è la capacità di un agente con un portatore fisico (robot intelligente) di accumulare conoscenze e abilità attraverso la percezione, il controllo e l'apprendimento autonomo in una serie di interazioni, formando intelligenza e influenzando il mondo fisico. Questo è diverso da ChatGPT. L'intelligenza incorporata acquisisce conoscenza attraverso metodi di percezione simili a quelli umani (vista, udito, linguaggio, tatto) e la astrae in un'espressione semantica per comprendere il mondo, agire e interagire con il mondo. Ciò comporta l’integrazione di più discipline, tra cui l’automazione dell’ingegneria meccanica, l’ottimizzazione del controllo dei sistemi integrati, le scienze cognitive, le neuroscienze, ecc. È una capacità che può emergere dopo che tutti i campi si sono sviluppati in una certa misura.

L’intelligenza incarnata deve affrontare molte sfide.

Il primo riguarda le capacità di percezione complesse, tra cui vista e udito. Ora il modello grande che include GPT-4o include solo vista e udito e nessun tocco. Per l’intelligenza incarnata, il tatto è molto importante. I robot devono avere capacità di percezione complesse per percepire e comprendere gli ambienti e gli oggetti imprevedibili e non strutturati che li circondano.

Il secondo riguarda potenti capacità di esecuzione, inclusi movimento, presa e manipolazione per poter interagire con l'ambiente e gli oggetti.

Il terzo è la capacità di apprendimento, la capacità di apprendere e adattarsi dall’esperienza e dai dati per comprendere e rispondere meglio ai cambiamenti nell’ambiente.

La quarta è la capacità adattiva, la capacità di adattare in modo indipendente il proprio comportamento e le proprie strategie per affrontare meglio ambienti e compiti diversi.

Il quinto è molto importante. Non è la sovrapposizione di queste abilità a raggiungere l’intelligenza incarnata, ma l’integrazione organica ed efficiente di queste abilità per raggiungere veramente l’intelligenza incarnata desiderata di cui stiamo parlando.

In sesto luogo, in questo processo, i dati di cui abbiamo bisogno sono molto scarsi. Open AI inizialmente sperava di ottenere l'AGI direttamente tramite i robot, ma in seguito ha rinunciato a causa della mancanza di dati. Tuttavia, i dati devono ancora essere risolti e la scarsità di essi i dati rappresentano sfide enormi. Anche la privacy degli utenti deve essere protetta quando si raccolgono dati in scenari reali.

Settimo, poiché l’intelligenza incarnata ha bisogno di vivere in un habitat umano, deve garantire la sicurezza propria e dell’ambiente circostante.

L’ottavo riguarda la questione dell’etica sociale. Quando i robot interagiscono con gli esseri umani, devono seguire le norme morali e legali e proteggere gli interessi e la dignità umana.

C’è ancora molto lavoro da fare per raggiungere l’intelligenza incarnata. Al momento, tutti pensano che i modelli di grandi dimensioni possano risolvere il problema dei robot intelligenti. Ho disegnato qui un’immagine che equivale a mettere un modello di grandi dimensioni nella testa del robot Sembra risolto. Ma questa è solo una parte della storia. Ci aspettiamo che intelligenza e ontologia siano organicamente integrate, in modo che la vera intelligenza possa emergere dall’interazione tra robot e ambiente.

Per realizzare questa visione,Penso che il paradigma di controllo debba cambiare. Se si guardano i libri di testo sui robot, il paradigma di controllo tradizionale è innanzitutto un processo di percezione a circuito chiuso, la percezione seguita dalla pianificazione, la pianificazione seguita dall’azione e l’azione seguita dalla percezione. Questo paradigma di controllo non può raggiungere l’intelligenza. Nel 2018 ho proposto un "paradigma SLAP", dove S è la percezione, L è l'apprendimento, A è l'azione e P è la pianificazione. Percezione e azione devono essere strettamente collegate per rispondere ai cambiamenti ambientali in tempo reale. Sopra di loro ci sono piani per risolvere compiti più complessi. L'apprendimento permea ogni modulo, essendo in grado di apprendere dall'esperienza e dai dati e essendo in grado di adattare il proprio comportamento e le proprie strategie in modo indipendente. Questo paradigma SLAP è molto simile all’intelligenza umana.

Il vincitore del premio Nobel Daniel Kahneman ha un libro intitolato "Thinking, Fast and Slow", in cui ritiene che il cervello umano abbia due sistemi. Il primo sistema, il sistema 1, è più intuitivo e risolve i problemi rapidamente. Il secondo sistema è un pensiero più approfondito, un pensiero razionale, chiamato Sistema 2. In effetti, le persone trascorrono il 95% del loro tempo nel Sistema 1 e devono programmare il Sistema 2 solo per compiti pochi e complessi. Allora perché il cervello umano è così efficiente che bastano poche decine di watt per risolvere problemi di pensiero? una GPU consuma Non è necessaria energia Questo perché gli esseri umani possono risolvere il 95% dei problemi nel Sistema 1 e solo i compiti difficili vanno al Sistema 2.

Il paradigma SLAP che ho proposto, al livello inferiore, è strettamente connesso tra percezione e azione per risolvere l'autonomia reattiva, che corrisponde al Sistema 1. L'autonomia cosciente consiste nel raggiungere il pensiero e il pensiero razionale del Sistema 2.

Secondo il paradigma SLAP, combinato con la conoscenza di come il cervello umano e il cervelletto controllano gli arti, abbiamo sviluppato un sistema di intelligenza incarnata gerarchica, diviso in tre strati: lo strato inferiore è la Propriocezione, a cui corrisponde la percezione di se stesso del robot il segnale del motore che controlla il movimento del motore.

Il secondo strato è l'esterocezione, che è la percezione dell'ambiente. Attraverso l'intelligenza della percezione dell'ambiente, sa quali capacità devono essere chiamate per completare il compito.

Lo strato superiore è correlato al compito ed è chiamato Pianificatore del livello strategico. Solo pianificando il compito specifico, l'ambiente e le capacità del corpo del robot è possibile risolvere bene il compito.

Di seguito ti fornirò alcune dimostrazioni specifiche. Anche il controllo del movimento al livello più basso (livello della propriocezione) viene appreso dai dati. Qui, un vero cane può correre continuamente sul tapis roulant e la raccolta dei dati viene eseguita simultaneamente. Attraverso l'apprendimento per imitazione e l'apprendimento per rinforzo, il robot può apprendere movimenti simili ai cani reali. Utilizziamo un mondo di mondo virtuale e reale integrato, gemello digitale, mondo virtuale e reale unificato. Ciò che vediamo qui è solo il metodo di movimento verso l'esterno del cane, ma il modo in cui si muove il robot, quanta forza è richiesta e la potenza del segnale delle articolazioni e dei motori da inviare devono essere ottenuti attraverso l'apprendimento per rinforzo.

Un altro video, in cui non è previsto alcun controllo umano speciale, consiste nel lasciare che il cane robot impari il metodo di movimento di un cane vero. Dopo aver imparato, corre da solo, il che sembra un po' realistico.

Questa è l'abilità più elementare (capacità motoria). Il passo successivo è percepire l'ambiente e completare questi compiti nell'ambiente. Ho appena parlato di muoversi su un terreno pianeggiante. Il secondo passo è aggiungere informazioni ambientali strisciare come salire i gradini in modo naturale, come superare gli ostacoli e come saltare.

In questo momento, il cane robot ha imparato a saltare e superare gli ostacoli nel mondo della simulazione. Questo cane è stato sviluppato da noi e si chiama Max. Ciò che è diverso dai cani normali è che ha le ruote sulle ginocchia, può camminare più velocemente su terreno pianeggiante con le ruote e può usare quattro zampe su terreni irregolari, quindi è diverso combinazioni modali.

Quando abbiamo la capacità di adattarci all'ambiente, possiamo lasciargli fare varie cose. Ad esempio, chiediamo a uno dei cani di raggiungere l'altro cane e, dopo averlo raggiunto, vincerà. Per aumentare la complessità, se appare una bandiera, il cane che originariamente stava fuggendo può diventare un inseguimento quando tocca la bandiera. Puoi dare un'occhiata, anche questo viene appreso automaticamente attraverso l'apprendimento per rinforzo. Un cane sta inseguendo un altro cane Naturalmente limitiamo la velocità per far correre il cane più lentamente. Ora è il cane che corre a inseguire. Dopo che il cane che insegue si è cambiato, gira l'angolo e inganna l'altro cane.

Il vantaggio di una tale intelligenza incarnata gerarchica è che la conoscenza a ciascun livello può essere continuamente aggiornata e accumulata e le capacità tra i livelli possono essere disaccoppiate. L'aggiornamento di altri livelli non influirà sugli altri livelli di conoscenza esistenti.

Ad esempio, quando un cane ha inseguito un altro cane proprio ora, ho imparato ad allenarmi solo su un terreno pianeggiante durante l'apprendimento intensivo senza aggiungere ostacoli. Ora, dopo aver aggiunto ostacoli, non è necessario reimparare, l'ha imparato automaticamente so come affrontare gli ostacoli quando sono al piano terra. Puoi dare un'occhiata al video. Questo è qualcosa che non abbiamo riqualificato. Quando incontra un bastone, lo attraverserà è automatico (apprendimento).

Questo lavoro è stato completato all'inizio dello scorso anno e sarà pubblicato nel prossimo futuro sulla prestigiosa rivista accademica internazionale Nature Machine Intelligence. Verrà utilizzato anche come storia di copertina, indicando che tutti credono che tale lavoro sia ancora all'avanguardia .

Parliamo di quello che abbiamo fatto nell’ultimo annoProgressi nella fusione di grandi modelli , cioè, integrando grandi modelli linguistici e modelli di percezione multimodale nel nostro sistema gerarchico di intelligenza incarnata. Ad esempio, se un essere umano assegna il compito di frittata a un robot, il grande modello di pianificazione basato su LLM scompone il compito della frittata, cioè prima togliere le uova dal frigorifero, romperle nella pentola e poi friggere le uova. uova. Dalla percezione multimodale, dobbiamo prima sapere che l'uovo è messo nel frigorifero e devono essere richiamate le seguenti abilità di livello medio. Il robot deve prima andare al frigorifero per estrarre l'uovo, aprire la porta del frigorifero, prendi l'uovo e rimettilo sul fornello. La parte inferiore è il controllo di livello inferiore, che controlla come il robot si avvicina al frigorifero, come apre la porta del frigorifero, ecc. Una volta appreso, verrà eseguito automaticamente. Infine, torna al livello superiore Pianificatore di livello strategico. Si noti che in questo circuito chiuso, le azioni del robot agiscono su un mondo integrato virtuale-reale in cui il mondo digitale e il mondo fisico sono strettamente integrati. Nello spazio di simulazione digitale, ci sono robot e scene dall'aspetto molto reale, in modo che le abilità del robot possono essere apprese nello spazio virtuale direttamente applicate allo spazio reale.

Guarda un video qui. Mettiamo un robot intelligente in un ambiente che non ha mai visto prima. Il primo passo è che il robot si giri ed esplori il mondo. Ad esempio, nel video, il compito del robot è inviare la spazzatura nel bidone della spazzatura, quindi deve prima trovare il bidone della spazzatura e poi rimetterlo lì dopo aver trovato il bidone della spazzatura. Sposta anche il bidone della spazzatura in un altro posto. Supponiamo che non conosca l'ambiente, trovi il bidone della spazzatura attraverso l'esplorazione e poi mandi lì la spazzatura.

La scena seguente riguarda il dare il mouse alla persona che indossa vestiti e jeans blu. Ci sono molte altre persone qui. Deve trovare la persona che indossa vestiti e jeans blu e le esplorerà e le troverà automaticamente. Molte delle persone che ho incontrato durante questo periodo indossavano abiti blu o jeans. Fino a quando il robot non ha visto vestiti e jeans blu, ha inviato il mouse.

Durante il processo di esplorazione, il robot riesce a ricordare l'ambiente circostante e non ha bisogno di esplorarlo nuovamente ogni volta. Nella scena seguente, la medicina viene prima data a un collega e poi la borsa della medicina fredda viene poi gettata via dal robot. Sa già dove si trova il bidone della spazzatura durante l'esplorazione e la modellazione e va direttamente nel bidone della spazzatura. Puoi anche utilizzare la relazione tra lo spazio, ad esempio dove si trova lo sgabello e dove si trova la lavagna. Se vuoi inviare un oggetto a una persona tra la lavagna e lo sgabello alto, se ci sono ostacoli nel mezzo, può essere. automaticamente evitato.

L'anno scorso abbiamo anche realizzato un robot da barista, che utilizzava una mano a tre dita sviluppata autonomamente e il telaio era stato riparato.

Questo barista fantasioso ha anche prima reclutato una persona reale per fare il barista, imparato la sua traiettoria e poi implementata sul robot. Ci sono anche sensori tattili sulle dita. Ora, per inserire il bastoncino nel foro, la sola capacità visiva non è sufficiente e la precisione non basta, quindi ci si affida alla percezione tattile per vedere se è inserito. Se non è inserito. , deve essere spostato di lato. Spostalo verso l'alto e infine inserisci il bastoncino.

Questo è stato il lavoro dell'anno scorso. Il lavoro di quest'anno include una mano a cinque dita sviluppata da noi e un braccio robotico sviluppato da noi l'anno scorso. Ora abbiamo anche un telaio mobile, abbinato a un modello di rilevamento di grandi dimensioni e modello di pianificazione di grandi dimensioni, in grado di realizzare operazioni. Il robot può parlare e completare le attività liberamente. Guarda il video.

L'angolo in basso a destra è ciò che si vede dal robot mobile intelligente. Sul tavolo si trova una bottiglia di whisky e gli viene chiesto di versare un bicchiere di whisky. Questo è visto dal campo visivo del robot e può riconoscerne vari tipi di vino in tempo reale.

Condividilo qui ora. grazie a tutti.