nouvelles

le robot d’openai est-il trop humain ? les investisseurs étaient étonnés : ils pensaient qu'il y avait une vraie personne sous les vêtements

2024-09-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

série représentative de classe - l'interprétation la plus rapide et la plus complète des événements majeurs de l'ia. cet article se concentre sur le dernier robot neo publié par 1x technologies, un robot humanoïde investi par openai, et l'utilise comme indice pour révéler le chemin technique particulier et les considérations de positionnement. adopté par 1x robots.

le futur guide de l'ia pour le nord par hao boyang et zhou xiaoyan

éditeur zheng kejun

bien qu'après avoir visité la world robot conference, certains investisseurs ont déclaré à tencent technology que dans la piste du robot humanoïde, mais voisproduit par 1x, une société de robots humanoïdes investie par openaiaprès le robot neo, ils ont recommencé à avoir confiance.

même wang yuquan, fondateur de haiyin capital, qui s'est toujours opposé à la transformation des robots en formes humanoïdes, a été surpris. il a déclaré à tencent technology : « les mouvements de neo sont très naturels et coordonnés, éliminant complètement les stéréotypes des robots. quand j’ai vu ce robot pour la première fois, ma première réaction a été qu’il y avait une vraie personne sous les vêtements.

le robot investi par openai a commencé à faire le ménage, et il était si réaliste qu'il a été considéré comme une coquille humaine

on est également bluffé par sa finesse, mais en plus, ce que l'on souhaite en savoir plus c'est pourquoi choisit-il d'utiliser le mode « bipied » dans l'univers du mode « roue » dans la scène familiale ?

dans le rapport ci-dessus, nous mentionnions que plus de 80 % des robots servant des scènes industrielles adopteront un mode « bipède » dans la conception du bas du corps. dans le domaine domestique, les tâches sont moins standardisées, les tâches plus triviales et les urgences plus fréquentes, ce qui nécessite que les robots domestiques soient sûrs et silencieux. comparé au coût élevé et aux algorithmes de contrôle immatures des « bipieds », qui conduisent à une instabilité de la marche et de la position debout et à un bruit élevé, le type à roues est plus silencieux et plus stable sur les routes plates.

neo adopte une approche différente. il s'agit d'un robot en mode "bipède", rare dans les scènes domestiques.

dans la vidéo d’affichage, neo est très « soft ».sans la ficelle qui pend à son dos, il ressemblerait à un véritable être humain emballant des gobelets dans la cuisine.

il peut prédire la prochaine étape des tâches ménagères des humains sans aucune instruction, en s'appuyant uniquement sur ses propres « observations ».

neo se déplace très silencieusement, mais si vous augmentez le volume de l'affichage vidéo, vous pouvez toujours entendre le subtil bourdonnement que neo émet lorsqu'il se penche pour ramasser le sac à dos.

contrairement à de nombreux robots humanoïdes qui semblent « grands », neo ressemble à un voisin qui vient chez vous vêtu de vêtements décontractés et peut vous aider dans les tâches ménagères.

neo mesure 1,65 mètre et dispose de 55 degrés de liberté sur tout son corps. il ne pèse que 30 kilogrammes, soit près de 1/3 à 1/2 de moins que la plupart des robots humanoïdes de même taille. cependant, la force de neo n'est pas petite. selon les rapports medium, neo a une charge utile de 20 kg et sa poignée est suffisamment solide pour soulever 70 kg (154 lb).

(photo : comparaison du poids des robots humanoïdes dans la gamme « taille adulte » en allemagne et à l'étranger)

à en juger par les paramètres, neo est de petite taille, mais sa force n'est pas inférieure à celle des robots humanoïdes traditionnels de l'industrie. parmi ces robots humanoïdes bipèdes, seul neo est clairement positionné pour servir des scénarios d’applications domestiques, tandis que d’autres robots bipèdes servent essentiellement des scénarios industriels.

alors, comment neo peut-il marcher « légèrement » à la maison ? comment prédire les actions humaines simplement en les observant ? se pourrait-il qu’elle ait surmonté le problème de généralisation des robots humanoïdes ?

d'où vient la divergence de conception entre les roues et les pieds ?

les robots humanoïdes bipèdes conviennent aux scénarios industriels, mais ils sont confrontés à de nombreux défis une fois passés en mode domestique.

le cœur du défi réside dans le fait que la structure mécanique du « bipied » est complexe et que davantage d'articulations doivent être mobilisées pour maintenir le fonctionnement du robot, ce qui nécessitera inévitablement une puissance plus élevée s'il doit être utilisé dans des scénarios domestiques. il doit résoudre une série de problèmes causés par des pertes de puissance élevées, tels que la dissipation thermique et le bruit.

en revanche, dans les scénarios industriels, les robots travaillent généralement dans des entrepôts ou des usines fermées. ces lieux sont souvent équipés d'équipements de réfrigération ou de refroidissement pour faciliter la dissipation de la chaleur, de sorte que les robots bipèdes n'ont pas à trop se soucier des températures élevées dans ces environnements. .

en tant que « travailleurs », ils n'ont pas d'exigences élevées en matière d'apparence. ils peuvent être à moitié nus (avec des parties exposées), ou même se promener dans l'usine avec des fils suspendus. le manque de « vêtements » aide également à dissiper la chaleur. comme l'atlas hydraulique de boston dynamics vous pouvez courir d'avant en arrière « férocement ».

(photo : atlas hydraulique de boston power)

de plus, l'environnement industriel lui-même est rempli de divers bruits mécaniques, et le bruit des articulations mobiles du robot bipède et le bruit des pas lors de la marche ne sont pas si perceptibles.

mais une fois que l'on passe à la scène domestique, ces problèmes qui ne sont pas évidents dans la scène industrielle se transforment tous en bugs : les mauvaises performances de dissipation thermique du robot peuvent provoquer des incendies, trop de bruit peut provoquer une neurasthénie et les parties exposées sont spécialement destinées aux familles avec enfants. il existe d’énormes risques pour la sécurité.

le type à roues a une faible consommation d'énergie, ce qui réduit naturellement les problèmes tels que la dissipation thermique et le bruit.

cela signifie que pour déplacer un robot « bipède » dans une scène domestique, il doit être optimisé et transformé à partir de l'ontologie.

eric jiang, vice-président de 1x robot ai, a fourni des solutions pour la production de neo et optimisé le composant principal du « moteur » du robot. il a déclaré dans une récente interview :contrairement à l'idée de "petit moteur, grand rapport de transmission et énergie cinétique élevée" utilisée par de nombreux robots humanoïdes, le mot de passe clé de neo est "un couple élevé, un petit rapport de transmission et une faible énergie cinétique" du moteur.

alors, comment comprendre ce qu'eric jiang a dit ? nous pouvons d’abord comprendre brièvement la relation entre le « moteur » et le « rapport de transmission » des robots humanoïdes.

comme pour les humains, il n’existe en réalité que deux types de mouvements pour les robots humanoïdes : le mouvement linéaire et le mouvement de rotation. par exemple, dans la vidéo d'affichage 1x, il y a quelques secondes pendant lesquelles neo « fait signe » aux humains. les composantes anatomiques de cette action sont les suivantes : d'abord tendre la main droite (mouvement linéaire), puis agiter la main (mouvement de rotation). ).

si vous essayez de le démonter, vous constaterez que l’ensemble du système de mouvement du robot humanoïde est une combinaison de ces deux mouvements.

parmi eux, le mouvement linéaire est réalisé par la combinaison « moteur + vis » du robot humanoïde, tandis que le mouvement de rotation est réalisé par « moteur + réducteur ». nous nous concentrons ici sur la réalisation du mouvement de rotation « moteur + réducteur » aidant le robot. complétez la rotation « commune », par rapport au type de roue, les principaux mouvements impliqués dans le « bipied » se reflètent également dans les articulations.

le noyau du « rapport de transmission » affecte la vitesse de rotation, qui est la vitesse combinée du « moteur + réducteur ».

en termes simples,le « rapport de vitesse » fait référence auvitesse de sortieetla vitesse à laquelle le composant est réellement exécutéle rapport entre. par exemple, si la vitesse de déplacement des jambes du robot humanoïde est v, un rapport de démultiplication élevé signifie que le moteur tourne à grande vitesse, et un rapport de démultiplication faible signifie que le moteur tourne à faible vitesse.

de nombreux robots humanoïdes ont des rapports de démultiplication élevés(par exemple, 10:1), puis une fois la vitesse du moteur réduite par l'engrenage, la vitesse de mouvement des articulations du robot ralentira. cette configuration est plus adaptée aux occasions qui nécessitent une résistance élevée mais ne nécessitent pas de mouvement à grande vitesse.

si un rapport de transmission faible est utilisé(par exemple, 3:1), la vitesse du moteur subit une décélération plus faible et les articulations du robot se déplacent plus rapidement. cette configuration convient aux situations nécessitant une réponse rapide et un fonctionnement flexible.

neo peut réduire la consommation électrique des joints centraux en définissant un faible rapport de transmission et en réduisant la vitesse de sortie du moteur.

le faible rapport de transmission du moteur signifie que la vitesse de fonctionnement du moteur est sacrifiée. eric jiang a déclaré dans le document technique "motor physics" qu'il a écrit que neo utilise un "couple élevé" pour compenser le manque de puissance qui peut en résulter. par le faible fonctionnement du moteur. il a également déclaré: "la plupart des moteurs ne sont pas assez puissants pour exercer de grandes quantités de couple, donc les ingénieurs en mécanique prennent des moteurs à grande vitesse et leur ajoutent des engrenages, échangeant la vitesse contre le couple."

(photo : capture d'écran du document technique "motor physics" publié par eric jiang, décrivant comment les ingénieurs en mécanique échangent la vitesse du moteur contre le couple)

cela explique pourquoi de nombreux robots bipèdes ne peuvent être utilisés que dans des scénarios industriels :"la plupart des entreprises de robotique humanoïde choisissent de déployer leurs robots dans des usines plutôt que dans des maisons parce qu'elles s'appuient sur des systèmes d'entraînement rigides et hautement adaptés. ces systèmes ne sont pas sûrs en présence de personnes et doivent être enfermés dans des cages."

de ce point de vue, l'équipe 1x a trouvé une voie matérielle permettant aux robots bipèdes de fonctionner en toute sécurité dans des scénarios domestiques, afin que neo puisse porter des vêtements humains sans se soucier de brûler les vêtements en raison de mauvaises performances de dissipation thermique.

en fait, eve, le robot de la génération précédente de 1x, était à roues. ce n'est que dans la génération neo qu'il est devenu bipède. la raison essentielle reste le problème de l'adaptation scénique.

la scène de la maison est très complexe et nécessite que le robot passe sous la table pour ramasser des objets ou ramasser des objets sur le comptoir. comme la base prend de la place, un robot doté d'un châssis à roues doit « étendre » ses bras pour atteindre certains coins. de la maison. eric jiang estime que "dans ce cas, le robot devrait utiliser le changement de son centre de gravité pour ramasser des objets comme des humains". le robot doit être capable de soulever une jambe comme un humain, de placer une main sur la table et d'utiliser votre centre de gravité pour atteindre l'objet.

eric jiang a également évoqué un exemple dans l'interview : pourquoi de nombreuses étagères laissent-elles un certain espace en bas ? "c'est juste pour permettre aux humains de mettre plus facilement leurs orteils", afin que les gens puissent appuyer leur corps contre l'étagère pour prendre des livres.

par conséquent, les deux pieds peuvent réduire l'empreinte du mouvement du robot, tandis que l'empattement ne peut pas s'adapter aux scènes domestiques triviales.

c'est la logique du passage de 1x de la posture à roulettes à la posture à pieds. peut-être que, dans un cadre familial, la posture à roues ne peut pas « courir » aussi bien que la posture à pieds. de plus, neo dispose également de formules « uniques » en termes de généralisation et de collecte de données.

les robots capables de généralisation sont-ils déjà sur le point de l’être ?

en tant que robot pouvant être utilisé à la maison, outre la sécurité, le plus important est qu'il puisse être une véritable aide aux multiples facettes. cela nécessite que le robot soit « intelligent », capable de comprendre les besoins de son propriétaire, capable de fonctionner de manière autonome et suffisamment généraliste.

si l'on considère toutes les sociétés de robots dans lesquelles openai a investi, la caractéristique commune de leurs produits est qu'ils sont très « intelligents », c'est-à-dire qu'ils peuvent très bien combiner de grands modèles avec des robots.

par exemple, les performances étonnantes de la figure 01 proviennent en grande partie de sa capacité à comprendre des instructions et à identifier des éléments permettant de porter un jugement. et c’est exactement le résultat de la combinaison de grands modèles multimodaux et de robots.

une autre société investie, physical intelligence, n'a pour l'instant qu'une page web et aucun produit. mais lors d’entretiens, l’entreprise a déclaré que sa vision était de « construire un modèle d’intelligence artificielle à usage général qui, plutôt que d’alimenter des robots effectuant des tâches répétitives dans des entrepôts ou des usines, puisse être appliqué à un large éventail de scénarios ».

quant à la partie mécanique, ils ont même annoncé qu'ils ne fabriqueraient pas eux-mêmes le matériel, mais qu'ils achèteraient plusieurs types de robots pour entraîner leurs logiciels.

(photo : intelligence physique)

il ne s’agit pas tant d’une entreprise de robotique que d’une entreprise de modélisme à grande échelle.

et les robots de 1x ne font pas exception.

eric jang, vice-président de l'ia de 1x, possède une vaste expérience dans l'intégration de grands modèles dans des robots. avant de rejoindre 1x en 2022, il a dirigé une équipe dans le projet saycan de google deepmind. ce projet est la première tentative d'intelligence incarnée pour intégrer des modèles de langage et des robots.

en février de cette année, 1x a publié une vidéo de son eve effectuant une mission complète de réseau neuronal, qui est devenue un petit succès. lors d’une réunion de partage grasp sfi le 24 avril, nous pouvons constater la logique globale de fonctionnement de ce modèle.

il est également divisé en un pipeline (formulaire de workflow). tout d’abord, un modèle dit (diffusion-transformer) est utilisé, combiné à des commandes en langage naturel, pour utiliser difussion afin de générer une image prédite de sa position future. placez ensuite cette prédiction, l'image actuelle et la cible dans un nouveau modèle transformer pour prédire les activités mécaniques requises ultérieures.

dans la vidéo, nous pouvons voir qu’eve peut trier des objets, les transporter et même se charger (pas étonnant qu’il s’appelle eve). certaines de ces tâches peuvent également être effectuées à deux mains. mais en regardant attentivement cette vidéo, il s'avère que les capacités d'eve à l'époque se limitaient à identifier, saisir et placer des objets. plus tard, ces capacités de base ont été combinées en tâches spécifiques, telles que l'emballage, le déplacement et le classement.

d’ici août ou septembre de cette année, pratiquement toutes les entreprises de robotique ayant accès à des circuits de modèles à grande échelle seront en mesure d’atteindre ces capacités.

par exemple, figure 01 a publié fin février une vidéo de son propre robot utilisant un grand modèle pour conduire du café, dans laquelle il peut même corriger lui-même les erreurs.

(photo : figure 01 en train de préparer du café dans la vidéo de démonstration)

cependant, après cela, figure et 1x ont emprunté des chemins différents en termes de modèles.

en mars, figure a choisi d’utiliser directement gpt-4o, conférant à ses robots de solides capacités de conversation et de logique. ils ont utilisé un pipeline (workflow) pour intégrer les trois modèles.

premièrement, le grand modèle gpt-4o est utilisé pour reconnaître le langage et planifier les actions. ensuite, sa propre couche de politique neuronale, c'est-à-dire son propre modèle de tâche entraîné de bout en bout, exécute l'action. en même temps, il utilise son propre modèle de contrôle corporel pour maintenir l'équilibre du robot.

(photo : figure, explication officielle de la composition de son modèle)

après que l'interaction soit devenue le point fort de leur robot, la figure 02 a également souligné l'amélioration du niveau cérébral provoquée par sa puissance de calcul multipliée par 3. en termes de modèles, une meilleure intégration des modèles openai est devenue leur objectif de développement.

mais ce n’est que le 31 mai que 1x a publié sa mise à jour de directive linguistique. dans sa vidéo de démonstration, le robot peut enfin comprendre les tâches et effectuer les opérations correspondantes grâce à la communication vocale. mais même jusqu’à présent, 1x n’utilise toujours pas de grand modèle de langage de haut niveau. dans la documentation sur la page d'affichage de leur site web officiel, ils ont mentionné : « après avoir créé un ensemble de données de paires de commandes visuelles et en langage naturel, l'étape suivante consiste à utiliser des modèles de langage visuel tels que gpt-4o, vila et gemini vision pour prédire automatiquement les hautes performances. "cela a également pour conséquence que leurs robots n'ont pas la capacité de planifier des tâches complexes.

il semble que le 1x ait un grand retard en termes de performances intelligentes.

mais cela peut être dû au fait que leurs efforts vont dans des directions différentes. par rapport aux capacités d'interaction et de planification, 1x se soucie davantage de la généralisation des tâches.

dans son blog officiel en mars, 1x a expliqué le modèle qu'il construisait. ils tentent de former un « modèle de base » pour comprendre un large éventail de comportements physiques, du nettoyage et du rangement de la maison au ramassage d'objets en passant par les interactions sociales avec les humains et d'autres robots. ils ont ensuite ajouté des ensembles de compétences plus spécifiques au modèle (par exemple, un modèle pour les opérations générales de porte et un autre pour les tâches d'entrepôt) en accumulant davantage de données sur la formation des compétences. en d’autres termes, ils tentent de construire un « modèle de base » de robot prenant en charge la généralisation multitâche.

il s’agit de la généralisation des capacités de tâches, permettant à un seul robot de s’appuyer sur un seul modèle pour accomplir plusieurs tâches. en réalité, cela n’a rien de spécial. presque toutes les entreprises qui créent des logiciels pour robots se forment sur plusieurs tâches uniques. cependant, dans diverses vidéos de démonstration de robots et expositions lors de conférences, nous avons rarement vu un robot accomplir en continu une tâche complexe en même temps, comme nettoyer toute la pièce puis cuisiner.

en effet, aucun modèle ne peut actuellement être généralisé à plusieurs tâches.

eric jang a déclaré dans une interview avec « the robot report » : « nous avons déjà démontré que nos robots peuvent ramasser et manipuler des objets simples, mais pour avoir un robot domestique vraiment pratique, il doit être capable d'effectuer plusieurs tâches en série en douceur. " mais cela ne peut pas être accompli simplement en divisant une tâche complexe en plusieurs tâches via un modèle de haut niveau tel qu'un "cerveau". parce que la position de départ et les conditions sont différentes selon les tâches.

si un robot doit effectuer une deuxième tâche, il doit d’abord combler les lacunes de la première tâche. par exemple, si le premier robot ne parvient pas à atteindre la bonne position à côté de la table, le deuxième robot devra étendre ses bras pour saisir l'objet et la troisième tâche nécessitera une compensation supplémentaire. les erreurs ont tendance à s’accumuler.

la solution 1x consiste à diviser le modèle. actuellement, son modèle se compose de deux parties, l'une est un modèle de base qui comprend toutes les tâches et « chaînes de tâches », et l'autre est constituée de nombreux petits modèles qui ont une meilleure compréhension de tâches spécifiques. c’est aussi devenu une sorte de pipeline (workflow).

ils ont développé une interface en langage naturel qui permet aux employés de guider le robot par la voix pour effectuer les actions combinées de plusieurs petits modèles et intervenir en cas d'erreurs au cours du processus. cela permet aux modèles d'être connectés en série dans des « chaînes de tâches » à plus long terme. les données liées à ces interventions et à l'ensemble du multitâche seront utilisées pour former le grand « modèle de base ». à terme, ils ajusteront et entraîneront le « modèle de base » grâce aux données de tâches accumulées et aux données de « chaîne de tâches », de sorte que ce modèle de base puisse non seulement résoudre l'exécution d'une tâche unique, mais également résoudre le problème de connexion entre les tâches.

(photo : interface de contrôle en langage naturel développée par 1x)

elle diffère donc de la voie choisie par figure qui met l’accent sur l’interaction et la planification. le problème principal que 1x choisit actuellement de résoudre est la capacité de généralisation entre les tâches. et c’est peut-être le principal point de friction pour que les robots actuels deviennent véritablement universels.

alors, comment se déroule la généralisation inter-tâches de 1x ?

dans le dernier documentaire, nous pouvons voir un membre du personnel utiliser la voix pour demander à un robot d'effectuer les tâches consistant à ouvrir la porte, entrer dans les toilettes, fermer le siège des toilettes et sortir étape par étape. cette tâche n’est pas donnée d’un seul coup, mais donnée individuellement et connectée.

cela ne semble pas trop « automatique », mais cela prouve en fait que le robot 1x a déjà la capacité préliminaire de travailler en continu entre plusieurs tâches de commande. tant qu'il dispose des capacités d'exécution de base de la « chaîne de tâches » et des capacités de planification de modèles de pointe comme gpt-4, il sera bientôt possible d'accomplir de manière autonome des tâches complexes et continues.

eric jang semble le penser aussi. dans un blog intitulé « tous les chemins mènent à la robotique » en mars de cette année, il a écrit : « de nombreux chercheurs en intelligence artificielle croient encore qu'il faudra des décennies pour réaliser des robots à usage général. mais rappelez-vous, la naissance de chatgpt a semblé s'être déroulée du jour au lendemain. je pense que le domaine de la robotique va également inaugurer de tels changements.

à ses yeux, des robots polyvalents capables de généraliser semblent être en vue.

mais le pessimisme du secteur est justifié. leur principale préoccupation ne concerne pas l’algorithme, mais le fait que les données actuelles sur l’intelligence incarnée ne sont pas abondantes, qu’elles sont également très difficiles à collecter et qu’il y a un manque de normes.

mais de grandes quantités de données sont la clé pour parvenir à une généralisation en matière de loi d’échelle. par rapport à un simple modèle de langage à grande échelle, l’intelligence incarnée peut nécessiter une plus grande quantité de données pour être universelle, car elle inclut des images et des actions. et la collecte de ces données prend beaucoup de temps.

utiliser des méthodes « stupides » pour collecter des données « intelligentes »

eric jang a un jour fait une déclaration dans le documentaire qui était contraire aux préoccupations générales de l'industrie :"beaucoup de gens surestiment le goulot d'étranglement dans la collecte de données. en pratique, au cours des 12 prochains mois, les données pourraient devenir de moins en moins importantes."

sa confiance dans les données vient de sa pratique passée. la logique de 1x en matière de collecte de données a toujours été légèrement différente de celle des autres sociétés de robotique.

d’autres sociétés utilisent généralement tous les moyens disponibles pour collecter autant de données que possible. les méthodes consistent notamment à placer des robots simulés dans des environnements physiques simulés comme unreal 5 pour collecter de grandes quantités de données, ou à utiliser des données vidéo pour intercepter des vidéos d'humains manipulant des objets et extraire des informations.

mais en fait, la méthode courante la plus couramment utilisée à l’heure actuelle consiste à utiliser la téléopération (training from demostration) pour obtenir des données via des humains portant la réalité virtuelle pour les démontrer aux robots.

ce type de collecte d'opérations à distance place généralement le robot dans un environnement « d'usine de collecte de données » très fixe pour collecter suffisamment de données aussi efficacement que possible. même s’il y a quelques répétitions et similitudes.

(photo : l’usine de collecte de données de tesla)

selon eric jang, la méthode qu'ils utilisent actuellement est une méthode très « stupide ». par rapport au mode de collecte centralisé apparemment efficace utilisé par tesla, 1x a choisi d'insister sur le retour à diverses scènes de vie pour la collecte. on les voit donc collectés dans beaucoup d’espaces très différents de ceux d’une usine. ils n’ont pas non plus utilisé de données de formation vidéo et de simulation, insistant pour utiliser uniquement les données collectées par téléopération.

(photo : les scènes d’entraînement d’eve sont étonnamment diverses)

le pdg bernt bornich a déclaré dans une interview : « la diversité est l'aspect le plus important des données des robots humanoïdes. apprendre de la diversité dans l'environnement non structuré des robots grand public rendra possible une intelligence polyvalente véritablement intelligente à partir de la diversité de pensée.

selon x1, les environnements domestiques et professionnels dans lesquels les robots finiront par atterrir n’ont pas de structure fixe et évoluent constamment avec l’utilisation humaine. il doit donc y avoir suffisamment de données diverses pour être significatifs. par conséquent, la formule de collecte de données 1x donnée par eric jang est « diversité > qualité > quantité > algorithme ».

afin d'obtenir cette diversité de collecte, 1x a spécialement organisé une équipe d'opérateurs de robots, tous soigneusement sélectionnés. ils peuvent tous former personnellement certains modèles comportementaux via un ensemble d'interfaces graphiques nle simples. à cet égard, eric jang a écrit dans un blog technologique : « 1x est la première entreprise que je connais qui permet aux collecteurs de données de former eux-mêmes les capacités des robots. cela réduit considérablement le temps nécessaire au modèle pour atteindre un bon état, car les données les collectionneurs peuvent obtenir rapidement des commentaires sur la qualité des données et sur la quantité de données réellement nécessaire pour résoudre les tâches robotiques. je prévois qu'il devienne un modèle courant pour la collecte de données robotiques à l'avenir.

ils n'ont donc pas seulement des agents de collecte, mais aussi un groupe d'ingénieurs de collecte qui peuvent directement affiner le modèle. ils identifient ce qui ne fonctionne pas dans des tâches spécifiques, collectent des données pour ces scénarios, puis recyclent et ajustent le modèle, et répètent le processus jusqu'à ce que le modèle soit parfait. formation tout-en-un.

(photo : sur linkedin de 1x, le recrutement de ces opérateurs concerne tous des emplois à temps plein, non externalisés, avec un salaire mensuel de 6 000 à 8 000 usd, soit environ 1,5 fois le salaire mensuel moyen aux états-unis)

ces méthodes « stupides » garantissent la qualité et la diversité des données collectées, et chaque donnée est la plus « utile » possible. lors d'entretiens ces derniers jours, rric a déclaré : « si vous déployez des robots dans une usine et effectuez exactement les mêmes tâches à plusieurs reprises, les données sont fondamentalement inutiles. »

cette collecte relativement fine ralentira sans aucun doute la croissance de l’ampleur des données, mais son effet est très significatif.

(en haut : nombre d'heures de données collectées par 1x, en bas : diversité des actions collectées par 1x)

selon le partage technique d’eric jang, jusqu’en mars 2024, ils ont collecté un total de 1 400 heures de données d’entraînement impliquant 7 000 actions uniques différentes. il a également déclaré qu'avec la formation de ces données, le robot eve peut actuellement disposer de centaines de capacités indépendantes.

en revanche, rt-2 a utilisé 130 000 exemples en formation et 13 robots ont passé 17 mois complets à les collecter. si chaque exemple dure en moyenne 5 secondes, la durée totale de ces exemples peut atteindre des dizaines de milliers d'heures. il peut effectuer des tâches avec 700 instructions différentes.

de ce point de vue, l’effet d’une collecte de données affinée est effectivement positif. utilisez 1/10 des données pour atteindre au moins la moitié du niveau de capacité. l’idée selon laquelle la hâte produit du gaspillage est également vraie dans le monde de la robotique.

conclusion

dans l’ensemble, le plus grand « atout » de 1x est l’accent mis sur les personnes.

la culture d'entreprise véhiculée par 1x révèle un sentiment de « détente ». qu'il s'agisse du précédent eve ou du récent neo, ses vidéos promotionnelles sont complètement différentes des figures froides et technologiques. 1x évite les arêtes vives et ne déclenche pas volontairement à grande échelle. la communication est aussi une sorte d’idéalisme.

on peut voir dans la vidéo promotionnelle de neo que 1x crée une image d'« homme chaleureux » comme le « frère d'à côté ». il porte des vêtements décontractés et ajustés, mettant en valeur les lignes musculaires semblables à celles des hommes humains. il s'occupe du quotidien de sa famille, prépare vos colis avant votre sortie et vous fait un câlin chaleureux avant votre départ.

de plus, on peut voir dans la vidéo de démonstration que neo peut comprendre les gestes humains, ce qui constitue également une compréhension approfondie de la communication humaine. une grande partie de la communication entre les gens ne repose pas sur le langage. il y a des moments où les humains sont « à court de mots ». par conséquent, neo peut « lire » la prochaine étape des humains et se comprendre sans mots. particulièrement particulière. la terre a une saveur « humaine ».

du point de vue de la généralisation des tâches et de la conception flexible, neo peut être considéré comme le premier robot humanoïde bipède de la scène domestique.

si les robots peuvent être éternels dans le futur, alors de quel type de robot avons-nous besoin pour nous accompagner et même pour les générations futures ? peut-être que neo est une bonne réponse.