μήπως το ρομπότ του openai μοιάζει πολύ με τον άνθρωπο; οι επενδυτές έμειναν έκπληκτοι: νόμιζαν ότι υπήρχε ένα πραγματικό πρόσωπο κάτω από τα ρούχα

2024-09-05

class representative series - η ταχύτερη και πιο ολοκληρωμένη ερμηνεία των μεγάλων γεγονότων ai αυτό το άρθρο εστιάζει στο πιο πρόσφατο ρομπότ neo που κυκλοφόρησε από τις τεχνολογίες 1x, ένα ανθρωποειδές ρομπότ που επενδύθηκε από την openai, και το χρησιμοποιεί ως ένδειξη για να αποκαλύψει την ειδική τεχνική διαδρομή και τις εκτιμήσεις τοποθέτησης. υιοθετήθηκε από την 1x robots.

ai future guide to the north από τους hao boyang και zhou xiaoyan

συντάκτης zheng kejun

αν και μετά την επίσκεψη στο παγκόσμιο συνέδριο ρομπότ, ορισμένοι επενδυτές είπαν στην tencent technology ότι στην ανθρωποειδή πίστα ρομπότ, αλλά δεςπαράγεται από την 1x, μια εταιρεία ανθρωποειδών ρομπότ που επενδύει η openaiμετά το ρομπότ neo, άρχισαν να έχουν ξανά αυτοπεποίθηση.

ακόμη και ο wang yuquan, ιδρυτής της haiyin capital, ο οποίος ήταν πάντα αντίθετος στη δημιουργία ρομπότ σε ανθρωποειδείς μορφές, είπε στην tencent technology, «οι κινήσεις του neo είναι πολύ φυσικές και συντονισμένες, ξεφορτώνοντας εντελώς τα στερεότυπα των ανθρώπων για τα ρομπότ όταν είδα για πρώτη φορά αυτό το ρομπότ, η πρώτη μου αντίδραση ήταν ότι υπήρχε ένα πραγματικό άτομο κάτω από τα ρούχα.

το ρομπότ που επένδυσε η openai άρχισε να κάνει δουλειές του σπιτιού και ήταν τόσο ζωντανό που αμφισβητήθηκε ως ανθρώπινο κέλυφος

μας εκπλήσσει επίσης η ομαλότητά του, αλλά επιπλέον, αυτό που θέλουμε να μάθουμε περισσότερο είναι, γιατί επιλέγει να χρησιμοποιήσει τη λειτουργία "bipod" στον κόσμο της λειτουργίας "wheel" στην οικογενειακή σκηνή;

στην παραπάνω αναφορά, αναφέραμε ότι περισσότερο από το 80% των ρομπότ που εξυπηρετούν βιομηχανικές σκηνές θα υιοθετήσουν μια λειτουργία "δίποδης" στη σχεδίαση του κάτω μέρους του σώματος. στην οικιακή σκηνή, οι εργασίες είναι λιγότερο τυποποιημένες, οι εργασίες είναι πιο ασήμαντες και οι καταστάσεις έκτακτης ανάγκης είναι πιο συχνές, γεγονός που απαιτεί από τα οικιακά ρομπότ να είναι ασφαλή και ήσυχα. σε σύγκριση με το υψηλό κόστος και τους ανώριμους αλγόριθμους ελέγχου των "δίποδων", που οδηγούν σε αστάθεια στο περπάτημα και στην ορθοστασία, και σε υψηλό θόρυβο, ο τροχοφόρος τύπος είναι πιο αθόρυβος και πιο σταθερός σε επίπεδους δρόμους.

το neo υιοθετεί μια διαφορετική προσέγγιση είναι ένα ρομπότ "δίποδας" που είναι σπάνιο σε οικιακές σκηνές.

στο βίντεο που εμφανίζεται, το neo είναι πολύ "μαλακό".χωρίς το κορδόνι να κρέμεται από την πλάτη του, θα έμοιαζε με πραγματικό άνθρωπο που συσκευάζει κύπελλα στην κουζίνα.

μπορεί να προβλέψει το επόμενο βήμα των ανθρώπων που κάνουν δουλειές του σπιτιού χωρίς οδηγίες, βασιζόμενος μόνο στις δικές του «παρατηρήσεις».

το neo κινείται πολύ αθόρυβα, αλλά αν ανεβάσετε την ένταση του βίντεο στην οθόνη, μπορείτε ακόμα να ακούσετε τον διακριτικό ήχο βόμβου που κάνει το neo όταν σκύβει για να πάρει το σακίδιο.

σε αντίθεση με πολλά ανθρωποειδή ρομπότ που φαίνονται «ψηλά», ο neo μοιάζει με γείτονα που έρχεται στο σπίτι σας φορώντας καθημερινά ρούχα και μπορεί να σας βοηθήσει με τις δουλειές του σπιτιού.

το neo έχει ύψος 1,65 και έχει 55 βαθμούς ελευθερίας σε όλο του το σώμα, που είναι σχεδόν 1/3~1/2 ελαφρύτερο από τα περισσότερα ανθρωποειδή ρομπότ του ίδιου ύψους στις αναφορές medium, το neo έχει ωφέλιμο φορτίο 20 κιλών και η λαβή του είναι αρκετά δυνατή για να σηκώσει 70 κιλά (154 λίβρες).

(εικόνα: σύγκριση του βάρους των ανθρωποειδών ρομπότ στην περιοχή "ύψους ενηλίκων" στο εσωτερικό και στο εξωτερικό)

κρίνοντας από τις παραμέτρους, το neo είναι μικρό σε μέγεθος, αλλά η δύναμή του δεν είναι κατώτερη από τα κύρια ανθρωποειδή ρομπότ στη βιομηχανία. μεταξύ αυτών των δίποδων ανθρωποειδών ρομπότ, μόνο το neo είναι σαφώς τοποθετημένο για να εξυπηρετεί σενάρια οικιακών εφαρμογών, ενώ άλλα δίποδα ρομπότ εξυπηρετούν βασικά βιομηχανικά σενάρια.

λοιπόν, πώς μπορεί ο νεο να περπατήσει «ελαφρά» στο σπίτι; πώς μπορούμε να προβλέψουμε τις ανθρώπινες ενέργειες απλώς παρατηρώντας τις; μήπως έχει ξεπεράσει το πρόβλημα γενίκευσης των ανθρωποειδών ρομπότ;

από πού προέρχεται η σχεδιαστική απόκλιση μεταξύ τροχών και ποδιών;

τα δίποδα ανθρωποειδή ρομπότ είναι κατάλληλα σε βιομηχανικά σενάρια, αλλά αντιμετωπίζουν πολλές προκλήσεις μόλις μεταβούν σε οικιακή λειτουργία.

ο πυρήνας της πρόκλησης είναι ότι η μηχανική δομή του "δίποδου" είναι πολύπλοκη και πρέπει να κινητοποιηθούν περισσότεροι σύνδεσμοι για να διατηρηθεί η λειτουργία του ρομπότ, κάτι που θα απαιτήσει αναπόφευκτα υψηλότερη ισχύ εάν πρόκειται να χρησιμοποιηθεί σε οικιακά σενάρια. πρέπει να λύσει μια σειρά προβλημάτων που προκαλούνται από προβλήματα υψηλών απωλειών ισχύος, όπως η απαγωγή θερμότητας και ο θόρυβος.

αντίθετα, σε βιομηχανικά σενάρια, τα ρομπότ συνήθως εργάζονται σε αποθήκες ή κλειστά εργοστάσια αυτά τα μέρη είναι συχνά εξοπλισμένα με ψυκτικό ή ψυκτικό εξοπλισμό για να βοηθήσουν στην απαγωγή της θερμότητας, επομένως τα δίποδα ρομπότ δεν χρειάζεται να ανησυχούν πολύ για τις υψηλές θερμοκρασίες σε αυτά τα περιβάλλοντα .

ως «εργάτες», δεν έχουν υψηλές απαιτήσεις για εμφάνιση. όπως ο υδραυλικός άτλας της boston dynamics μπορείτε να τρέχετε πέρα δώθε «άγρια».

(εικόνα: boston power hydraulic atlas)

επιπλέον, το ίδιο το βιομηχανικό περιβάλλον είναι γεμάτο με διάφορους μηχανικούς ήχους και ο ήχος των κινούμενων αρθρώσεων του δίποδου ρομπότ και ο ήχος των βημάτων κατά το περπάτημα δεν είναι τόσο αισθητοί.

αλλά μόλις μεταβείτε στην οικιακή σκηνή, αυτά τα προβλήματα που δεν είναι προφανή στη βιομηχανική σκηνή γίνονται όλα σφάλματα: η κακή απόδοση απαγωγής θερμότητας του ρομπότ μπορεί να προκαλέσει πυρκαγιές, ο πολύς θόρυβος μπορεί να προκαλέσει νευρασθένεια και τα εκτεθειμένα μέρη είναι ειδικά για οικογένειες με παιδιά. υπάρχουν τεράστιοι κίνδυνοι για την ασφάλεια.

ο τροχοφόρος τύπος έχει χαμηλή κατανάλωση ενέργειας, γεγονός που μειώνει φυσικά προβλήματα όπως η απαγωγή θερμότητας και ο θόρυβος.

αυτό σημαίνει ότι για να μεταφερθεί ένα ρομπότ "δίποδα" σε μια οικιακή σκηνή, πρέπει να βελτιστοποιηθεί και να μετατραπεί από την οντολογία.

ο eric jiang, αντιπρόεδρος του 1x robot ai, έδωσε λύσεις για την παραγωγή του neo και βελτιστοποίησε το βασικό συστατικό του ρομπότ "μοτέρ".σε αντίθεση με την ιδέα του "μικρού κινητήρα, της μεγάλης αναλογίας εργαλείων και της υψηλής κινητικής ενέργειας" που χρησιμοποιούνται από πολλά ανθρωποειδή ρομπότ, ο βασικός κωδικός πρόσβασης του neo είναι η "υψηλή ροπή, η μικρή αναλογία εργαλείων και η χαμηλή κινητική ενέργεια".

λοιπόν, πώς να καταλάβετε τι είπε ο έρικ τζιανγκ; μπορούμε πρώτα να κατανοήσουμε εν συντομία τη σχέση μεταξύ του «κινητήρα» και του «λόγου μετάδοσης» των ανθρωποειδών ρομπότ.

ανάλογα με τους ανθρώπους, υπάρχουν στην πραγματικότητα μόνο δύο τύποι κίνησης για τα ανθρωποειδή ρομπότ: η γραμμική κίνηση και η περιστροφική κίνηση. για παράδειγμα, στο βίντεο προβολής 1x, υπάρχουν μερικά δευτερόλεπτα όπου το neo "κυματίζει" στους ανθρώπους τα ανατομικά στοιχεία αυτής της δράσης είναι: πρώτα να απλώνεις το χέρι με το δεξί (γραμμική κίνηση) και μετά να κουνάς το χέρι (περιστροφική κίνηση). ).

αν προσπαθήσετε να το αποσυναρμολογήσετε, θα διαπιστώσετε ότι ολόκληρο το σύστημα κίνησης του ανθρωποειδούς ρομπότ είναι ένας συνδυασμός αυτών των δύο κινήσεων.

μεταξύ αυτών, η γραμμική κίνηση πραγματοποιείται από τον συνδυασμό «μοτέρ + βίδα» του ανθρωποειδούς ρομπότ, ενώ η περιστροφική κίνηση πραγματοποιείται από τον «κινητήρα + μειωτήρα» που βοηθάει το ρομπότ ολοκληρώστε την "άρθρωση "περιστροφή, σε σύγκριση με τον τύπο του τροχού, οι κύριες κινήσεις που εμπλέκονται στο "δίποδα" αντικατοπτρίζονται επίσης στις αρθρώσεις.

ο πυρήνας της "λόγος μετάδοσης" επηρεάζει την ταχύτητα περιστροφής, η οποία είναι η συνδυασμένη ταχύτητα "μοτέρ + μειωτήρας".

με απλά λόγια,ο όρος "σχέση μετάδοσης" αναφέρεται στον κινητήραταχύτητα εξόδουκαιη ταχύτητα με την οποία εκτελείται πραγματικά το στοιχείοη αναλογία μεταξύ. για παράδειγμα, εάν η ταχύτητα κίνησης των ποδιών του ανθρωποειδούς ρομπότ είναι v, μια υψηλή σχέση μετάδοσης σημαίνει ότι ο κινητήρας λειτουργεί με υψηλή ταχύτητα και μια χαμηλή σχέση μετάδοσης σημαίνει ότι ο κινητήρας λειτουργεί με χαμηλή ταχύτητα.

πολλά ανθρωποειδή ρομπότ έχουν υψηλές σχέσεις μετάδοσης(για παράδειγμα, 10:1), στη συνέχεια, αφού μειωθεί η ταχύτητα του κινητήρα από το γρανάζι, η ταχύτητα κίνησης των αρθρώσεων του ρομπότ θα επιβραδυνθεί. αυτή η διαμόρφωση είναι πιο κατάλληλη για περιπτώσεις που απαιτούν υψηλή αντοχή αλλά δεν απαιτούν κίνηση υψηλής ταχύτητας.

εάν χρησιμοποιείται χαμηλή σχέση μετάδοσης(για παράδειγμα, 3:1), η ταχύτητα του κινητήρα υφίσταται μικρότερη επιβράδυνση και οι αρθρώσεις του ρομπότ κινούνται πιο γρήγορα. αυτή η διαμόρφωση είναι κατάλληλη για καταστάσεις που απαιτούν γρήγορη απόκριση και ευέλικτη λειτουργία.

το neo μπορεί να μειώσει την κατανάλωση ισχύος των αρμών του πυρήνα ρυθμίζοντας μια χαμηλή σχέση μετάδοσης και μειώνοντας την ταχύτητα εξόδου του κινητήρα.

η χαμηλή σχέση μετάδοσης του κινητήρα σημαίνει ότι η ταχύτητα λειτουργίας του κινητήρα θυσιάζεται στο τεχνικό έγγραφο "motor physics" και έγραψε ότι το neo χρησιμοποιεί "υψηλή ροπή" για να αναπληρώσει την έλλειψη ισχύος που μπορεί να προκληθεί. από τη χαμηλή λειτουργία του κινητήρα δήλωσε επίσης, "οι περισσότεροι κινητήρες δεν είναι αρκετά ισχυροί για να ασκήσουν μεγάλες ποσότητες ροπής, έτσι οι μηχανικοί μηχανικοί παίρνουν κινητήρες υψηλής ταχύτητας και προσθέτουν γρανάζια σε αυτούς, ανταλλάσσοντας την ταχύτητα με τη ροπή."

(εικόνα: στιγμιότυπο του τεχνικού εγγράφου "motor physics" που δημοσιεύτηκε από τον eric jiang, που περιγράφει πώς οι μηχανικοί μηχανικοί ανταλλάσσουν την ταχύτητα του κινητήρα με τη ροπή)

αυτό εξηγεί γιατί πολλά δίποδα ρομπότ μπορούν να χρησιμοποιηθούν μόνο σε βιομηχανικά σενάρια:"οι περισσότερες εταιρείες ανθρωποειδών ρομποτικής επιλέγουν να αναπτύξουν τα ρομπότ τους σε εργοστάσια και όχι σε σπίτια, επειδή βασίζονται σε άκαμπτα, εξαιρετικά προσαρμοσμένα συστήματα μετάδοσης κίνησης. αυτά τα συστήματα δεν είναι ασφαλή γύρω από τους ανθρώπους και πρέπει να είναι κλεισμένα σε κλουβιά."

από αυτή την προοπτική, η ομάδα 1x βρήκε μια διαδρομή υλικού για τα δίποδα ρομπότ να λειτουργούν με ασφάλεια σε οικιακά σενάρια, έτσι ώστε ο neo να φοράει ανθρώπινα ρούχα χωρίς να ανησυχεί για το κάψιμο των ρούχων λόγω κακής απόδοσης απαγωγής θερμότητας.

στην πραγματικότητα, το eve, το ρομπότ της προηγούμενης γενιάς του 1x, ήταν μόνο στη γενιά του neo που έγινε δίποδα.

η σκηνή στο σπίτι είναι πολύ περίπλοκη και απαιτεί από το ρομπότ να φτάσει κάτω από το τραπέζι για να μαζέψει πράγματα ή να μαζέψει πράγματα από τον πάγκο δεδομένου ότι η βάση καταλαμβάνει χώρο, ένα ρομπότ με τροχοφόρο σασί πρέπει να «απλώσει» τα χέρια του για να φτάσει σε κάποιες γωνίες. του σπιτιού, ο eric jiang πιστεύει ότι "σε αυτή την περίπτωση, το ρομπότ θα πρέπει να χρησιμοποιήσει την αλλαγή του κέντρου βάρους του για να πάρει πράγματα όπως οι άνθρωποι, για παράδειγμα, όταν αντιμετωπίζει μια κατάσταση όπου κάτι πέφτει στη γωνία του ντουλαπιού." το ρομπότ θα πρέπει να μπορεί να σηκώνει το ένα πόδι σαν άνθρωπος και να τοποθετεί το ένα χέρι στο τραπέζι και να χρησιμοποιεί το κέντρο βάρους για να φτάσει στο αντικείμενο.

ο eric jiang ανέφερε επίσης ένα παράδειγμα στη συνέντευξη: γιατί πολλά ράφια αφήνουν ένα συγκεκριμένο κενό χώρου στο κάτω μέρος; «είναι απλώς για να διευκολύνουμε τους ανθρώπους να βάζουν τα δάχτυλα των ποδιών τους», έτσι ώστε οι άνθρωποι να μπορούν να πιέζουν το σώμα τους στο ράφι για να σηκώσουν βιβλία.

επομένως, τα δύο πόδια μπορούν να μειώσουν το αποτύπωμα κίνησης του ρομπότ, ενώ το μεταξόνιο δεν μπορεί να προσαρμοστεί σε ασήμαντες σκηνές του σπιτιού.

αυτή είναι η λογική της μετακίνησης 1χ από τη στάση του τροχού στη στάση του ποδιού. επιπλέον, το neo έχει και κάποιους «μοναδικούς» τύπους όσον αφορά τη γενίκευση και τη συλλογή δεδομένων.

είναι τα ρομπότ ικανά για γενίκευση ήδη στο κατώφλι;

ως ρομπότ που μπορεί να χρησιμοποιηθεί στο σπίτι, εκτός από ασφάλεια, το πιο σημαντικό είναι ότι μπορεί να είναι ένας πραγματικός πολύπλευρος βοηθός. αυτό απαιτεί το ρομπότ να είναι «έξυπνο», να μπορεί να κατανοήσει τις ανάγκες του ιδιοκτήτη, να μπορεί να λειτουργεί αυτόνομα και αρκετά γενικευμένο.

κοιτάζοντας όλες τις εταιρείες ρομπότ στις οποίες έχει επενδύσει η openai, το κοινό χαρακτηριστικό των προϊόντων τους είναι ότι είναι πολύ «έξυπνα», δηλαδή μπορούν να συνδυάσουν πολύ καλά μεγάλα μοντέλα με ρομπότ.

για παράδειγμα, η εκπληκτική απόδοση του figure 01 προέρχεται σε μεγάλο βαθμό από την ικανότητά του να κατανοεί οδηγίες και να αναγνωρίζει στοιχεία για να κάνει κρίσεις. και αυτό ακριβώς είναι το αποτέλεσμα του συνδυασμού πολυτροπικών μεγάλων μοντέλων και ρομπότ.

μια άλλη επενδυμένη εταιρεία, η physical intelligence, έχει μόνο μια ιστοσελίδα και κανένα προϊόν μέχρι στιγμής. αλλά σε συνεντεύξεις, η εταιρεία είπε ότι το όραμά της είναι να «χτίσει ένα μοντέλο τεχνητής νοημοσύνης γενικής χρήσης που, αντί να τροφοδοτεί ρομπότ που εκτελούν επαναλαμβανόμενες εργασίες σε αποθήκες ή εργοστάσια, μπορεί να εφαρμοστεί σε ένα ευρύ φάσμα σεναρίων».

όσον αφορά το μηχανικό κομμάτι, ανακοίνωσαν μάλιστα ότι δεν θα κατασκευάσουν οι ίδιοι το υλικό, αλλά θα αγοράσουν πολλαπλούς τύπους ρομπότ για να εκπαιδεύσουν το λογισμικό τους.

(εικόνα: φυσική νοημοσύνη)

αυτή δεν είναι τόσο μια εταιρεία ρομποτικής όσο είναι μια μεγάλης κλίμακας εταιρεία μοντέλων.

και τα ρομπότ της 1x δεν αποτελούν εξαίρεση.

ο eric jang, αντιπρόεδρος της τεχνητής νοημοσύνης της 1x, έχει μεγάλη εμπειρία στην ενσωμάτωση μεγάλων μοντέλων σε ρομπότ πριν ενταχθεί στην 1x το 2022, κάποτε ηγήθηκε μιας ομάδας στο έργο saycan της google deepmind. αυτό το έργο είναι η πρώτη απόπειρα ενσωματωμένης νοημοσύνης για την ενσωμάτωση γλωσσικών μοντέλων και ρομπότ.

τον φεβρουάριο του τρέχοντος έτους, το 1x κυκλοφόρησε ένα βίντεο με το eve του να εκτελεί μια πλήρη αποστολή νευρωνικού δικτύου, το οποίο έγινε μια μικρή επιτυχία. σε μια συνάντηση κοινής χρήσης του grasp sfi στις 24 απριλίου, μπορούμε να δούμε τη συνολική λογική λειτουργίας αυτού του μοντέλου.

χωρίζεται επίσης σε pipeline (φόρμα ροής εργασιών). πρώτον, ένα μοντέλο dit (diffusion-transformer) χρησιμοποιείται, σε συνδυασμό με εντολές φυσικής γλώσσας, για να χρησιμοποιήσει το difussion για να δημιουργήσει μια προβλεπόμενη εικόνα της μελλοντικής του θέσης. στη συνέχεια, βάλτε αυτήν την πρόβλεψη, την τρέχουσα εικόνα και τον στόχο σε ένα νέο μοντέλο transformer για να προβλέψετε τις επακόλουθες απαιτούμενες μηχανικές δραστηριότητες.

από το βίντεο, μπορούμε να δούμε ότι το eve μπορεί να ταξινομήσει αντικείμενα, να τα μεταφέρει και ακόμη και να φορτιστεί μόνο του (δεν είναι περίεργο που ονομάζεται eve). μερικές από αυτές τις εργασίες μπορούν επίσης να κρατηθούν με δύο χέρια. αλλά κοιτάζοντας προσεκτικά αυτό το βίντεο, αποδεικνύεται ότι οι ικανότητες του eve εκείνη την εποχή περιορίζονταν στον εντοπισμό, την αρπαγή και την τοποθέτηση αντικειμένων αργότερα, αυτές οι βασικές ικανότητες συνδυάστηκαν σε συγκεκριμένες εργασίες, όπως η συσκευασία, η μετακίνηση και η ταξινόμηση.

μέχρι τον αύγουστο ή τον σεπτέμβριο του τρέχοντος έτους, βασικά όλες οι εταιρείες ρομποτικής που έχουν πρόσβαση σε κυκλώματα μοντέλων μεγάλης κλίμακας θα μπορούν να επιτύχουν αυτές τις δυνατότητες.

για παράδειγμα, το σχήμα 01 κυκλοφόρησε ένα βίντεο με το δικό του ρομπότ που χρησιμοποιεί ένα μεγάλο μοντέλο για να οδηγεί καφέ στα τέλη φεβρουαρίου, στο οποίο μπορεί ακόμη και να διορθώσει μόνο του τα λάθη.

(εικόνα: εικόνα 01 που ετοιμάζει καφέ στο βίντεο επίδειξης)

ωστόσο, μετά από αυτό, το figure και το 1x πήραν διαφορετικούς δρόμους όσον αφορά τα μοντέλα.

τον μάρτιο, η figure επέλεξε να χρησιμοποιήσει απευθείας το gpt-4o, δίνοντας στα ρομπότ της δυνατές δυνατότητες συνομιλίας και λογικής. χρησιμοποίησαν ένα pipeline (ροή εργασίας) για να ενσωματώσουν τα τρία μοντέλα.

πρώτον, το μεγάλο μοντέλο gpt-4o χρησιμοποιείται για την αναγνώριση γλώσσας και τον σχεδιασμό ενεργειών. στη συνέχεια, το δικό του επίπεδο νευρωνικής πολιτικής, δηλαδή το δικό του εκπαιδευμένο μοντέλο εργασίας από άκρο σε άκρο, εκτελεί την ενέργεια. ταυτόχρονα, χρησιμοποιεί το δικό του μοντέλο ελέγχου σώματος για να διατηρεί την ισορροπία του ρομπότ.

(εικόνα: εικόνα επίσημη εξήγηση της σύνθεσης του μοντέλου)

αφού η αλληλεπίδραση έγινε το μεγαλύτερο χαρακτηριστικό του ρομπότ τους, το σχήμα 02 τόνισε επίσης τη βελτίωση στο επίπεδο του εγκεφάλου που επιφέρει η 3x υπολογιστική του ισχύς. όσον αφορά τα μοντέλα, η καλύτερη ενσωμάτωση των μοντέλων openai έχει γίνει το επίκεντρο της ανάπτυξής τους.

ωστόσο, μόλις στις 31 μαΐου η 1x κυκλοφόρησε την ενημέρωση της οδηγίας για τη γλώσσα. στο βίντεο επίδειξης του, το ρομπότ μπορεί επιτέλους να κατανοήσει τις εργασίες και να εκτελέσει αντίστοιχες λειτουργίες μέσω φωνητικής επικοινωνίας. αλλά ακόμη και μέχρι στιγμής, το 1x εξακολουθεί να μην χρησιμοποιεί ένα μεγάλο μοντέλο γλώσσας υψηλού επιπέδου. στην τεκμηρίωση στην επίσημη σελίδα εμφάνισης του ιστότοπού τους, ανέφεραν: «μετά τη δημιουργία ενός συνόλου δεδομένων ζευγών εντολών οπτικής σε φυσική γλώσσα, το επόμενο βήμα είναι να χρησιμοποιήσετε μοντέλα οπτικής γλώσσας όπως gpt-4o, vila και gemini vision για αυτόματη πρόβλεψη υψηλών ενέργειες επιπέδου «αυτό έχει επίσης ως αποτέλεσμα τα ρομπότ τους να μην έχουν την ικανότητα να σχεδιάζουν πολύπλοκες εργασίες.

φαίνεται ότι το 1x είναι ένα μεγάλο βήμα πίσω όσον αφορά τις έξυπνες επιδόσεις.

αλλά αυτό μπορεί να οφείλεται στο ότι οι προσπάθειές τους είναι προς διαφορετικές κατευθύνσεις. σε σύγκριση με τις δυνατότητες αλληλεπίδρασης και προγραμματισμού, το 1x ενδιαφέρεται περισσότερο για τη γενίκευση των εργασιών.

στο επίσημο blog της τον μάρτιο, η 1x εξήγησε το μοντέλο που κατασκεύαζε. προσπαθούν να εκπαιδεύσουν ένα «βασικό μοντέλο» για να κατανοήσουν ένα ευρύ φάσμα φυσικών συμπεριφορών, από τον καθαρισμό και την τακτοποίηση του σπιτιού μέχρι το μάζεμα αντικειμένων έως τις κοινωνικές αλληλεπιδράσεις με ανθρώπους και άλλα ρομπότ. στη συνέχεια πρόσθεσαν πιο συγκεκριμένα σύνολα δεξιοτήτων στο μοντέλο (π.χ. ένα μοντέλο για γενικές λειτουργίες πόρτας και ένα άλλο για εργασίες αποθήκης) συγκεντρώνοντας περισσότερα δεδομένα εκπαίδευσης δεξιοτήτων. προσπαθούν δηλαδή να φτιάξουν ένα «βασικό μοντέλο» ρομπότ που να υποστηρίζει τη γενίκευση πολλαπλών εργασιών.

αυτή είναι η γενίκευση των δυνατοτήτων εργασιών, που επιτρέπει σε ένα μόνο ρομπότ να βασίζεται σε ένα μόνο μοντέλο για να συμμετέχει σε πολλαπλές εργασίες. αυτό στην πραγματικότητα δεν είναι τίποτα το ιδιαίτερο. σχεδόν όλες οι εταιρείες που κατασκευάζουν λογισμικό ρομπότ εκπαιδεύονται σε πολλαπλές εργασίες. ωστόσο, σε διάφορα βίντεο επίδειξης ρομπότ και εκθέσεις σε συνέδρια, σπάνια έχουμε δει ένα ρομπότ να ολοκληρώνει συνεχώς μια περίπλοκη εργασία ταυτόχρονα, όπως να καθαρίζει ολόκληρο το δωμάτιο και μετά να μαγειρεύει.

αυτό συμβαίνει επειδή επί του παρόντος κανένα μοντέλο δεν μπορεί να γενικεύσει τις εργασίες.

ο eric jang είπε σε συνέντευξή του στο "the robot report", "έχουμε αποδείξει στο παρελθόν ότι τα ρομπότ μας μπορούν να σηκώνουν και να χειρίζονται απλά αντικείμενα, αλλά για να έχουμε ένα πραγματικά πρακτικό ρομπότ στο σπίτι, πρέπει να μπορεί να εκτελεί πολλαπλές εργασίες ομαλά σε σειρά. "αλλά αυτό δεν μπορεί να επιτευχθεί απλώς με τον διαχωρισμό μιας σύνθετης εργασίας σε πολλαπλές εργασίες μέσω ενός μοντέλου υψηλού επιπέδου όπως ο "εγκέφαλος". επειδή η αρχική θέση και οι συνθήκες είναι διαφορετικές μεταξύ των εργασιών.

εάν ένα ρομπότ πρέπει να εκτελέσει μια δεύτερη εργασία, πρέπει πρώτα να καλύψει τις ελλείψεις της πρώτης εργασίας. για παράδειγμα, εάν το πρώτο ρομπότ δεν καταφέρει να φτάσει στη σωστή θέση δίπλα στο τραπέζι, το δεύτερο ρομπότ θα πρέπει να απλώσει τα χέρια του για να αρπάξει το αντικείμενο και η τρίτη εργασία θα απαιτήσει περαιτέρω αποζημίωση. τα λάθη τείνουν να συσσωρεύονται.

η λύση 1x είναι να χωρίσετε το μοντέλο. επί του παρόντος, το μοντέλο του αποτελείται από δύο μέρη, το ένα είναι ένα βασικό μοντέλο που κατανοεί όλες τις εργασίες και τις "αλυσίδες εργασιών", και το άλλο είναι πολλά μικρά μοντέλα που κατανοούν καλύτερα συγκεκριμένες εργασίες. έχει γίνει επίσης ένα είδος pipeline (ροή εργασίας).

ανέπτυξαν μια διεπαφή φυσικής γλώσσας που επιτρέπει στους υπαλλήλους να καθοδηγούν το ρομπότ μέσω φωνής για να ολοκληρώσουν τις συνδυασμένες ενέργειες πολλών μικρών μοντέλων και να παρεμβαίνουν σε σφάλματα κατά τη διάρκεια της διαδικασίας. αυτό επιτρέπει στα μοντέλα να συνδέονται σε σειρά σε μακροπρόθεσμες "αλυσίδες εργασιών". τα δεδομένα που σχετίζονται με αυτές τις παρεμβάσεις και ολόκληρο το multi-task θα χρησιμοποιηθούν για την εκπαίδευση του μεγάλου «βασικού μοντέλου». τελικά, θα προσαρμόσουν και θα εκπαιδεύσουν το "βασικό μοντέλο" μέσω συσσωρευμένων δεδομένων εργασιών και δεδομένων "αλυσίδας εργασιών", έτσι ώστε αυτό το βασικό μοντέλο όχι μόνο να λύσει την εκτέλεση μιας μεμονωμένης εργασίας, αλλά και να λύσει το πρόβλημα σύνδεσης μεταξύ εργασιών.

(εικόνα: διεπαφή ελέγχου φυσικής γλώσσας που αναπτύχθηκε από την 1x)

επομένως, είναι διαφορετικό από το μονοπάτι που επέλεξε το σχήμα που δίνει έμφαση στην αλληλεπίδραση και τον προγραμματισμό. το βασικό πρόβλημα που επιλέγει επί του παρόντος να λύσει η 1x είναι η ικανότητα γενίκευσης μεταξύ των εργασιών. και αυτό μπορεί να είναι το βασικό σημείο κόλλησης για να γίνουν τα σημερινά ρομπότ πραγματικά καθολικά.

πώς είναι λοιπόν η πρόοδος της γενίκευσης μεταξύ εργασιών του 1χ;

στο πιο πρόσφατο ντοκιμαντέρ, μπορούμε να δούμε ένα μέλος του προσωπικού να χρησιμοποιεί φωνή για να δώσει εντολή σε ένα ρομπότ να ολοκληρώσει τις εργασίες του ανοίγματος της πόρτας, της είσοδο στην τουαλέτα, του κλεισίματος του καθίσματος της τουαλέτας και της έξοδο βήμα προς βήμα. αυτή η εργασία δεν δίνεται με μια κίνηση, αλλά δίνεται μεμονωμένα και συνδεδεμένα.

αυτό δεν φαίνεται πολύ "αυτόματο", αλλά στην πραγματικότητα αποδεικνύει ότι το ρομπότ 1x έχει ήδη την προκαταρκτική ικανότητα να εργάζεται συνεχώς μεταξύ πολλαπλών εργασιών εντολών. εφόσον διαθέτει τις βασικές δυνατότητες εκτέλεσης της «αλυσίδας εργασιών» και τις δυνατότητες σχεδιασμού μοντέλων αιχμής όπως το gpt-4, θα είναι σύντομα δυνατή η αυτόνομη ολοκλήρωση πολύπλοκων και συνεχών εργασιών.

το ίδιο φαίνεται να σκέφτεται και ο έρικ τζανγκ. σε ένα ιστολόγιο με τίτλο "όλοι οι δρόμοι οδηγούν στη ρομποτική" τον μάρτιο του τρέχοντος έτους, έγραψε: "πολλοί ερευνητές τεχνητής νοημοσύνης εξακολουθούν να πιστεύουν ότι τα ρομπότ γενικής χρήσης θα χρειαστούν δεκαετίες για να επιτευχθούν. αλλά θυμηθείτε, η γέννηση του chatgpt φαινόταν σαν μια νύχτα μεταξύ. νομίζω ότι ο τομέας της ρομποτικής θα οδηγήσει επίσης σε τέτοιες αλλαγές».

στα μάτια του, τα ρομπότ γενικής χρήσης που μπορούν να γενικεύσουν φαίνονται να είναι ορατά.

όμως η απαισιοδοξία του κλάδου είναι δικαιολογημένη. το κύριο μέλημά τους δεν είναι με τον αλγόριθμο, αλλά με το γεγονός ότι τα τρέχοντα δεδομένα της ενσωματωμένης νοημοσύνης δεν είναι άφθονα, είναι επίσης πολύ δύσκολο να συλλεχθούν και υπάρχει έλλειψη προτύπων.

αλλά οι μεγάλοι όγκοι δεδομένων είναι το κλειδί για την επίτευξη γενίκευσης στο νόμο της κλίμακας. σε σύγκριση με ένα απλό γλωσσικό μοντέλο μεγάλης κλίμακας, η ενσωματωμένη νοημοσύνη μπορεί να απαιτεί μεγαλύτερη ποσότητα δεδομένων για να είναι καθολική, επειδή περιλαμβάνει εικόνες και ενέργειες. και η συλλογή αυτών των δεδομένων απαιτεί πολύ χρόνο.

χρησιμοποιώντας «χαζές» μεθόδους για τη συλλογή «έξυπνων» δεδομένων

ο eric jang έκανε μια δήλωση στο ντοκιμαντέρ που ήταν αντίθετη με τις γενικές ανησυχίες της βιομηχανίας,"πολλοί άνθρωποι υπερεκτιμούν το σημείο συμφόρησης στη συλλογή δεδομένων. στην πράξη, τους επόμενους 12 μήνες, τα δεδομένα μπορεί να γίνονται όλο και λιγότερο σημαντικά."

η εμπιστοσύνη του στα δεδομένα προέρχεται από την προηγούμενη πρακτική. η λογική της 1x στη συλλογή δεδομένων ήταν πάντα ελαφρώς διαφορετική από άλλες εταιρείες ρομποτικής.

άλλες εταιρείες γενικά χρησιμοποιούν όλα τα διαθέσιμα μέσα για να συλλέξουν όσο το δυνατόν περισσότερα δεδομένα. οι μέθοδοι περιλαμβάνουν την τοποθέτηση προσομοιωμένων ρομπότ σε προσομοιωμένα φυσικά περιβάλλοντα όπως το unreal 5 για τη συλλογή μεγάλων ποσοτήτων δεδομένων ή τη χρήση δεδομένων βίντεο για την παρακολούθηση βίντεο από ανθρώπους που χειρίζονται αντικείμενα και την εξαγωγή πληροφοριών.

αλλά στην πραγματικότητα, η πιο συχνά χρησιμοποιούμενη μέθοδος mainstream αυτή τη στιγμή είναι η χρήση τηλελειτουργίας (training from demoration) για τη λήψη δεδομένων μέσω ανθρώπων που φορούν vr για επίδειξη σε ρομπότ.

αυτό το είδος συλλογής απομακρυσμένων λειτουργιών τοποθετεί γενικά το ρομπότ σε ένα πολύ σταθερό περιβάλλον "εργοστάσιο συλλογής δεδομένων" για να συλλέξει αρκετά δεδομένα όσο το δυνατόν πιο αποτελεσματικά. ακόμα κι αν υπάρχουν κάποιες επαναλήψεις και ομοιότητες.

(εικόνα: το εργοστάσιο συλλογής δεδομένων της tesla)

σύμφωνα με τον eric jang, η τρέχουσα μέθοδος που χρησιμοποιούν είναι μια πολύ «ανόητη» μέθοδος. σε σύγκριση με τη φαινομενικά αποτελεσματική λειτουργία κεντρικής συλλογής που χρησιμοποιεί η tesla, η 1x επέλεξε να επιμείνει στην επιστροφή σε διάφορες σκηνές ζωής για συλλογή. έτσι, τα βλέπουμε να συλλέγονται σε πολλούς και πολύ διαφορετικούς χώρους από ότι σε ένα εργοστάσιο. επίσης, δεν χρησιμοποίησαν δεδομένα εκπαίδευσης βίντεο και προσομοίωσης, επιμένοντας να χρησιμοποιούν μόνο δεδομένα που συλλέγονται από τηλελειτουργία.

(εικόνα: οι σκηνές εκπαίδευσης του eve είναι εκπληκτικά διαφορετικές)

ο διευθύνων σύμβουλος bernt bornich δήλωσε: «η ποικιλομορφία είναι η πιο σημαντική πτυχή των ανθρωποειδών ρομπότ.

κατά την άποψη του x1, τα περιβάλλοντα σπιτιού και γραφείου όπου τελικά θα προσγειωθούν τα ρομπότ δεν έχουν σταθερή δομή και αλλάζουν συνεχώς με την ανθρώπινη χρήση, επομένως πρέπει να υπάρχουν αρκετά διαφορετικά δεδομένα για να έχουν νόημα. επομένως, ο τύπος συλλογής δεδομένων 1χ που δόθηκε από τον eric jang είναι "διαφορετικότητα>ποιότητα>ποσότητα>αλγόριθμος".

προκειμένου να επιτευχθεί αυτή η ποικιλομορφία συλλογής, η 1x έχει οργανώσει ειδικά μια ομάδα χειριστών ρομπότ, οι οποίοι είναι όλοι προσεκτικά επιλεγμένοι. μπορούν όλοι να εκπαιδεύσουν προσωπικά ορισμένα μοντέλα συμπεριφοράς μέσω ενός συνόλου απλών γραφικών διεπαφών nle. από αυτή την άποψη, ο eric jang έγραψε σε ένα blog τεχνολογίας, "η 1x είναι η πρώτη εταιρεία που γνωρίζω που επιτρέπει στους συλλέκτες δεδομένων να εκπαιδεύουν μόνοι τους τις ικανότητες ρομπότ. αυτό μειώνει σημαντικά τον χρόνο που απαιτείται για το μοντέλο να φτάσει σε καλή κατάσταση, επειδή τα δεδομένα οι συλλέκτες μπορούν να λάβουν γρήγορα σχόλια για το πόσο καλά είναι τα δεδομένα και πόσα δεδομένα χρειάζονται πραγματικά για την επίλυση ρομποτικών εργασιών είναι κάτι που προβλέπω ότι θα γίνει ένα κοινό μοτίβο για τη συλλογή ρομποτικών δεδομένων στο μέλλον».

έτσι, δεν έχουν μόνο εργάτες συλλογής, αλλά έχουν μια ομάδα μηχανικών συλλογής που μπορούν να ρυθμίσουν άμεσα το μοντέλο. εντοπίζουν τι δεν λειτουργεί σε συγκεκριμένες εργασίες, συλλέγουν δεδομένα για αυτά τα σενάρια, στη συνέχεια επανεκπαιδεύουν και συντονίζουν το μοντέλο και επαναλαμβάνουν τη διαδικασία μέχρι το μοντέλο να είναι τέλειο. προπόνηση όλα σε ένα.

(εικόνα: στο linkedin της 1x, η πρόσληψη αυτών των χειριστών είναι όλες θέσεις εργασίας πλήρους απασχόλησης, όχι εξωτερική ανάθεση, με μηνιαίο μισθό 6.000-8.000 $ ηπα, που είναι περίπου 1,5 φορές ο μέσος μηνιαίος μισθός στις ηνωμένες πολιτείες)

αυτές οι «ανόητες» μέθοδοι διασφαλίζουν την ποιότητα και την ποικιλομορφία των συλλεγόμενων δεδομένων και κάθε στοιχείο είναι όσο το δυνατόν πιο «χρήσιμο». σε συνεντεύξεις τις τελευταίες ημέρες, ο rric είπε, "εάν αναπτύξετε ρομπότ σε ένα εργοστάσιο και εκτελείτε τις ίδιες ακριβώς εργασίες επανειλημμένα, τα δεδομένα είναι βασικά άχρηστα".

αυτή η σχετικά καλή συλλογή αναμφίβολα θα επιβραδύνει την αύξηση του μεγέθους των δεδομένων, αλλά η επίδρασή της είναι πολύ σημαντική.

(επάνω: αριθμός ωρών δεδομένων που συλλέγονται από 1x, κάτω: ποικιλία ενεργειών που συλλέγονται από 1x)

σύμφωνα με την τεχνική κοινή χρήση του eric jang, μέχρι τον μάρτιο του 2024, έχουν συλλέξει συνολικά 1.400 ώρες προπονητικών δεδομένων που περιλαμβάνουν 7.000 διαφορετικές μοναδικές ενέργειες. είπε επίσης ότι με την εκπαίδευση αυτών των δεδομένων, το ρομπότ eve μπορεί αυτή τη στιγμή να έχει εκατοντάδες ανεξάρτητες ικανότητες.

αντίθετα, το rt-2 χρησιμοποίησε 130.000 παραδείγματα στην εκπαίδευση και 13 ρομπότ πέρασαν ολόκληρους 17 μήνες για να τα συλλέξουν. εάν κάθε παράδειγμα είναι 5 δευτερόλεπτα κατά μέσο όρο, η συνολική διάρκεια αυτών των παραδειγμάτων μπορεί να φτάσει τις δεκάδες χιλιάδες ώρες. μπορεί να εκτελέσει εργασίες με 700 διαφορετικές οδηγίες.

από αυτή την άποψη, το αποτέλεσμα της εκλεπτυσμένης συλλογής δεδομένων είναι πράγματι καλό. χρησιμοποιήστε το 1/10 των δεδομένων για να φτάσετε τουλάχιστον στο μισό επίπεδο ικανότητας. η ιδέα ότι η βιασύνη κάνει σπατάλη ισχύει και στον κόσμο της ρομποτικής.

σύναψη

συνολικά, το μεγαλύτερο «ατού» του 1x είναι η εστίασή του στους ανθρώπους.

η εταιρική κουλτούρα που μεταδίδεται από το 1x αποκαλύπτει μια αίσθηση «χαλάρωσης» είτε πρόκειται για το προηγούμενο eve είτε για το πρόσφατο neo, τα διαφημιστικά του βίντεο είναι εντελώς διαφορετικά από τα κρύα, τεχνολογικά στοιχεία που αποφεύγουν τις αιχμηρές άκρες και δεν ενεργοποιούν εσκεμμένα η επικοινωνία είναι επίσης ένα είδος ιδεαλισμού.

από το διαφημιστικό βίντεο του neo φαίνεται ότι το 1x δημιουργεί μια «ζεστή» εικόνα σαν τον «αδελφό της διπλανής πόρτας», τονίζοντας τις μυϊκές γραμμές παρόμοιες με τους άντρες. φροντίζει την καθημερινότητα της οικογένειάς του, σου μαζεύει τα πακέτα πριν βγεις έξω και σε αγκαλιάζει ζεστά πριν φύγεις.

επιπλέον, μπορεί να φανεί στο βίντεο επίδειξης ότι ο neo μπορεί να κατανοήσει τις ανθρώπινες χειρονομίες, κάτι που είναι επίσης μια εις βάθος κατανόηση της ανθρώπινης επικοινωνίας. η πολλή επικοινωνία μεταξύ των ανθρώπων δεν βασίζεται στη γλώσσα. υπάρχουν στιγμές που οι άνθρωποι «χάνονται» για τα λόγια, επομένως, ο νεο μπορεί να «διαβάσει» το επόμενο βήμα των ανθρώπων και μπορεί να δώσει ο ένας στον άλλον κατανόηση χωρίς λόγια. η γη έχει μια «ανθρώπινη» γεύση.

από την άποψη της γενίκευσης των εργασιών και του ευέλικτου σχεδιασμού, το neo μπορεί να ονομαστεί το πρώτο δίποδο ανθρωποειδές ρομπότ στην οικιακή σκηνή.

εάν τα ρομπότ μπορούν να είναι αιώνια στο μέλλον, τότε τι είδους ρομπότ χρειαζόμαστε για να συνοδεύουμε τους εαυτούς μας και ακόμη και τις μελλοντικές γενιές; ίσως, το neo είναι μια καλή απάντηση.

νέα

μήπως το ρομπότ του openai μοιάζει πολύ με τον άνθρωπο; οι επενδυτές έμειναν έκπληκτοι: νόμιζαν ότι υπήρχε ένα πραγματικό πρόσωπο κάτω από τα ρούχα

από πού προέρχεται η σχεδιαστική απόκλιση μεταξύ τροχών και ποδιών;

είναι τα ρομπότ ικανά για γενίκευση ήδη στο κατώφλι;

χρησιμοποιώντας «χαζές» μεθόδους για τη συλλογή «έξυπνων» δεδομένων

σύναψη

εισαγωγή

τα στοιχεία επικοινωνίας μου