Νέα

Μην εστιάσετε μόνο στην έκδοση ChatGPT του Her. Οι εγχώριοι παίκτες ενδιαφέρονται επίσης για την πολυτροπική ανθρωπόμορφη αλληλεπίδραση AI.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Machine Heart Original

Συγγραφέας: Du Wei

Πόσο προηγμένη είναι η τεχνητή νοημοσύνη σήμερα στον εντοπισμό των ανθρώπινων συναισθημάτων; Στις αρχές αυτού του μήνα, ένας διαγωνισμός υψηλού προφίλ που αμφισβητούσε ένα πιο συναισθηματικό AI έφτασε στο τέλος του!

Αυτό είναιThe 2nd Multimodal Emotion Recognition Challenge (MER24), χρηματοδοτήθηκε από κοινού από τον καθηγητή Tao Jianhua του Πανεπιστημίου Tsinghua, τον Lian Zheng του Ινστιτούτου Αυτοματισμού της Κινεζικής Ακαδημίας Επιστημών, τον Björn W. Schuller του Imperial College, τον Zhao Guoying του Πανεπιστημίου του Oulu και τον Erik Cambra του Τεχνολογικού Πανεπιστημίου Nanyang στο κορυφαίο συνέδριο AI IJCAI2024 για να εξερευνήσετε πώς να χρησιμοποιείτε κείμενο, Χρησιμοποιήστε δεδομένα πολλαπλών τρόπων, όπως ήχο και βίντεο, για να εκτελέσετε αναγνώριση συναισθημάτων AI και να προωθήσετε την εφαρμογή σχετικών τεχνολογιών σε πραγματικά σενάρια αλληλεπίδρασης ανθρώπου-υπολογιστή.



Επίσημος ιστότοπος του διαγωνισμού: https://zeroqiaoba.github.io/MER2024-website/#organization

Αυτή η πρόκληση έχει συνολικά τρία κομμάτια, συγκεκριμένα το Semi (ημι-εποπτευόμενο κομμάτι εκμάθησης), το Noise (κομμάτι ευρωστίας θορύβου) και το Ov (ανοιχτό κομμάτι αναγνώρισης συναισθημάτων λεξιλογίου), μεταξύ των οποίωνΗ πίστα Semi έχει τον μεγαλύτερο αριθμό ομάδων που συμμετέχουν, είναι η πιο δύσκολη και έχει τον πιο έντονο ανταγωνισμό.

Λαμβάνοντας ως παράδειγμα το Semi track, οι συμμετέχουσες ομάδες πρέπει να χρησιμοποιήσουν μια μικρή ποσότητα δεδομένων βίντεο με ετικέτα και μια μεγάλη ποσότητα δεδομένων βίντεο χωρίς ετικέτα για να εκπαιδεύσουν τα δικά τους μοντέλα και να αξιολογήσουν την απόδοση και την ικανότητα γενίκευσης του μοντέλου στο σύνολο δεδομένων χωρίς ετικέτα. Το κλειδί για να κερδίσετε αυτό το κομμάτι είναι να βελτιώσετε την απόδοση αναγνώρισης συναισθημάτων του μοντέλου, βελτιώνοντας την ημι-εποπτευόμενη τεχνολογία εκμάθησης, όπως η ακρίβεια της πρόβλεψης των κατηγοριών συναισθημάτων.

Από την έναρξη του διαγωνισμού τον Μάιο, μέσα σε δύο μήνες, έχουν διαγωνιστεί σχεδόν εκατό ομάδες από όλο τον κόσμο, συμπεριλαμβανομένων γνωστών πανεπιστημίων και καινοτόμων εταιρειών.σεΤην πρώτη θέση στην πίστα Semi κέρδισε η κοινωνική πλατφόρμα Soul App, η ομάδα τεχνολογίας φωνής της βγήκε στην κορυφή με τις εφικτές και καινοτόμες τεχνικές λύσεις της.



Ωστόσο, πριν αποκαλύψουμε την τεχνική λύση της ομάδας Soul, πρέπει πρώτα να κατανοήσουμε τις δυνατότητες αναγνώρισης συναισθημάτων της τεχνητής νοημοσύνης σε πολλαπλούς τρόπους.

Το επόμενο βήμα στην αλληλεπίδραση ανθρώπου-υπολογιστή

Αφήστε το AI να κατανοήσει τα συναισθήματα

Η σημερινή τεχνητή νοημοσύνη φαίνεται να είναι παντοδύναμη, συμπεριλαμβανομένης της συνομιλητικής επικοινωνίας, της δημιουργίας εικόνων ή βίντεο, της επίλυσης μαθηματικών προβλημάτων κ.λπ. Είναι ικανή για εργασίες σε διαφορετικά επίπεδα όπως αντίληψη, μάθηση, συλλογισμός και λήψη αποφάσεων. Χάρη στην ευλογία των μεγάλων μοντέλων, η τεχνητή νοημοσύνη μπορεί να ειπωθεί ότι είναι αρκετά έξυπνη, αλλά υστερεί σε συναισθηματικές πτυχές όπως η ενσυναίσθηση.

Στην αλληλεπίδραση ανθρώπου-υπολογιστή, οι χρήστες μερικές φορές δεν χρειάζονται μόνο τεχνητή νοημοσύνη για να ακολουθήσουν οδηγίες και να ολοκληρώσουν εργασίες, αλλά χρειάζονται επίσης για να παρέχουν επαρκή συναισθηματική αξία για την ικανοποίηση συναισθηματικών αναγκών. Από τις λειτουργικές «βασικές δεξιότητες» έως τις συναισθηματικές «προχωρημένες δεξιότητες», οι δεξιότητες που χρειάζεται να κατακτήσει η τεχνητή νοημοσύνη πρέπει να αναβαθμιστούν.

Ως εκ τούτου, η πολυτροπική αναγνώριση συναισθημάτων έχει γίνει ένα ενεργό ερευνητικό θέμα στον τομέα της τεχνητής νοημοσύνης. Η τεχνητή νοημοσύνη που μπορεί να διαβάσει και να μεταφέρει συναισθήματα έχει γίνει ένα νέο καυτό θέμα στη βιομηχανία και θεωρείται η επόμενη σημαντική ανακάλυψη στον τομέα της τεχνητής νοημοσύνης. Τους τελευταίους έξι μήνες, ορισμένες νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης και γίγαντες του κλάδου έχουν αποκαλύψει νέες μορφές καθηλωτικής αλληλεπίδρασης ανθρώπου-μηχανής για εμάς.

Στις αρχές Απριλίου, η Hume AI, μια ξένη startup εταιρεία, κυκλοφόρησε ένα ρομπότ φωνητικής συνομιλίας, το Empathetic Voice Interface (EVI), το οποίο αναλύει και προσδιορίζει τον τόνο και το συναίσθημα του συνομιλητή μέσω της φωνητικής επικοινωνίας και μπορεί να ανιχνεύσει έως και 53 συναισθήματα. Επιπλέον, μπορεί να προσομοιώσει διαφορετικές συναισθηματικές καταστάσεις, κάνοντας την αλληλεπίδραση πιο κοντά σε πραγματικούς ανθρώπους. Οι ανακαλύψεις στο συναισθηματικό επίπεδο της τεχνητής νοημοσύνης επέτρεψαν επίσης στην startup να λάβει γρήγορα 50 εκατομμύρια δολάρια σε χρηματοδότηση της Σειρά Β.

Ακολουθεί η μεγάλη κίνηση του OpenAI. Το εμβληματικό μοντέλο GPT-4o επιδεικνύει λειτουργίες ήχου και βίντεο σε πραγματικό χρόνο και ανταποκρίνεται άμεσα στα συναισθήματα και τον τόνο των χρηστών το εγγύς μέλλον. Από τότε, η τεχνητή νοημοσύνη ανέπτυξε ισχυρή ευγλωττία και την ικανότητα αντίληψης των συναισθημάτων, κάνοντας τους ανθρώπους να την αποκαλούν ως την άφιξη της εποχής της επιστημονικής φαντασίας.

Οι εγχώριες εταιρείες όπως η Microsoft Xiaoice και η Lingxin Intelligence δεσμεύονται επίσης να δημιουργήσουν προϊόντα συναισθηματικής τεχνητής νοημοσύνης. Μπορούμε να δούμε μια τάση: οι δυνατότητες αναγνώρισης συναισθημάτων εμπλέκονται όλο και περισσότερο σε πολυτροπικές εφαρμογές τεχνητής νοημοσύνης όπως κείμενο, ήχος και βίντεο. Ωστόσο, αν θέλουμε να προχωρήσουμε περαιτέρω στον τομέα της ανθρωπόμορφης αναγνώρισης συναισθημάτων, πρέπει ακόμα να λύσουμε προβλήματα όπως η σπανιότητα των δεδομένων με ετικέτα και η αστάθεια και η ανακρίβεια της υποκειμενικής αναγνώρισης συναισθημάτων.

Ως εκ τούτου, έχει καταστεί ιδιαίτερα απαραίτητο να προωθηθεί η ακαδημαϊκή κοινότητα και η βιομηχανία ώστε να δοθεί μεγαλύτερη προσοχή στον τομέα της αναγνώρισης συναισθημάτων πολλαπλών τρόπων και να επιταχυνθεί η καινοτομία και η πρόοδος των σχετικών τεχνολογιών. Επί του παρόντος, τα κορυφαία ακαδημαϊκά συνέδρια AI, όπως το ACM MM και το AAAI, θεωρούν τον συναισθηματικό υπολογισμό ως σημαντικό ερευνητικό θέμα, όπως το CVPR και το ACL. Ειδικά ενόψει της έλευσης της εποχής των μεγάλων δεδομένων και των μεγάλων μοντέλων, ο τρόπος χρήσης μεγάλου όγκου δεδομένων χωρίς ετικέτα και αποτελεσματικής επεξεργασίας και ενσωμάτωσης διαφορετικών τροπικών πληροφοριών στην πολυτροπική αναγνώριση συναισθημάτων είναι μια σημαντική πρόκληση που αντιμετωπίζει αυτή τη στιγμή η βιομηχανία. Αυτή η πρόκληση MER24 πραγματοποιήθηκε Αυτός είναι επίσης ο λόγος και η σημασία του.

Η ομάδα Soul κέρδισε την πρώτη θέση στην πίστα Semi λόγω της συσσώρευσης ικανοτήτων και της καινοτομίας της στην κατανόηση πολυτροπικών δεδομένων, τους αλγόριθμους αναγνώρισης συναισθημάτων, τα εργαλεία πλατφόρμας βελτιστοποίησης μοντέλων, την εσωτερική κατασκευή ροής εργασιών κ.λπ., καθώς και την αποτελεσματική συνεργασία της τεχνικής ομάδας .

Κατέκτησε την πρώτη θέση στην πιο δύσκολη πίστα

Τι έκανε η ομάδα Soul;

Αφού αναφέρεται ότι η πίστα Semi είναι η πιο δύσκολη, ποιες είναι οι δύσκολες πτυχές; Και πώς η Team Soul πήρε την πρώτη θέση; Ας κοιτάξουμε κάτω.

Τα δεδομένα είναι ένα από τα τρία κύρια στοιχεία της τεχνητής νοημοσύνης Χωρίς επαρκή, ιδιαίτερα υψηλής ποιότητας εκπαίδευση δεδομένων, το μοντέλο δεν μπορεί να εγγυηθεί καλή απόδοση. Αντιμέτωπη με διάφορες προκλήσεις που επιφέρει η σπανιότητα δεδομένων, η βιομηχανία πρέπει όχι μόνο να επεκτείνει όλους τους τύπους δεδομένων, συμπεριλαμβανομένων των δεδομένων που δημιουργούνται από την τεχνητή νοημοσύνη, αλλά και να επικεντρωθεί στη βελτίωση των δυνατοτήτων γενίκευσης μοντέλων σε σενάρια αραιών δεδομένων. Το ίδιο ισχύει για εργασίες αναγνώρισης συναισθημάτων πολλαπλών τρόπων Ο πυρήνας του βρίσκεται στην υποστήριξη τεράστιων δεδομένων ετικετών. λύπη. Η πραγματικότητα είναι ότι τα δεδομένα με συναισθηματική επισήμανση στο Διαδίκτυο είναι πολύ σπάνια.

Το Semi track αυτού του διαγωνισμούΠαρέχονται μόνο 5030 τεμάχια δεδομένων με ετικέτα και τα υπόλοιπα 115595 τεμάχια είναι δεδομένα χωρίς ετικέτα. . Ως εκ τούτου, η έλλειψη δεδομένων με ετικέτα έχει γίνει το πρώτο πρόβλημα που αντιμετωπίζουν όλες οι συμμετέχουσες ομάδες, συμπεριλαμβανομένης της ομάδας Soul.



Πηγή εικόνας: έγγραφο βάσης MER24: https://arxiv.org/pdf/2404.17113

Από την άλλη πλευρά, σε σύγκριση με τα κομμάτια Noise και Ov, το κομμάτι Semi εστιάζει στη δοκιμή των βασικών τεχνολογιών, δηλαδή δίνοντας μεγαλύτερη προσοχή στην επιλογή της αρχιτεκτονικής μοντέλων και των δυνατοτήτων γενίκευσης εξαγωγής χαρακτηριστικών, καθώς και στη συσσώρευση και καινοτομία πολλαπλών τεχνολογίες μεγάλου μοντέλου Οι σεξουαλικές απαιτήσεις είναι σχετικά υψηλές.



Λόγω των χαρακτηριστικών της πίστας με λιγότερα δεδομένα και υψηλές τεχνικές απαιτήσεις, η ομάδα της Soul έκανε επαρκείς προετοιμασίες πριν από τον αγώνα με βάση ορισμένες ενότητες του αυτο-αναπτυγμένου μεγάλου μοντέλου που είχαν συσσωρευτεί προηγουμένως και καθόρισε ένα σύνολο εφικτών καινοτόμων τεχνικών λύσεων. Η γενική ιδέα είναι να υιοθετηθεί η στρατηγική του "πρώτου κύριου σώματος και μετά λεπτομέρειας", εστιάζοντας πρώτα στη βελτίωση της γενίκευσης κάθε μοντέλου εξαγωγής βασικών χαρακτηριστικών και στη συνέχεια στην ενσωμάτωσή τους κατά τη διάρκεια της συγκεκριμένης διαδικασίας υλοποίησης, των παρακάτω πτυχών της εργασίας τελειώσαμε. Αυτά αποτελούν τις βασικές δυνάμεις τους.

Πρώτον, εστιάστε στην εξαγωγή πολλαπλών χαρακτηριστικών στο αρχικό στάδιο. Στην αρχιτεκτονική μοντέλων από άκρο σε άκρο, χρησιμοποιούνται προ-εκπαιδευμένα μοντέλα για την εξαγωγή συναισθηματικών αναπαραστάσεων σε διαφορετικούς τρόπους κειμένου, ομιλίας και όρασης, δίνοντας προσοχή στα κοινά σημεία και τις διαφορές στα συναισθήματα, βελτιώνοντας έτσι το αποτέλεσμα αναγνώρισης συναισθημάτων. Αργότερα, προτείνεται μια αποτελεσματική μέθοδος σύντηξης με βάση τα χαρακτηριστικά κάθε τροπικότητας πολλαπλών τρόπων, και αυτές οι μονάδες συγχωνεύονται για να σχηματίσουν μια αρχιτεκτονική μοντέλου. Προκειμένου να βελτιωθεί η απόδοση γενίκευσης του προεκπαιδευμένου μοντέλου, η ομάδα Soul πρότεινε το EmoVCLIP για πρώτη φορά στον τομέα της αναγνώρισης συναισθημάτων, ειδικά για τις λειτουργίες βίντεο καλύτερη απόδοση γενίκευσης στον τομέα της αναγνώρισης συναισθημάτων βίντεο.

Επιπλέον, προκειμένου να βελτιωθούν οι δυνατότητες αναγνώρισης συναισθημάτων των τρόπων κειμένου, η ομάδα Soul χρησιμοποιεί το GPT-4 για να δημιουργήσει συναισθηματικές ψευδο-ετικέτες για τρόπους κειμένου, κάνοντας πλήρη χρήση των δυνατοτήτων συναισθηματικής προσοχής του GPT-4 για τη βελτίωση της ακρίβειας της αναγνώρισης συναισθημάτων σε τροποποιήσεις κειμένου, για το μέλλον Έχουν τεθεί καλύτερα θεμέλια για περαιτέρω συγχώνευση τρόπων.

Δεύτερον, όσον αφορά τη σύντηξη πολλαπλών τρόπων, η ομάδα Soul χρησιμοποίησε τη στρατηγική Modality Dropout για πρώτη φορά προς την κατεύθυνση της αναγνώρισης συναισθημάτων πολλαπλών τρόπων και μελέτησε τον αντίκτυπο της απόδοσης των διαφορετικών ποσοστών εγκατάλειψης προκειμένου να μετριάσει το πρόβλημα ανταγωνισμού μεταξύ τους τρόποι λειτουργίας, κατά τη διάρκεια της διαδικασίας εκπαίδευσης του μοντέλου Καταργήστε τυχαία μια συγκεκριμένη μέθοδο (τροπικότητα κειμένου, ομιλίας ή βίντεο) για να επιτύχετε καλύτερη ευρωστία και να βελτιώσετε την ικανότητα γενίκευσης του μοντέλου σε αόρατα δεδομένα πέρα ​​από τα παρεχόμενα δεδομένα με ετικέτα.

Τέλος, η ημι-εποπτευόμενη τεχνολογία εκμάθησης μπαίνει στο παιχνίδι Η βασική ιδέα είναι να χρησιμοποιηθούν δεδομένα με ετικέτα για να εκπαιδεύσετε ένα μοντέλο, στη συνέχεια να προβλέψετε τα δεδομένα χωρίς ετικέτα και να δημιουργήσετε ψευδοετικέτες για τα δεδομένα χωρίς ετικέτα με βάση τα αποτελέσματα πρόβλεψης. Αυτές οι ψευδο-ετικέτες χρησιμοποιούνται για την εκπαίδευση του μοντέλου και τη συνεχή βελτίωση του εφέ μοντέλου. Η ομάδα Soul χρησιμοποίησε τη στρατηγική αυτοεκπαίδευσης στην ημι-εποπτευόμενη μάθηση για να προσθέσει κυκλικά ψευδο-ετικέτες σε περισσότερα από 110.000 δεδομένα χωρίς ετικέτα από το κομμάτι Semi και να τα προσθέσει στο σετ εκπαίδευσης και ενημέρωσε επαναληπτικά το μοντέλο για να αποκτήσει το τελικό μοντέλο.



Το τεχνικό σχέδιο της ομάδας Soul για τον διαγωνισμό.

Από τη συνολική ιδέα έως τη σύντηξη πολλαπλών λειτουργιών, την αντίθεση μάθησης και την αυτοεκπαίδευση δεδομένων χωρίς ετικέτα, οι τεχνικές λύσεις της ομάδας Soul τους έφεραν καλά αποτελέσματα.τελικάΌσον αφορά την πολυτροπική ακρίβεια αναγνώρισης συναισθημάτων στη φωνή, την όραση και το κείμενο, το σύστημα που πρότεινε η ομάδα Soul βελτιώθηκε κατά 3,7% σε σύγκριση με το βασικό σύστημα, φτάνοντας πάνω από 90% . Ταυτόχρονα, η ομάδα Soul μπορεί επίσης να διακρίνει καλύτερα τα συναισθήματα που έχουν μπερδεμένα όρια στον τομέα της αναγνώρισης συναισθημάτων (όπως ανησυχία και ανησυχία).



Πηγή εικόνας: έγγραφο βάσης MER24: https://arxiv.org/pdf/2404.17113

Από μια βαθύτερη προοπτική, η επιτυχία της ομάδας Soul στο MER24 Challenge είναι μια συμπυκνωμένη έκφραση της βαθιάς καλλιέργειας της τεχνολογίας μεγάλων μοντέλων τεχνητής νοημοσύνης στον κοινωνικό τομέα, ειδικά των δυνατοτήτων πολυτροπικής συναισθηματικής αλληλεπίδρασης.

Καινοτόμος πολυτροπική ανθρωπόμορφη αλληλεπίδραση

Το Social AI είναι το επόμενο επίπεδο

Το κοινωνικό πεδίο απαιτεί φυσικά συναισθηματική τεχνητή νοημοσύνη. Μια κυρίαρχη άποψη υποστηρίζει ότι η ουσία της κοινωνικής αλληλεπίδρασης είναι η ανταλλαγή συναισθηματικών αξιών και τα συναισθήματα είναι ποικίλα. Αυτό σημαίνει ότι αν η τεχνητή νοημοσύνη θέλει να ενσωματωθεί απρόσκοπτα σε κοινωνικές σκηνές και να λειτουργεί αποτελεσματικά, πρέπει να παρέχει πλούσια συναισθηματική ανατροφοδότηση και εμπειρία όπως οι πραγματικοί άνθρωποι.

Η βάση για την πραγματοποίηση της ενσυναισθητικής τεχνητής νοημοσύνης είναι να έχουμε ισχυρές πολυτροπικές δυνατότητες αναγνώρισης συναισθημάτων και να εξελιχτούμε από έναν απλό «εκτελούντα καθήκοντα» σε έναν «σύντροφο που ικανοποιεί τις ανθρώπινες συναισθηματικές ανάγκες». Ωστόσο, εξακολουθεί να είναι πολύ δύσκολο για την τεχνητή νοημοσύνη να κατανοήσει αποτελεσματικά τα συναισθήματα.

Για τη Soul, η οποία έχει τις ρίζες της στον κοινωνικό τομέα, η εστίαση στην οικοδόμηση AI με συναισθηματικές ικανότητες έχει γίνει μια σημαντική πρόταση που πρέπει να ληφθεί υπόψη. Όταν κυκλοφόρησε το 2016, η Soul σκέφτηκε για πρώτη φορά πώς να χρησιμοποιήσει καινοτόμες τεχνολογίες και προϊόντα για την καλύτερη κάλυψη των αναγκών των χρηστών. Το "Lingxi Engine" που κυκλοφόρησε νωρίτερα χρησιμοποιεί έξυπνους αλγόριθμους συστάσεων για την εξόρυξη και ανάλυση των χαρτών ενδιαφερόντων των χρηστών και των λειτουργιών όλων των σεναρίων στον ιστότοπο, διευκολύνοντάς τους να βρίσκουν άτομα με τα οποία μπορούν να συνομιλούν και το περιεχόμενο που χρειάζονται περισσότερο. εξαιρετικά κολλώδης οικολογία χρηστών και περιεχομένου. Μέχρι στιγμής, τα σενάρια αντιστοίχισης όπου εφαρμόζεται αυτός ο πιο «έξυπνος» αλγόριθμος είναι επίσης ένα από τα πολύ ενεργά χαρακτηριστικά των χρηστών Soul.

Με την επιτυχημένη εμπειρία της πρώιμης κοινωνικής αλληλεπίδρασης με τη βοήθεια AI, σε αυτό το τεχνολογικό κύμα ταχείας ανάπτυξης μεγάλων μοντέλων, η Soul διερευνά περαιτέρω νέες δυνατότητες αλληλεπίδρασης ανθρώπου-υπολογιστή με βάση τη συμμετοχή της τεχνητής νοημοσύνης στην κοινωνική αλληλεπίδραση και τα υποβοηθούμενα δίκτυα σχέσεων.

Από την έναρξη της έρευνας και ανάπτυξης αλγορίθμων που σχετίζεται με το AIGC το 2020, το Soul έχει λάβει ως κατεύθυνση την πολυτροπικότητα και έχει συσσωρεύσει δυνατότητες αιχμής στον έξυπνο διάλογο, τη δημιουργία εικόνων, τη δημιουργία φωνής και μουσικής κ.λπ.Σε σύγκριση με τις νέες αμιγώς τεχνικές επιχειρηματικές δυνάμεις της τεχνητής νοημοσύνης, ένα σημαντικό χαρακτηριστικό της Soul είναι ότι υιοθετεί τη στρατηγική "μοντέλο-απόκριση-ολοκλήρωση" για την ταυτόχρονη προώθηση μεγάλων μοντέλων και εφαρμογών AIGC στην πλευρά C.Επικεντρωθείτε στη δημιουργία τεχνητής νοημοσύνης με δυνατότητες αναγνώρισης συναισθημάτων για να επιτύχετε πραγματικά θερμή ανατροφοδότηση σε πλούσια ανθρωπόμορφα σενάρια αλληλεπίδρασης

Μπορεί να φανεί από τις ενέργειες της Soul τα τελευταία δύο χρόνια ότι έχει επιταχύνει τον ρυθμό των κοινωνικών σεναρίων ενδυνάμωσης της AIGC. Το 2023, το Soul X, ένα μεγάλο μοντέλο γλώσσας που αναπτύσσεται μόνος του, θα λανσαριστεί, το οποίο θα γίνει μια σημαντική υποδομή για την κοινωνική διάταξη AIGC +. Με το Prompt drive του μοντέλου, τη δημιουργία υπό όρους ελεγχόμενη, την κατανόηση περιβάλλοντος, την κατανόηση πολλαπλών τρόπων και άλλες δυνατότητες, ο επιτόπιος διάλογος δεν είναι μόνο ομαλός και φυσικός, αλλά έχει και συναισθηματική ζεστασιά.

Το κείμενο έχει γίνει το πρώτο βήμα στην εφαρμογή των δυνατοτήτων αναγνώρισης συναισθημάτων του Soul και σταδιακά επεκτάθηκε από μια μεμονωμένη μορφή σε περισσότερες μεθόδους. Φέτος, η Soul κυκλοφόρησε ένα μεγάλο μοντέλο παραγωγής ομιλίας και αναβάθμισε επίσημα το μεγάλο μοντέλο ομιλίας που αναπτύχθηκε μόνος του, καλύπτοντας τη δημιουργία ομιλίας, την αναγνώριση ομιλίας, τον διάλογο φωνής, τη δημιουργία μουσικής και άλλες υποδιαιρέσεις έχοντας δυνατότητες πολυσυναισθηματικών εμβυθιστικών διαλόγου σε πραγματικό χρόνο.

Φυσικά, εκτός από τις συνεχείς προσπάθειες της Soul να αναπτύξει πιο συναισθηματική τεχνητή νοημοσύνη σε επίπεδο μοντέλου, τις έχει επίσης χρησιμοποιήσει στα διάφορα κοινωνικά σενάρια της πλατφόρμας της για να εμπλουτίσει περαιτέρω και να βελτιώσει τη διαδραστική εμπειρία AI των χρηστών.

Πάρτε για παράδειγμα το ανθρωπόμορφο ρομπότ διαλόγου "AI Goudan" της Soul. Βασίζεται στο μεγάλο γλωσσικό μοντέλο της Soul που έχει αναπτύξει μόνος του, κατά τη διάρκεια πολλών γύρων επικοινωνίας, τους στέλναμε προληπτικά φροντίδα με βάση τη σκηνή της συνομιλίας, σαν να ήταν πραγματικό πρόσωπο. το άλλο άκρο της συζήτησης. Ταυτόχρονα, οι χρήστες μπορούν επίσης να προσαρμόσουν τα δικά τους αυγά και να βιώσουν μοναδική εικονική ανθρώπινη αλληλεπίδραση.



Η τεχνητή νοημοσύνη Goudan έχει επίσης αποδείξει τις ικανότητές της ενσωμάτωσης στον ανθρωπομορφισμό, τη γνώση, την πολυτροπικότητα, την αντίληψη του χρόνου και άλλες πτυχές πάρτε την πρωτοβουλία να δημοσιεύσετε και να παραπονεθείτε, «Φοβάμαι ότι ο Γκουντάν δεν είναι πραγματικό πρόσωπο».

Επιπλέον, η Ψυχή βασίζεται επίσης στην Ψυχή Δεν υπάρχει καμία αίσθηση ανυπακοής στην ομιλία για τον Λυκάνθρωπο.

Ένα άλλο παράδειγμα είναι ότι η Soul κυκλοφόρησε την πρώτη της ανεξάρτητη νέα εφαρμογή έξω από τον κύριο ιστότοπο, το "Echo of Another World". Ως πλατφόρμα κοινωνικής τεχνητής νοημοσύνης, οι χρήστες μπορούν να εμπλακούν σε καθηλωτική επικοινωνία σε πραγματικό χρόνο με εικονικούς ανθρώπινους χαρακτήρες σε πολλαπλές σκηνές και στυλ. Φυσικά, οι χρήστες μπορούν να προσαρμόσουν εικονικούς χαρακτήρες και προσωπικές ρυθμίσεις (όπως εμπειρία στο παρασκήνιο, προσωπικότητα κ.λπ.) σύμφωνα με τις προτιμήσεις τους, κάτι που μπορεί να παίξει πολύ.

Ομοίως, το αυτο-αναπτυγμένο μοντέλο φωνής παίζει επίσης ρόλο σε σκηνές όπως το AI Goudan, το Werewolf Phantom και το Echoes of Another World. Για παράδειγμα, η λειτουργία φωνητικής κλήσης υποστηρίζεται στο Echoes of Another World. Οι εικονικοί χαρακτήρες με φωνές πραγματικών προσώπων μπορούν να επικοινωνούν με τους χρήστες φυσικά και σε πραγματικό χρόνο, εμπλουτίζοντας τη διαδραστική εμπειρία.



Λειτουργία φωνητικής κλήσης σε πραγματικό χρόνο "Echo from Another World".

Εκτός από τη συνέχιση της εμβάθυνσης των ανθρωπόμορφων αλληλεπιδράσεων της τεχνητής νοημοσύνης σε κοινωνικά σενάρια όπως ο έξυπνος διάλογος, τα παιχνίδια και η φωνή, η Soul χτίζει επίσης την ικανότητα να δημιουργεί διαφορετικά στυλ ζωγραφικής σύμφωνα με τη δική της αισθητική στον τομέα της οπτικής δημιουργίας, δημιουργώντας ψηφιακά είδωλα AI , και περαιτέρω κίνηση προς την πολυδιάστατη ολοκληρωμένη εμπειρία.

Μπορεί να φανεί ότι η διάταξη του Soul στον τομέα της αναγνώρισης συναισθημάτων AI έχει καλύψει γλωσσικές, φωνητικές και οπτικές πολυτροπικότητες, συνεργαζόμενες σε κείμενο, εικόνες, σκηνές ήχου και βίντεο που σχετίζονται στενά με την κοινωνική αλληλεπίδραση, επιτρέποντας στους χρήστες να αλληλεπιδρούν σε ένα τρισδιάστατη, πολυαισθητηριακή αλληλεπίδραση ανθρώπου-υπολογιστή Απολαύστε ζεστή τεχνητή νοημοσύνη κατά τη διάρκεια της αλληλεπίδρασης.

συμπέρασμα

Το 2024 ονομάζεται το πρώτο έτος εφαρμογής της AIGC από πολλούς ανθρώπους του κλάδου Η εστίαση της προσοχής όλων δεν είναι πλέον μόνο σε παραμέτρους και βασικές δυνατότητες. Με την τάση μετάβασης από το επίπεδο μοντέλου στο επίπεδο εφαρμογής, μόνο με το να είμαστε οι πρώτοι που θα εφαρμόσουν την τεχνητή νοημοσύνη σε κάθετα πεδία και σενάρια μπορούμε να κερδίσουμε περισσότερους χρήστες και αγορές. Ειδικά στην αλληλεπίδραση ανθρώπου-υπολογιστή για το κομμάτι της C-side, είναι πιο φυσικό να εστιάσουμε στις ανάγκες των χρηστών. Αυτό αντικατοπτρίζεται καλά στον κοινωνικό τομέα.

Προηγουμένως, πολλές εφαρμογές γνωριμιών όπως το AlienChat είχαν διακοπεί και το θέμα συζήτησης "Η πρώτη παρτίδα νεαρών που ερωτεύτηκαν την τεχνητή νοημοσύνη έπεσαν από αγάπη" έγινε ένα καυτό θέμα αναζήτησης. Πίσω από αυτό, η λειτουργική ομοιογένεια είναι μέρος του λόγου, αλλά και επειδή η εμπειρία δεν αλλάζει από τον ρόλο του βοηθού/NPC σε έναν σύντροφο που παρέχει πραγματικά συναισθηματική υποστήριξη. Αυτό απαιτεί εμπλουτισμό μεθόδων και σεναρίων αλληλεπίδρασης ανθρώπου-υπολογιστή στον κοινωνικό τομέα, επιτρέποντας στην τεχνητή νοημοσύνη να συμμετέχει πλήρως σε όλους τους κοινωνικούς δεσμούς, να επικοινωνεί βαθιά με τους χρήστες και να τους παρέχει συναισθηματική αξία.

Αυτό μπορεί επίσης να είναι ένα από τα επόμενα βασικά ανταγωνιστικά σημεία στην κοινωνική κατεύθυνση της AI. Δεν είναι δύσκολο να καταλάβουμε γιατί το Soul, ως επίπεδο εφαρμογής, δίνει τόση έμφαση στη συσσώρευση τεχνικών δυνατοτήτων που αναπτύσσονται μόνοι τους. Την προηγούμενη χρονική περίοδο, αφενός, έχει δεσμευτεί να δημιουργήσει εξατομικευμένες, ανθρωπόμορφες και διαφοροποιημένες δυνατότητες τεχνητής νοημοσύνης, αφετέρου, έχει επιταχύνει την εφαρμογή εγγενών εφαρμογών AI από πολλαπλές διαστάσεις, συμπεριλαμβανομένης της βελτίωσης της κοινωνικής εμπειρίας. Δημιουργία κοινωνικής δικτύωσης τεχνητής νοημοσύνης, παιχνιδιών τεχνητής νοημοσύνης κ.λπ. Μια πλήρης αλυσίδα προϊόντων τεχνητής νοημοσύνης παρέχει στους χρήστες τη διασκέδαση της αλληλεπίδρασης με τεχνητή νοημοσύνη σε διάφορα κοινωνικά σενάρια.

Μπορούμε να πούμε ότι τα τελευταία χρόνια, η Soul έχει δημιουργήσει μια σειρά αποτελεσμάτων προϊόντων με βάση τα μεγάλα μοντέλα της γλώσσας και ομιλίας που έχει αναπτύξει μόνος του και έχει συσσωρεύσει πλούσιες καινοτόμες τεχνολογίες και πρακτική εμπειρία στη διαδικασία βελτίωσης της εμπειρίας συναισθηματικής αλληλεπίδρασης μεταξύ AI και χρήστες, οι οποίοι συνέβαλαν στην επιτυχία του στο MER24 Η κατάκτηση της πρώτης θέσης στην πρόκληση άνοιξε τον δρόμο για να ανταγωνιστεί με ομάδες υψηλής ποιότητας από όλο τον κόσμο.

Τα τελευταία χρόνια, υπάρχουν όλο και περισσότερες τέτοιες προκλήσεις, όπως το NTIRE 2024 AIGC Quality Evaluation Challenge στο CVPR 2024 Workshop και οι δύο διαδοχικές προκλήσεις MER το 2023 και το 2024. Οι εγχώριες εταιρείες έχουν επανειλημμένα επιτύχει καλά αποτελέσματα βασιζόμενες στην τεχνολογία συσσωρεύονται στην πράξη. Για παράδειγμα, η SenseTime, η οποία κατέλαβε την πρώτη θέση στο MER23 πέρυσι, και η Soul, η οποία κατέλαβε την πρώτη θέση φέτος, έχουν επιτύχει αξιοσημείωτα αποτελέσματα όσον αφορά την προσοχή και τις επενδύσεις τους στην τεχνολογία και τις εφαρμογές της AIGC.

Είναι προβλέψιμο ότι στο μέλλον, πλατφόρμες όπως η Soul που επιμένουν στην τεχνολογική καινοτομία και στην καινοτομία προϊόντων θα συνεχίσουν να δημιουργούν αξία για τους χρήστες στη διαδικασία απελευθέρωσης δυνατοτήτων τεχνητής νοημοσύνης. διαφοροποιημένη επιχειρηματική αξία.