νέα

Η νέα μέθοδος έρευνας και ανάπτυξης της Meta: ενσωμάτωση μοντέλων τεχνητής νοημοσύνης γλώσσας και διάχυσης για μείωση του όγκου των υπολογισμών, βελτίωση της υπολογιστικής απόδοσης και βελτιστοποίηση της παραγωγής εικόνων

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Το IT House ανέφερε στις 24 Αυγούστου ότι η Meta AI Company κυκλοφόρησε πρόσφατα μια νέα μέθοδο που ονομάζεται Transfusion, η οποία μπορεί να συνδυάσει μοντέλα γλώσσας και μοντέλα παραγωγής εικόνας σε ένα ενοποιημένο σύστημα AI.

Το IT Home ανέφερε ότι η ομάδα είπε ότι το Transfusion συνδυάζει τα πλεονεκτήματα των μοντέλων γλώσσας στην επεξεργασία διακριτών δεδομένων όπως το κείμενο και την ικανότητα των μοντέλων διάχυσης να δημιουργούν συνεχή δεδομένα όπως εικόνες.

Ο Meta εξηγεί ότι τα τρέχοντα συστήματα δημιουργίας εικόνων συνήθως χρησιμοποιούν προεκπαιδευμένους κωδικοποιητές κειμένου για την επεξεργασία λέξεων υπόδειξης εισόδου, οι οποίες στη συνέχεια συνδυάζονται με ένα ξεχωριστό μοντέλο διάχυσης για τη δημιουργία εικόνων.

Πολλά πολυτροπικά μοντέλα γλωσσών λειτουργούν με παρόμοιο τρόπο, συνδυάζοντας προεκπαιδευμένα μοντέλα κειμένου με εξειδικευμένους κωδικοποιητές για άλλες μεθόδους.

Ωστόσο, το Transfusion χρησιμοποιεί μια ενιαία αρχιτεκτονική Transformer που είναι κατάλληλη για όλες τις λειτουργίες και εκτελεί εκπαίδευση από άκρο σε άκρο σε δεδομένα κειμένου και εικόνας. Το κείμενο και οι εικόνες χρησιμοποιούν διαφορετικές συναρτήσεις απώλειας: το κείμενο χρησιμοποιεί την πρόβλεψη του επόμενου διακριτικού και οι εικόνες χρησιμοποιούν τη διάχυση.

Για την ταυτόχρονη επεξεργασία κειμένου και εικόνων, οι εικόνες μετατρέπονται σε ακολουθίες θραυσμάτων εικόνας. Με αυτόν τον τρόπο, το μοντέλο μπορεί να επεξεργάζεται ετικέτες κειμένου και θραύσματα εικόνας ταυτόχρονα σε μια ακολουθία και μια ειδική μάσκα προσοχής επιτρέπει στο μοντέλο να καταγράφει τις σχέσεις μέσα στην εικόνα.

Διαφορετικά από τις υπάρχουσες μεθόδους της Meta όπως το Chameleon (που μετατρέπει τις εικόνες σε διακριτούς δείκτες και στη συνέχεια τις επεξεργάζεται με τον ίδιο τρόπο όπως το κείμενο), το Transfusion διατηρεί τη συνεχή αναπαράσταση των εικόνων και αποφεύγει την απώλεια πληροφοριών που προκαλείται από την κβαντοποίηση.

Τα πειράματα δείχνουν επίσης ότι το Fusion κλιμακώνεται πιο αποτελεσματικά από παρόμοιες μεθόδους. Όσον αφορά τη δημιουργία εικόνων, επιτυγχάνει παρόμοια αποτελέσματα με εξειδικευμένα μοντέλα, αλλά με σημαντικά λιγότερη υπολογιστική προσπάθεια, και παραδόξως, η ενσωμάτωση δεδομένων εικόνας βελτιώνει επίσης τις δυνατότητες επεξεργασίας κειμένου.

Οι ερευνητές εκπαίδευσαν ένα μοντέλο 7 δισεκατομμυρίων παραμέτρων σε 2 τρισεκατομμύρια ετικέτες κειμένου και εικόνας. Το μοντέλο επιτυγχάνει παρόμοια αποτελέσματα με ώριμα συστήματα όπως το DALL-E 2 στη δημιουργία εικόνων, ενώ παράλληλα επεξεργάζεται κείμενο.