Το Generative AI μπορεί να εισάγει την επόμενη τάση: TTT model

Η γενετική τεχνητή νοημοσύνη μπορεί να εισαγάγει την επόμενη τάση: το μοντέλο TTT

2024-07-18

Το επίκεντρο της επόμενης γενιάς γενετικής τεχνητής νοημοσύνης (AI) μπορεί να είναι τα μοντέλα εκπαίδευσης σε χρόνο δοκιμής ή εν συντομία TTT.

Η αρχιτεκτονική του Transformers είναι το θεμέλιο του μοντέλου βίντεο του OpenAI Sora και ο πυρήνας των μοντέλων παραγωγής κειμένου όπως το Anthropic's Claude, το Gemini της Google και το εμβληματικό μοντέλο GPT-4o του OpenAI. Αλλά τώρα, η εξέλιξη αυτών των μοντέλων αρχίζει να πλήττει τεχνικά εμπόδια, ειδικά εκείνα που σχετίζονται με τους υπολογιστές. Επειδή οι μετασχηματιστές δεν είναι ιδιαίτερα αποτελεσματικοί στην επεξεργασία και την ανάλυση μεγάλων ποσοτήτων δεδομένων, τουλάχιστον όταν εκτελούνται σε μη διαθέσιμο υλικό. Οι επιχειρήσεις κατασκευάζουν και επεκτείνουν τις υποδομές για να καλύψουν τις ανάγκες των Transformers, γεγονός που έχει ως αποτέλεσμα μια δραματική αύξηση της ζήτησης ενέργειας που μπορεί να μην είναι σε θέση να καλύψει με βιώσιμο τρόπο τη ζήτηση.

Αυτόν τον μήνα ερευνητές από το Πανεπιστήμιο του Στάνφορντ, το UC San Diego, το UC Berkeley και το Meta ανακοίνωσαν από κοινού ότι πέρασαν ενάμιση χρόνο στην ανάπτυξη της αρχιτεκτονικής TTT. Η ερευνητική ομάδα ισχυρίζεται ότι το μοντέλο TTT όχι μόνο μπορεί να χειριστεί πολύ περισσότερα δεδομένα από τα Transformers, αλλά επίσης δεν καταναλώνει τόση υπολογιστική ισχύ όπως τα Transformers.

Γιατί οι ξένοι πιστεύουν ότι το μοντέλο TTT είναι πιο ελπιδοφόρο από τα Transformers; Το πρώτο πράγμα που πρέπει να καταλάβετε είναι ότι ένα θεμελιώδες στοιχείο των Transformers είναι η "κρυφή κατάσταση", η οποία είναι ουσιαστικά μια μακρά λίστα δεδομένων. Όταν ο Μετασχηματιστής επεξεργάζεται κάτι, προσθέτει καταχωρήσεις στην κρυφή κατάσταση για να "θυμάται" αυτό που μόλις επεξεργάστηκε. Για παράδειγμα, εάν το μοντέλο επεξεργάζεται ένα βιβλίο, η τιμή κρυφής κατάστασης θα είναι η αναπαράσταση μιας λέξης (ή μέρους μιας λέξης).

Ο Yu Sun, μεταδιδακτορικός υπότροφος στο Πανεπιστήμιο του Στάνφορντ που συμμετείχε στην προαναφερθείσα έρευνα TTT, εξήγησε πρόσφατα στα μέσα ενημέρωσης ότι εάν ο Μετασχηματιστής θεωρείται ως μια έξυπνη οντότητα, τότε ο πίνακας αναζήτησης και η κρυφή του κατάσταση είναι ο εγκέφαλος του Μετασχηματιστή. Αυτός ο εγκέφαλος εφαρμόζει μερικά από τα γνωστά χαρακτηριστικά του Transformer, όπως η μάθηση με βάση τα συμφραζόμενα.

Η κρυφή κατάσταση βοηθά τους Transformers να γίνουν ισχυροί, αλλά επίσης εμποδίζει την ανάπτυξη των Transformers. Για παράδειγμα, το Transformers μόλις διάβασε ένα βιβλίο Για να «πει» έστω και μία λέξη σε αυτό το βιβλίο, το μοντέλο Transformers πρέπει να σαρώσει ολόκληρο τον πίνακα αναζήτησης.

Έτσι, ο Sun και άλλοι ερευνητές στο TTT σκέφτηκαν να αντικαταστήσουν τις κρυφές καταστάσεις με μοντέλα μηχανικής μάθησης - όπως οι κούκλες φωλιάσματος του AI, ένα μοντέλο μέσα σε ένα μοντέλο. Σε αντίθεση με τους πίνακες αναζήτησης του Transformers, το εσωτερικό μοντέλο μηχανικής εκμάθησης του μοντέλου TTT δεν αναπτύσσεται καθώς επεξεργάζονται περισσότερα δεδομένα. Αντίθετα, κωδικοποιεί τα επεξεργασμένα δεδομένα σε αντιπροσωπευτικές μεταβλητές που ονομάζονται βάρη, γι' αυτό το μοντέλο TTT έχει υψηλή απόδοση. Ανεξάρτητα από το πόσα δεδομένα επεξεργάζεται ένα μοντέλο TTT, το μέγεθος του εσωτερικού του μοντέλου δεν αλλάζει.

Η Sun πιστεύει ότι τα μελλοντικά μοντέλα TTT μπορούν να επεξεργαστούν αποτελεσματικά δισεκατομμύρια κομμάτια δεδομένων, από λέξεις έως εικόνες, από ηχογραφήσεις έως βίντεο. Αυτό είναι πολύ πέρα από τις δυνατότητες των υπαρχόντων μοντέλων. Το σύστημα του TTT μπορεί να πει Χ λέξεις σε ένα βιβλίο χωρίς να χρειάζεται να κάνει τον περίπλοκο υπολογισμό του να ξαναδιαβάσει Χ φορές το βιβλίο. "Μοντέλα βίντεο μεγάλης κλίμακας που βασίζονται σε Transformers, όπως το Sora, μπορούν να χειριστούν μόνο βίντεο 10 δευτερολέπτων, επειδή έχουν μόνο "εγκέφαλο" πίνακα αναζήτησης. Ο απώτερος στόχος μας είναι να αναπτύξουμε ένα σύστημα που να μπορεί να χειρίζεται μεγάλα βίντεο παρόμοια με την οπτική εμπειρία στην ανθρώπινη ζωή»

Τα μοντέλα TTT θα αντικαταστήσουν τελικά τους μετασχηματιστές; Τα μέσα ενημέρωσης πιστεύουν ότι αυτό είναι δυνατό, αλλά είναι πολύ νωρίς για να βγάλουμε συμπεράσματα τώρα. Το μοντέλο TTT δεν αντικαθιστά άμεσα τα Transformers αυτήν τη στιγμή. Οι ερευνητές ανέπτυξαν μόνο δύο μικρά μοντέλα για τη μελέτη, επομένως είναι επί του παρόντος δύσκολο να συγκριθεί το TTT με τα αποτελέσματα που επιτυγχάνονται από ορισμένα από τα μεγαλύτερα μοντέλα Transformers.

Ο Mike Cook, ανώτερος λέκτορας στο Τμήμα Πληροφορικής στο King's College του Λονδίνου, ο οποίος δεν συμμετείχε στην προαναφερθείσα μελέτη TTT, σχολίασε ότι το TTT είναι μια πολύ ενδιαφέρουσα καινοτομία, αν τα δεδομένα υποστηρίζουν την ιδέα ότι μπορεί να βελτιώσει την αποτελεσματικότητα , αλλά δεν μπορεί να πει Είναι το TTT καλύτερο από την υπάρχουσα αρχιτεκτονική; Ο Κουκ είπε ότι όταν ήταν προπτυχιακός, ένας παλιός καθηγητής έλεγε συχνά ένα αστείο: Πώς λύνεις οποιοδήποτε πρόβλημα στην επιστήμη των υπολογιστών; Προσθέστε ένα άλλο επίπεδο αφαίρεσης. Η προσθήκη ενός νευρωνικού δικτύου σε ένα νευρωνικό δίκτυο του θύμισε τη λύση σε αυτό το αστείο.

Νέα

Η γενετική τεχνητή νοημοσύνη μπορεί να εισαγάγει την επόμενη τάση: το μοντέλο TTT

Εισαγωγή

τα στοιχεία επικοινωνίας μου