Νέα

Το Oxbridge δεν κατάφερε να «δηλητηριάσει» την τεχνητή νοημοσύνη και εμφανίστηκε στο εξώφυλλο του Nature 9 φορές, πυροδοτώντας έντονες συζητήσεις στους ακαδημαϊκούς κύκλους

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  Νέα Έκθεση Σοφίας

Επιμέλεια: Αινείας τόσο νυσταγμένος
[Εισαγωγή στη Νέα Σοφία] Το έγγραφο της Οξφόρδης και του Κέμπριτζ για εννέα δηλητηριάσεις που προκάλεσαν την κατάρρευση του μοντέλου έχει δεχθεί πολλές επικρίσεις: Μπορεί επίσης να συμπεριληφθεί στο Nature; Αυτό έχει συζητηθεί περαιτέρω σε ακαδημαϊκούς κύκλους, και όλοι έχουν την ίδια άποψη: τα συνθετικά δεδομένα θεωρούνται από πολλούς ως πανάκεια, αλλά δεν υπάρχει δωρεάν γεύμα στον κόσμο.

Στην εποχή της AI, τα δεδομένα είναι το νέο λάδι. Σε μια εποχή που τα παγκόσμια ανθρώπινα δεδομένα εξαντλούνται σταδιακά, είναι τα συνθετικά δεδομένα το μέλλον μας;
Η πρόσφατη διαμάχη που προκλήθηκε από ένα χαρτί στο εξώφυλλο του Nature μας έκανε να καταλάβουμε: αυτό που είναι σημαντικό δεν είναι τα «συνθετικά δεδομένα», αλλά «η σωστή χρήση των συνθετικών δεδομένων».
Την Πέμπτη, μια εφημερίδα από την Οξφόρδη, το Κέμπριτζ, το Imperial College, το Πανεπιστήμιο του Τορόντο και άλλα ιδρύματα εμφανίστηκε στο εξώφυλλο του Nature.
Ωστόσο, αυτό που οι άνθρωποι δεν περίμεναν ήταν ότι μόλις δημοσιεύτηκε το έγγραφο, προκάλεσε πολλές συζητήσεις στην κοινότητα της AI.
Μερικοί άνθρωποι πιστεύουν ότι ο πυρήνας του προβλήματος δεν είναι τα "συνθετικά δεδομένα" αλλά η "ποιότητα δεδομένων".
Ακόμα κι αν χρησιμοποιηθούν όλα τα τεχνητά δεδομένα, αν η ποιότητα είναι πολύ κακή, το αποτέλεσμα θα είναι "σκουπίδια μέσα, σκουπίδια έξω".
Μερικοί άνθρωποι πιστεύουν ακόμη και ότι οι ερευνητές υιοθέτησαν σκόπιμα μεθόδους που δεν ταιριάζουν με την πραγματική λειτουργία και είναι στην πραγματικότητα «μεγάλες».
Από αυτή την άποψη, ο καθηγητής Ma Yi είπε ότι τώρα έχουμε εισέλθει σε μια εποχή που στερείται επιστημονικών ιδεών και μεθόδων——
Πολλές μελέτες δεν είναι τίποτα άλλο από την εκ νέου ανακάλυψη κάποιας επιστημονικής κοινής λογικής.

Πώς να αποφύγετε τη συντριβή του μοντέλου;


Το ερώτημα λοιπόν είναι πώς μπορούμε να αποφύγουμε την κατάρρευση του μοντέλου όταν χρησιμοποιούμε AI για τη σύνθεση δεδομένων;

Τα υβριδικά δεδομένα είναι το μέλλον

Για αυτό το άρθρο στο εξώφυλλο του Nature, ο Alexandr Wang, CEO της Scale AI, συμφωνεί βαθιά.
Είπε ότι η χρήση καθαρά συνθετικών δεδομένων για την εκπαίδευση μοντέλων δεν θα φέρει κέρδος πληροφοριών.
Συνήθως, όταν μια μέτρηση αξιολόγησης ανεβαίνει λόγω αυτο-απόσταξης, είναι πιθανότατα λόγω κάποιων πιο λεπτών αντισταθμίσεων:
  • Τα συνθετικά δεδομένα μπορούν να βελτιώσουν τις εκτιμήσεις βραχυπρόθεσμα, αλλά στη συνέχεια πληρώνετε το τίμημα για την κατάρρευση του μοντέλου
  • Συσσωρεύετε αόρατο χρέος κατά τη διαδικασία εκπαίδευσης ή τελειοποίησης του μοντέλου, το οποίο θα είναι δύσκολο να αποπληρωθεί

Συγκεκριμένα, σε διαδοχικές γενιές συνθετικής εκπαίδευσης, τα λάθη προέρχονται κυρίως από τρεις πτυχές:
  • σφάλμα στατιστικής προσέγγισης
  • σφάλμα λειτουργικής εκφραστικότητας
  • λειτουργικό σφάλμα προσέγγισης

Δηλαδή, κάθε φορά που εκπαιδεύετε ένα νέο μοντέλο χρησιμοποιώντας δεδομένα που δημιουργήθηκαν από το προηγούμενο μοντέλο, χάνετε κάποιες πληροφορίες και ακρίβεια, με αποτέλεσμα το μοντέλο να γίνεται όλο και πιο κοίλο και τελικά να σταματήσει να λειτουργεί σωστά.
Αν και αυτά τα πειράματα πραγματοποιήθηκαν σε ένα μοντέλο μικρής κλίμακας (100M παράμετροι), τα βασικά αποτελέσματα που παρατηρήθηκαν θα εμφανιστούν και σε μοντέλα μεγαλύτερης κλίμακας με την πάροδο του χρόνου.
Για παράδειγμα, τα περισσότερα μοντέλα σήμερα δεν μπορούν να δημιουργήσουν αναρτήσεις ιστολογίου τύπου Slate Star Codex, και πάλι λόγω σφαλμάτων μοντέλων. Καθώς εκπαιδεύουμε συνεχώς μοντέλα, χάνουν σταδιακά την ικανότητα να κάνουν προβλέψεις σε μια ευρεία διανομή.
Κατά την άποψη του Wang, τα Hybrid Data είναι η μελλοντική κατεύθυνση ανάπτυξης, η οποία μπορεί να αποφύγει όλα τα ακανθώδη προβλήματα που σχετίζονται με την κατάρρευση του μοντέλου.
Δηλαδή, κατά τη διαδικασία σύνθεσης δεδομένων, πρέπει να δημιουργηθούν μέσω κάποιας νέας πηγής πληροφοριών:

(1) Χρησιμοποιήστε δεδομένα πραγματικού κόσμου ως σπόρους

(2) Συμμετέχουν ειδικοί στον άνθρωπο

(3) Τυπική λογική μηχανή
Αντίθετα, οι προγραμματιστές που εκπαιδεύουν κατά λάθος τα μοντέλα τους σε συνθετικά δεδομένα χωρίς κέρδος πληροφοριών θα διαπιστώσουν τελικά ότι τα μοντέλα τους γίνονται όλο και πιο περίεργα και ανόητα με την πάροδο του χρόνου.

Η ενισχυτική μάθηση είναι το μόνο που χρειάζεστε

Ερευνητές από το Meta, το Πανεπιστήμιο της Νέας Υόρκης και το Πανεπιστήμιο του Πεκίνου έχουν προτείνει μια μέθοδο "ανατροφοδότησης κατάταξης-κλάδεμα" μέσω ανθρώπων ή ασθενέστερων μοντέλων που μπορεί να αποκαταστήσει ή ακόμα και να ξεπεράσει την αρχική απόδοση του μοντέλου.
Σχετικά με αυτήν την έρευνα, ο LeCun τη διαβίβασε επίσης για να εκφράσει την υποστήριξή του.
Όπως όλοι γνωρίζουμε, είναι πολύ πιο εύκολο για τους ανθρώπους και τις μηχανές να διακρίνουν τα καλά από τα κακά παραδείγματα παρά να παράγουν δείγματα υψηλής ποιότητας από την αρχή.
Με βάση αυτό, ο συγγραφέας προτείνει μια ολοκαίνουργια μέθοδο για την αποφυγή της κατάρρευσης του μοντέλου μέσω της ανατροφοδότησης συνθετικών δεδομένων.

Για να διερευνήσουν αυτό το ερώτημα, οι συγγραφείς παρέχουν πρώτα αναλυτικά αποτελέσματα σε ένα θεωρητικό πλαίσιο.
Εδώ, οι συγγραφείς προτείνουν μοντέλα Gaussian μείγματος και γραμμικά μοντέλα στο όριο υψηλών διαστάσεων ως ταξινομητές και αφήνουν έναν επαληθευτή (π.χ. άνθρωπο ή μαντείο) να επιλέξει ή να περικόψει τα δεδομένα που δημιουργούνται.
Τα αποτελέσματα δείχνουν ότι όταν ο αριθμός των συνθετικών σημείων δεδομένων πλησιάζει το άπειρο, τα μοντέλα που εκπαιδεύονται σε επιλεγμένα δεδομένα μπορούν να επιτύχουν βέλτιστα αποτελέσματα συγκρίσιμα με εκείνα που έχουν εκπαιδευτεί σε ακατέργαστα δεδομένα.
Οι προσομοιώσεις σε συνθετικά δεδομένα δείχνουν ότι η εποπτεία του μαντείου παράγει σταθερά σχεδόν βέλτιστα αποτελέσματα σε σύγκριση με τη χρήση ακατέργαστων σχολιασμών.
Επιπλέον, δεδομένου ότι η διάκριση δεδομένων υψηλής ποιότητας μέσω ανθρώπινης επίβλεψης είναι απλούστερη και φθηνότερη από τον άμεσο ανθρώπινο σχολιασμό, αυτό παρέχει ισχυρές αποδείξεις για την αποτελεσματικότητα της ανθρώπινης επίβλεψης.
Ένα μοντέλο μείγματος Gauss με γραμμική γεννήτρια και γραμμικό κλαδευτήρι: το κλαδευτήρι βελτιώνει την απόδοση ενισχύοντας επιλεκτικά συνθετικά δεδομένα
Στη συνέχεια, οι συγγραφείς διεξήγαγαν δύο μεγάλης κλίμακας πειράματα:
1. Εκπαιδεύστε τον Μετασχηματιστή σε μια αριθμητική εργασία (πρόβλεψη ιδιοτιμής μήτρας) και χρησιμοποιήστε την απόσταση από την πραγματική τιμή για να κλαδέψετε μεγάλες ποσότητες συνθετικών δεδομένων
2. Σύνοψη ειδήσεων με χρήση μοντέλου μεγάλης γλώσσας (Llama 2) και περιορισμένων συνθετικών δεδομένων
Τα αποτελέσματα δείχνουν ότι και στις δύο περιπτώσεις, η εξάρτηση αποκλειστικά από τα δεδομένα που δημιουργούνται οδηγεί σε υποβάθμιση της απόδοσης και σφάλματα του μοντέλου, ακόμη και όταν αυξάνεται ο όγκος των δεδομένων.
Επιπλέον, η επιλογή της καλύτερης λύσης από τη δεξαμενή παραγωγής με βάση μόνο την αμηχανία δεν βελτιώνει την απόδοση, δηλαδή το ίδιο το μοντέλο δεν έχει τη δυνατότητα να επιλέξει την καλύτερη πρόβλεψη με βάση την αμηχανία.
Αντίθετα, υπό την επίβλεψη του Oracle, μπορεί να ληφθεί ένα συνθετικό σύνολο δεδομένων ενισχυμένο με ανατροφοδότηση του οποίου η απόδοση υπερβαίνει εκείνη του αρχικού συνόλου δεδομένων καθώς αυξάνεται ο όγκος των δεδομένων.

Η αύξηση του ανθρώπου και του μοντέλου βελτιώνει την απόδοση και αποτρέπει την υποβάθμιση της απόδοσης χωρίς αύξηση
Επομένως, όταν εκπαιδεύετε ένα νέο μοντέλο με συνθετικά δεδομένα, όχι μόνο θα πρέπει να εστιάσετε στην ποιότητα της γεννήτριας, αλλά χρειάζεστε επίσης έναν επαληθευτή υψηλής ποιότητας για την επιλογή των δεδομένων.
Για να το συνοψίσω σε μια φράση: η ενίσχυση είναι το μόνο που χρειάζεστε!

Πραγματικά δεδομένα + συνθετικά δεδομένα

Σχετικά με τα παράπονα των αναγνωστών σχετικά με αυτό το εξώφυλλο του Nature, ο Rylan Schaeffer, διδακτορικός φοιτητής στο Πανεπιστήμιο του Στάνφορντ, εξέφρασε την κατανόησή του.
Σημείωσε ότι η κατάρρευση του μοντέλου συμβαίνει συχνά όταν οι ερευνητές υιοθετούν σκόπιμα μεθόδους που δεν ταιριάζουν με την πραγματική πρακτική.
Η συσσώρευση δεδομένων μπορεί ή όχι να καταρρεύσει, όλα εξαρτώνται από τις συγκεκριμένες επιχειρησιακές λεπτομέρειες.
你们故意把它弄崩溃,它当然就会崩溃了。😂
Στο έγγραφο, το οποίο συνυπογράφουν οι Stanford, Maryland και MIT, ο Schaeffer εξετάζει πώς η συσσώρευση δεδομένων επηρεάζει την κατάρρευση του μοντέλου.
Μετά από πειράματα, επιβεβαίωσαν ότι η αντικατάσταση των αρχικών πραγματικών δεδομένων με συνθετικά δεδομένα σε κάθε γενιά θα προκαλούσε πράγματι την κατάρρευση του μοντέλου.
Ωστόσο, η κατάρρευση μοντέλου μπορεί να αποφευχθεί εάν συγκεντρωθούν διαδοχικές γενιές συνθετικών δεδομένων μαζί με τα αρχικά πραγματικά δεδομένα.

Διεύθυνση χαρτιού: https://arxiv.org/abs/2404.01413
Στην πράξη, οι μελλοντικές γενιές LLM θα εκπαιδεύονται σε αυξανόμενες ποσότητες δεδομένων με την πάροδο του χρόνου. Για παράδειγμα, το Llama 1 απαιτεί 1,4 τρισεκατομμύρια μάρκες, το Llama 2 απαιτεί 2 τρισεκατομμύρια μάρκες και το Llama 3 απαιτεί 15 τρισεκατομμύρια μάρκες.
Κατά μία έννοια, αυτή η ρύθμιση συσσώρευσης δεδομένων είναι εξαιρετικά απαισιόδοξη——
Σε αυτό το υποθετικό μέλλον, τα συνθετικά δεδομένα απορρίπτονται ανεξέλεγκτα στο διαδίκτυο για να χρησιμοποιηθούν για την εκπαίδευση της επόμενης επανάληψης του μοντέλου.

Όπως φαίνεται στη δεξιά πλευρά του σχήματος, η συσσώρευση δεδομένων μπορεί να αποφύγει την κατάρρευση του μοντέλου
Οι ερευνητές χρησιμοποίησαν τρεις διαφορετικές πειραματικές ρυθμίσεις: αιτιακό μετασχηματιστή, μοντέλο διάχυσης και κωδικοποιητή αυτόματης μεταβλητής και εκπαιδεύτηκαν σε σύνολα δεδομένων πραγματικού κειμένου, μοριακής διαμόρφωσης και εικόνας αντίστοιχα.
Διαπίστωσαν ότι η αντικατάσταση δεδομένων προκάλεσε κατάρρευση μοντέλου για όλα τα μοντέλα και για όλα τα σύνολα δεδομένων, ενώ η συσσώρευση δεδομένων απέτρεψε την κατάρρευση του μοντέλου.
Αιτιακή μοντελοποίηση γλώσσας με βάση το Transformer
Πρώτα, εκπαίδευσαν τον αιτιώδη μετασχηματιστή σε δεδομένα κειμένου.
Συγκεκριμένα, η παράμετρος 9M GPT-2 μιας μεμονωμένης εποχής και το μοντέλο γλώσσας Llama 2 των παραμέτρων 12M, 42M και 125M είχαν προεκπαιδευτεί σε TinyS-tories.
Το πρώτο είναι ένα σύνολο δεδομένων σύντομης ιστορίας 470 εκατομμυρίων συμβολαίων που δημιουργήθηκε από το GPT-3.5/4 σε επίπεδο ανάγνωσης νηπιαγωγείου.
Για κάθε επανάληψη προσαρμογής μοντέλου n ≥ 2, δειγματίζουμε ένα νέο σύνολο δεδομένων ίδιου μεγέθους με το TinvStories από τους γλωσσικούς τύπους της προηγούμενης επανάληψης και, στη συνέχεια, αντικαθιστούμε ή συνενώνουμε το προηγούμενο σύνολο δεδομένων με το σύνολο δεδομένων που δημιουργήθηκε πρόσφατα.
Σε κάθε επανάληψη προσαρμογής μοντέλου, εκπαιδεύουν εκ των προτέρων ένα νέο αρχικοποιημένο μοντέλο στο ανταλλακτικό ή συνδυασμένο σύνολο δεδομένων από την προηγούμενη επανάληψη.
Τα αποτελέσματα δείχνουν ότι, για όλες τις αρχιτεκτονικές, τις μετρήσεις παραμέτρων και τις θερμοκρασίες δειγματοληψίας, η αντικατάσταση των δεδομένων οδηγεί σε αύξηση της εγκάρσιας εντροπίας δοκιμής καθώς αυξάνεται ο αριθμός των επαναλήψεων προσαρμογής του μοντέλου (Εικόνα 2 αριστερά).
Βρήκαν επίσης ότι, για όλες τις αρχιτεκτονικές, τις μετρήσεις παραμέτρων και τις θερμοκρασίες δειγματοληψίας, καθώς αυξάνεται ο αριθμός των επαναλήψεων προσαρμογής του μοντέλου, τα συσσωρευμένα δεδομένα έχουν ως αποτέλεσμα η διασταυρούμενη εντροπία δοκιμής να είναι ίση ή χαμηλότερη (Εικόνα 2, δεξιά).
Το σχήμα 3 είναι η καμπύλη εκμάθησης για κάθε επανάληψη προσαρμογής μοντέλου κατά την επανειλημμένη αντικατάσταση δεδομένων (πάνω) και συσσώρευση δεδομένων (κάτω).
Τα αποτελέσματα δείχνουν ότι η συσσώρευση δεδομένων αποφεύγει την κατάρρευση του μοντέλου στη μοντελοποίηση γλώσσας.
Τόσο το 125M Llama2 όσο και το 9M GPT-2 παρουσίασαν υποβάθμιση της ποιότητας κατά την αντικατάσταση δεδομένων (R), αλλά διατήρησαν τη δημιουργία κειμένου υψηλής ποιότητας κατά τη συσσώρευση δεδομένων (A).
Μοντέλα Διάχυσης για Μοριακά Διαμορφωτικά Δεδομένα
Στη συνέχεια, εκπαίδευσαν μια ακολουθία μοντέλων διάχυσης στα δεδομένα μοριακής διαμόρφωσης.
Συγκεκριμένα, οι ερευνητές εκπαίδευσαν το GeoDiff, ένα μοντέλο γεωμετρικής διάχυσης για τη δημιουργία μοριακής διαμόρφωσης, στο σύνολο δεδομένων GEOMDrugs.
Μείωσαν το τμήμα εκπαίδευσης του συνόλου δεδομένων GEOM-Drugs σε 40.000 μοριακές διαμορφώσεις, το χρησιμοποίησαν ως αρχικό σετ εκπαίδευσης και πραγματοποίησαν 50 βήματα διάχυσης για κάθε πρόβλεψη.
Αποτελέσματα Μετά από 8 επαναλήψεις προσαρμογής μοντέλων, οι ερευνητές διαπίστωσαν ότι η απώλεια δοκιμής αυξήθηκε κατά την αντικατάσταση δεδομένων, τα οποία ταιριάζουν με τα πειράματα του γλωσσικού μοντέλου μας, και η απώλεια δοκιμής παρέμεινε σχετικά σταθερή κατά τη συσσώρευση δεδομένων (Εικόνα 4).
Σε αντίθεση με τα γλωσσικά μοντέλα, διαπίστωσαν ότι κατά την αντικατάσταση των δεδομένων, η απόδοση μειώνεται σημαντικά στο πρώτο μοντέλο προσαρμογής της επανάληψης της εκπαίδευσης σε συνθετικά δεδομένα και δεν μειώνεται περαιτέρω σημαντικά στις επόμενες επαναλήψεις.
Κωδικοποιητής αυτόματης μεταβλητής για δεδομένα εικόνας
Στο τέλος του πειράματος, οι ερευνητές εκπαίδευσαν μια ακολουθία κωδικοποιητή μεταβλητών (VAE) στο CelebA.
Αυτή η επιλογή επιτυγχάνει μια ισορροπία μεταξύ ρεαλιστικών συνόλων δεδομένων με πολλά δείγματα, έγχρωμες εικόνες και αναλύσεις, και την υπολογιστική σκοπιμότητα της εκπαίδευσης του μοντέλου για πολλές επαναλήψεις στα συσσωρευμένα δεδομένα.
Ως αποτέλεσμα, βρήκαν ότι η αντικατάσταση των δεδομένων σε κάθε επανάληψη έδειξε ξανά κατάρρευση μοντέλου -
Το σφάλμα δοκιμής αυξάνεται γρήγορα με κάθε πρόσθετη επανάληψη και κάθε επανάληψη παράγει χαμηλότερη ποιότητα και λιγότερο διαφορετικές όψεις, έως ότου όλες οι δημιουργίες μοντέλων αντιπροσωπεύουν ένα ενιαίο μοτίβο.
Αντίθετα, η συσσώρευση δεδομένων σε κάθε επανάληψη επιβραδύνει σημαντικά την κατάρρευση του μοντέλου—
Το σφάλμα δοκιμής αυξάνεται σημαντικά πιο αργά με κάθε πρόσθετη επανάληψη.
Ενώ η ποικιλομορφία των γενεών μειώνεται σε σύγκριση με το μεσαίο και το δεξιό πλαίσιο του Σχήματος 6, εξακολουθεί να αντιπροσωπεύει τους κύριους άξονες διακύμανσης στο σύνολο δεδομένων, όπως το φύλο, αλλά το μοντέλο δεν φαίνεται πλέον να δημιουργεί άλλους κατά μήκος των μικρότερων αξόνων των δεδομένων πολλαπλή Λεπτομέρειες όπως γυαλιά και αξεσουάρ.
Ένα άλλο ενδιαφέρον φαινόμενο είναι ότι, σε αντίθεση με τη μοντελοποίηση γλώσσας, το σφάλμα δοκιμής στα συσσωρευμένα δεδομένα αυξάνεται με τον αριθμό των επαναλήψεων (αν και πολύ πιο αργά από ό,τι στα δεδομένα αντικατάστασης).
Γιατί υπάρχει αυτή η διαφορά; Αυτή η ερευνητική κατεύθυνση αφήνεται στο μέλλον.
Βιβλιογραφικές αναφορές:
https://arxiv.org/abs/2406.07515