Νέα

Τα δεδομένα ευθυγράμμισης LLM συντίθενται πλήρως αυτόματα! Ο Κινέζος διδακτορικός φοιτητής του UW προτείνει τη μέθοδο Magpie, η Macbook Air μπορεί να την τρέξει

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Qiao Yang

[Εισαγωγή στη Νέα Σοφία] Μια πρόσφατη εργασία από το Πανεπιστήμιο της Ουάσιγκτον και το Allen AI προτείνει μια νέα και ενδιαφέρουσα προσέγγιση στη σύνθεση δεδομένων. Διαπίστωσαν ότι η πλήρης χρήση των αυτοπαλινδρομικών χαρακτηριστικών του LLM μπορεί να καθοδηγήσει το μοντέλο ώστε να παράγει αυτόματα δεδομένα λεπτομέρειας εντολών υψηλής ποιότητας.

Τα δεδομένα είναι ζωτικής σημασίας για την εκπαίδευση LLM, αλλά η εστίασή μας είναι συχνά στα δεδομένα εκπαίδευσης και αξιολόγησης, ενώ τα δεδομένα τελειοποίησης αγνοούνται.

Για παράδειγμα, αν και τα μοντέλα της σειράς Llama έχουν ανοιχτά βάρη (όπως το Llama-3-Instruct), το σύνολο δεδομένων λεπτομέρειας εξακολουθεί να είναι ιδιωτικό.

Ένα μεγάλο μέρος της επιτυχίας του LLM εξαρτάται από τη λεπτομερή ρύθμιση των εντολών, μια διαδικασία που επιτρέπει στο μοντέλο να γενικεύει καλύτερα σε εργασίες στις οποίες δεν έχει εκτεθεί κατά τη διάρκεια της εκπαίδευσης.

Ακριβώς όπως η αποτελεσματικότητα της εκπαίδευσης εξαρτάται από την ποιότητα του εκπαιδευτικού σώματος, η αποτελεσματικότητα της τελειοποίησης των εντολών εξαρτάται επίσης από τη διαθεσιμότητα συνόλων δεδομένων οδηγιών υψηλής ποιότητας.

Ωστόσο, σε σύγκριση με το μη επισημασμένο σώμα εκπαίδευσης με αυτο-επίβλεψη, τα σύνολα δεδομένων λεπτομέρειας και ευθυγράμμισης υψηλής ποιότητας είναι πιο δύσκολο να δημιουργηθούν και να επεκταθούν επειδή απαιτούνται περισσότεροι μη αυτόματοι σχολιασμοί και υπάρχουν προκαθορισμένα εύρη υποδείξεων.

Ακόμη και οι εταιρείες που ειδικεύονται στην παροχή δεδομένων σε κολοσσούς τεχνολογίας AI δεν μπορούν να επιτύχουν αυτοματοποιημένο σχολιασμό στο τρέχον στάδιο, και ακόμη και πρέπει να προσλάβουν επαγγελματίες με υψηλούς μισθούς για να συμμετάσχουν στη λεπτομερή ρύθμιση και την κατασκευή ευθυγραμμισμένων συνόλων δεδομένων.

Ο Alexandr Wang, Διευθύνων Σύμβουλος της Scale AI, είπε κάποτε,

Πρόσφατα, μια εργασία που δημοσιεύτηκε από κοινού από το Πανεπιστήμιο της Ουάσιγκτον και το ερευνητικό ίδρυμα Allen AI επικεντρώνεται στον τρόπο σύνθεσης δεδομένων λεπτομέρειας υψηλής ποιότητας με ευθυγραμμισμένο LLM.


Διεύθυνση χαρτιού: https://arxiv.org/abs/2406.08464

Η μέθοδος που προτείνεται στο έγγραφο πραγματοποιεί την αυτοματοποίηση ολόκληρης της διαδικασίας και δεν απαιτεί προβλήματα σποράς. Αυτό που είναι ακόμα πιο εκπληκτικό είναι ότι ο κώδικας όχι μόνο μπορεί να εκτελεστεί τοπικά, αλλά χρησιμοποιεί επίσης το LLM για να δημιουργεί αυτόματα πολύ αξιόπιστα και υψηλής ποιότητας δεδομένα.

Αφού χρησιμοποίησαν το βασικό μοντέλο του Llama-3-8B για να τελειοποιήσουν το σύνολο δεδομένων SFT που παρήγαγαν, απέκτησαν ένα μοντέλο με ισχυρότερη απόδοση από την επίσημη τελειοποιημένη έκδοση Llama-3-Instruct.


Η εφημερίδα προωθήθηκε και επικυρώθηκε από τον Sebastian Raschka, μια μεγάλη φιγούρα στον κύκλο της AI.


Στην αρχή, δεν πίστευε ότι αυτή η μέθοδος θα μπορούσε πραγματικά να εκτελεστεί τοπικά στο MacBook Air, αλλά αφού τη δοκίμασε ο ίδιος, εξεπλάγη ευχάριστα όταν διαπίστωσε ότι μπορούσε πραγματικά.


Ο Raschka είναι συγγραφέας πολλών τεχνικών βιβλίων με μπεστ σέλερ, συμπεριλαμβανομένων των "Building Large Language Models from Scratch", "Python Machine Learning" κ.λπ. Επί του παρόντος υπηρετεί ως ερευνητής μηχανικός στο Lightning AI.



Ο πρώτος συγγραφέας της εργασίας, ο Zhangchen Xu, είναι δευτεροετής διδακτορικός φοιτητής στο Εργαστήριο Ασφάλειας Δικτύων του Πανεπιστημίου της Ουάσιγκτον, και σπουδάζει υπό τον καθηγητή Radha Poovendran Τα ερευνητικά του ενδιαφέροντα είναι η ασφάλεια, το απόρρητο και η δικαιοσύνη της μηχανικής μάθησης εστιάζοντας στο πώς να δημιουργήσετε ένα αξιόπιστο LLM.


Ας ρίξουμε λοιπόν μια πιο προσεκτική ματιά στο πώς εφαρμόζεται αυτή η αποτελεσματική μέθοδος σύνθεσης δεδομένων.

Επισκόπηση μεθόδου

Μια τυπική είσοδος LLM αποτελείται γενικά από 3 μέρη:

- πρότυπο προερώτησης

- Περιεχόμενο ερωτήματος (ερώτημα)

- Πρότυπο μετά το ερώτημα

Δύο από τα πρότυπα είναι γενικά προκαθορισμένα από τον προγραμματιστή του μοντέλου για να διασφαλιστεί ότι το μοντέλο ζητείται σωστά.

Για παράδειγμα, η φόρμα εισαγωγής του Llama-2-chat είναι:

[INST] Γεια! [/INST]

Σε προηγούμενες μελέτες, υπάρχουν συνήθως δύο μέθοδοι για τη δημιουργία συνόλων δεδομένων λεπτομερούς ρύθμισης. Το ένα είναι να αφήσετε απευθείας τους ανθρώπους να το κάνουν χειροκίνητα, κάτι που προφανώς καταναλώνει χρόνο και πόρους. Το δεύτερο είναι να ξεκινήσετε με έναν μικρό αριθμό χειροκίνητων σχολιασμένων οδηγιών και να καλέσετε το LLM μέσω μηνυμάτων για να συνθέσετε περισσότερες οδηγίες.

Αν και η δεύτερη μέθοδος εξοικονομεί ανθρώπινο δυναμικό, δοκιμάζει πολύ το επίπεδο της άμεσης μηχανικής και την επιλογή των αρχικών προβλημάτων σποράς. Με άλλα λόγια, είναι δύσκολο να επιτευχθεί ελεγχόμενη μεγάλης κλίμακας επέκταση.

Ένα πιο μοιραίο πρόβλημα είναι ότι οι συνθετικές οδηγίες είναι συχνά πολύ κοντά στις οδηγίες σποράς, γεγονός που θα επηρεάσει σοβαρά την ποικιλομορφία των συνόλων δεδομένων μεγάλης κλίμακας. Η δημιουργία συνόλων δεδομένων υψηλής ποιότητας και διαφορετικών εντολών με επεκτάσιμο τρόπο παραμένει ένα δύσκολο πρόβλημα στον τομέα του LLM.

Ωστόσο, ο συγγραφέας έκανε μια ενδιαφέρουσα ανακάλυψη σε πρώιμα πειράματα: Λόγω των αυτοπαλινδρομικών χαρακτηριστικών του LLM, όταν εισάγεται μόνο το πρότυπο προερωτήματος, το μοντέλο θα συνθέσει αυτόματα το ερώτημα και από την άποψη περιεχομένου, φαίνεται να έχει καλή ποιότητα και ποικιλομορφία. Αυτό δείχνει ότι μπορεί να εκμεταλλευτεί αποτελεσματικά τις δυνατότητες που αποκτήθηκαν κατά τη διαδικασία ευθυγράμμισης.

Εμπνευσμένος από αυτό, ο συγγραφέας πρότεινε την ακόλουθη ιδέα για τη δημιουργία ενός συνόλου δεδομένων εντολών: χρησιμοποιήστε το πρότυπο προερωτήματος ως προτροπή, εισαγάγετε το στο ευθυγραμμισμένο LLM και δημιουργήστε αυτόματα δεδομένα εντολών.

Όπως φαίνεται στο παρακάτω σχήμα, κάθε στιγμιότυπο δεδομένων εντολών περιέχει ένα ή περισσότερα ζεύγη εντολών-απόκρισης και καθορίζονται οι ρόλοι του παρόχου εντολών και του ακόλουθου.


Το Σχήμα 1 περιγράφει τον αγωγό που δημιουργείται αυτόματα από όλα τα δεδομένα, ο οποίος χωρίζεται χονδρικά σε δύο βήματα.

Το πρώτο είναι η παραγωγή οδηγιών. Η μέθοδος MAGPIE κατασκευάζει το περιεχόμενο του ερωτήματος στη μορφή του προκαθορισμένου προτύπου εντολών LLM, αλλά περιλαμβάνει μόνο τον πάροχο εντολών (όπως ο χρήστης) και δεν περιλαμβάνει το συγκεκριμένο περιεχόμενο εντολών.

Χρησιμοποιώντας αυτό ως είσοδο LLM, το μοντέλο θα δημιουργήσει οδηγίες με αυτοπαλινδρομικό τρόπο. Αυτή η διαδικασία διασφαλίζει την ποικιλομορφία των παραγόμενων οδηγιών, καθώς δεν απαιτούνται ειδικές δεξιότητες μηχανικής υπόδειξης και δεν χρησιμοποιούνται ερωτήσεις σποράς.

Στο δεύτερο βήμα, το MAGPIE εισάγει τις οδηγίες που δημιουργήθηκαν προηγουμένως στο LLM για να αποκτήσει το περιεχόμενο απόκρισης.

Με την επανειλημμένη επανάληψη των δύο παραπάνω βημάτων, μπορούν να ληφθούν πολλαπλοί γύροι δεδομένων εντολών. Εάν θέλετε να δημιουργήσετε δεδομένα για ένα συγκεκριμένο πεδίο, μπορείτε να το κάνετε προσθέτοντας τα αντίστοιχα μηνύματα.


Αφού έλαβε τα αποτελέσματα της αρχικής παραγωγής, ο συγγραφέας τα φιλτράρει επίσης με βάση το μήκος κειμένου, την κατηγορία εργασίας, την ποιότητα εισαγωγής, τη δυσκολία εισαγωγής και άλλους δείκτες.


Η εργασία χρησιμοποιεί δύο μοντέλα, το Llama-3-8B-Instruct και το Llama-3-70B-Instruct αντίστοιχα, για τη δημιουργία δύο συνόλων δεδομένων MAGPIE-Air και MAGPIE-Pro, και δίνει παραδείγματα δημιουργημένων εντολών στο παράρτημα:


Όπως μπορείτε να δείτε, η ποιότητα του κειμένου είναι πράγματι καλή και είναι απολύτως συγκρίσιμη με οδηγίες που γράφτηκαν από ανθρώπους.

Ωστόσο, για να αξιολογήσουμε την ποιότητα ενός τόσο μεγάλης κλίμακας δεδομένων, δεν μπορούμε να βασιστούμε αποκλειστικά σε υποκειμενικά συναισθήματα, επομένως ο συγγραφέας διεξήγαγε μια ποσοτική ανάλυση στο δημιουργημένο σύνολο δεδομένων οδηγιών MAGPIE-Pro.

Ανάλυση συνόλων δεδομένων

Κάλυψη

Για να ληφθεί υπόψη η ποικιλομορφία των κειμένων οδηγιών, μια αποτελεσματική μέτρηση είναι η κάλυψη των ενσωματώσεων κειμένου στον σημασιολογικό χώρο.

Ο συγγραφέας πήρε τυχαία δείγματα κειμένου οδηγιών από το MAGPIE-Pro, το κωδικοποίησε σε διανύσματα ενσωμάτωσης και το πρόβαλε σε έναν δισδιάστατο χώρο χρησιμοποιώντας τη μέθοδο t-SNE Τρία σύνολα δεδομένων βασικής γραμμής χρησιμοποιήθηκαν για σύγκριση, συμπεριλαμβανομένων των Alpaca, Evol Instruct και UltraChat.

Κάθε σημείο προβολής t-SNE στο παρακάτω σχήμα αντιπροσωπεύει 10.000 τυχαία επιλεγμένες οδηγίες. Μπορεί να φανεί ότι η προβολή του MAGPIE-Pro καλύπτει βασικά το εύρος των άλλων τριών συνόλων δεδομένων, γεγονός που δείχνει ότι παρέχει ένα ευρύτερο και ποικίλο θέμα.


Χαρακτηριστικά εντολών

Η εργασία χρησιμοποιεί το μοντέλο Llama-3-8B-Instruct για να αξιολογήσει διάφορα χαρακτηριστικά των δεδομένων εντολών MAGPIE, όπως η κατηγορία εργασίας, η ποιότητα, η δυσκολία, η ομοιότητα και η ποιότητα απόκρισης της εντολής.

Οι κατηγορίες εργασιών για τη δημιουργία εντολών είναι κυρίως ανάκτηση πληροφοριών, που αντιπροσωπεύουν περισσότερο από το ήμισυ, και περιλαμβάνουν επίσης δημιουργική γραφή, αναζήτηση συμβουλών, προγραμματισμό, μαθηματικά, συλλογισμό, καταιγισμό ιδεών και επεξεργασία κ.λπ., τα οποία είναι βασικά συνεπή με τις κύριες ανάγκες των ανθρώπινων χρηστών .


Η ποιότητα και η δυσκολία των οδηγιών αξιολογούνται επίσης αυτόματα χρησιμοποιώντας το μοντέλο Llama-3-8B-Instruct.

Μπορεί να φανεί ότι και στα δύο σύνολα δεδομένων, οι περισσότερες περιπτώσεις κρίνονται ως μέσες και άνω, και η συνολική ποιότητα του MAGPIE-Pro είναι καλύτερη από το MAGPIE-Air.

Η κατανομή της δυσκολίας εντολών του συνόλου δεδομένων είναι βασικά παρόμοια, με περισσότερο από 60% συγκεντρωμένο στο επίπεδο "εύκολο" και το σύνολο δεδομένων Pro είναι ελαφρώς πιο απαιτητικό από το Air.


Με τον υπολογισμό της ομοιότητας των εντολών, ο βαθμός διαφοροποίησης μπορεί να εκτιμηθεί από μια άλλη πτυχή. Η εργασία χρησιμοποιεί το FAISS για να αναζητήσει τους πλησιέστερους γείτονες κάθε ενσωμάτωσης κειμένου και να υπολογίσει την απόσταση μεταξύ τους για να μετρήσει τον βαθμό ομοιότητας.

Όσον αφορά την ποιότητα απόκρισης, το FsfairX-LLaMA3-RM-v0.1 χρησιμοποιείται ως μοντέλο αξιολόγησης ανταμοιβής και το URIAL ως βασικό μοντέλο για σύγκριση. Μια θετική διαφορά ανταμοιβής υποδηλώνει υψηλότερη ποιότητα, η οποία είναι επωφελής για τη διαδικασία τελειοποίησης της εντολής.

Όπως φαίνεται στο Σχήμα 5β, η κατανομή δεδομένων του MAGPIE μετατοπίζεται προς τα δεξιά ως σύνολο και έχει χαμηλότερη τιμή κορυφής από το βασικό μοντέλο, υποδεικνύοντας ότι η συνολική ποιότητα απόκρισης είναι καλύτερη.


ασφάλεια

Επιπλέον, όσον αφορά την ασφάλεια εντολών, ο συγγραφέας χρησιμοποίησε το Llama-guard-2 για αυτόματη αξιολόγηση και διαπίστωσε ότι το μεγαλύτερο μέρος του συνόλου δεδομένων MAGPIE είναι ασφαλές, αλλά εξακολουθεί να περιέχει λιγότερο από το 1% επιβλαβών εντολών ή αποτελεσμάτων απόκρισης.


Αξιολόγηση αποτελέσματος

Ένα από τα μεγαλύτερα πλεονεκτήματα αυτής της έρευνας είναι το αποδοτικό κόστος λειτουργίας και η πλήρως αυτοματοποιημένη διοχέτευση χωρίς καμία χειροκίνητη παρέμβαση.

Κατά τη δημιουργία του συνόλου δεδομένων 3M MAGPIE-Air, χρησιμοποιήθηκαν τέσσερις GPU A100 για την ολοκλήρωση της δημιουργίας εντολών/απόκρισης σε 1,55 ώρες/50 ώρες. Η δημιουργία του συνόλου δεδομένων 1M MAGPIE-Pro διαρκεί 3,5 ​​ώρες/150 ώρες αντίστοιχα.

Εάν εκτελείται σε διακομιστή cloud, το κόστος είναι επίσης πολύ σημαντικό. Κοστίζει 0,12 $ ή 1,10 $ ανά 1.000 εμφανίσεις που δημιουργούνται, ανάλογα με το σύνολο δεδομένων Air ή Pro.

Προκειμένου να αντικατοπτρίζονται αληθινά τα πλεονεκτήματα της μεθόδου MAGPIE, το έγγραφο εφαρμόζει στην πραγματικότητα το σύνολο δεδομένων στη λεπτομέρεια του βασικού μοντέλου και το συγκρίνει με την επίσημα βελτιωμένη έκδοση.

Ο συγγραφέας επέλεξε τα 6 πιο προηγμένα σύνολα δεδομένων λεπτομερούς ρύθμισης εντολών ανοιχτού κώδικα, όπως το ShareGPT και το Evol Instruct ως γραμμές βάσης. Μεταξύ αυτών, το ShareGPT και το WildChat έχουν γραφτεί από ανθρώπους και το Evol Instruct και το UltraChat είναι συνθετικά σύνολα δεδομένων.

Τα βελτιωμένα βασικά μοντέλα περιλαμβάνουν τα Llama-3 και Qwen-1.5 και δύο ευρέως χρησιμοποιούμενοι δείκτες, οι AlpacaEval και Arena-Hard, επιλέγονται για την αξιολόγηση της απόδοσης.

Από τη λεπτομερή σύγκριση δεδομένων μεταξύ των δύο πινάκων, μπορεί να βρεθεί ότι ανεξάρτητα από το βασικό μοντέλο που χρησιμοποιείται, το σύνολο δεδομένων που δημιουργείται με τη μέθοδο MAGPIE έχει υψηλότερη ποιότητα, είναι καλύτερο από όλα τα βασικά σύνολα δεδομένων και είναι καλύτερο από τα επίσημα δεδομένα ρυθμισμένο στους περισσότερους δείκτες.



Καθώς ο νόμος κλιμάκωσης του LLM αγγίζει σταδιακά τον τοίχο δεδομένων, η μέθοδος αυτής της εργασίας ανοίγει άλλη μια πόρτα ελπίδας για συνθετικά δεδομένα. Ίσως χρησιμοποιώντας προσεκτικά σχεδιασμένους αλγόριθμους και τεχνικές, τα συνθετικά δεδομένα LLM μπορούν σταδιακά να γίνουν το «στήριγμα» των δημόσιων συνόλων δεδομένων.

Βιβλιογραφικές αναφορές:

https://arxiv.org/abs/2406.08464