νέα

Το Llama 8B αναζητά 100 φορές και ξεπερνά το GPT-4o! Η συμπερασματική αναζήτηση μπορεί να βελτιώσει την απόδοση, νέος "νόμος κλιμάκωσης"

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Qiao Yang

[Εισαγωγή στη Νέα Σοφία]Πρόσφατες εργασίες έχουν δείξει ότι τα μοντέλα παραγωγής όπως το LLM μπορούν να κλιμακωθούν με αναζήτηση και να επιτύχουν πολύ σημαντικές βελτιώσεις στην απόδοση. Ένα άλλο πείραμα επανάληψης βρήκε επίσης ότι εάν το μοντέλο Llama 3.1 με μόνο 8Β παραμέτρους αναζητηθεί 100 φορές, μπορεί να φτάσει στο ίδιο επίπεδο με το GPT-4o στην εργασία δημιουργίας κώδικα Python.

Ο Rich Sutton, πρωτοπόρος στην ενισχυτική μάθηση και καθηγητής στο τμήμα CS του Πανεπιστημίου της Αλμπέρτα στον Καναδά, έγραψε μια ανάρτηση στο blog με τίτλο «The Bitter Lesson» το 2019, η οποία έγινε μια από τις κλασικές συζητήσεις στον τομέα της τεχνητής νοημοσύνης.

Στην πραγματικότητα, η διαίσθηση του Rich Sutton που αντανακλάται μεταξύ των γραμμών είναι αρκετά παρόμοια με το Scaling Law.


Αρχική διεύθυνση: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

Το άρθρο ανασκοπεί εν συντομία την πορεία ανάπτυξης της τεχνητής νοημοσύνης στους τομείς του σκακιού, του Go, της αναγνώρισης ομιλίας και της όρασης και προβάλλει αυτή την άποψη:


Ένα από τα δύσκολα μαθήματα που πρέπει να μάθουμε είναι να συνειδητοποιήσουμε τη δύναμη μιας καθολικής προσέγγισης. Αυτή η προσέγγιση μπορεί να συνεχίσει να κλιμακώνεται καθώς ο όγκος υπολογισμού αυξάνεται λόγω της αύξησης της διαθέσιμης υπολογιστικής ισχύος. Οι δύο μέθοδοι που φαίνεται να κλιμακώνονται αυθαίρετα με αυτόν τον τρόπο είναι η αναζήτηση και η μάθηση.

Ωστόσο, αυτή η άποψη δεν είναι ακριβώς η ίδια με το Scaling Law, και δεν μπορούμε να τη χρησιμοποιήσουμε ως βάση για να πιστέψουμε ότι τα μικρά μοντέλα προορίζονται να είναι άσχετα.

Όπως περιγράφει ο Sutton, υπάρχουν δύο μεγάλες προκλήσεις στο δρόμο προς την κλιμάκωση: η μάθηση και η αναζήτηση.

Ο νόμος κλιμάκωσης που προτείνεται από το OpenAI δίνει έμφαση στο πρώτο. Ceteris paribus, τα μεγαλύτερα μοντέλα αποδίδουν καλύτερα επειδή μπορούν να μάθουν περισσότερες γνώσεις και μοτίβα από το σετ εκπαίδευσης.

Αυτό όμως που συχνά παραβλέπουμε είναι το τελευταίο. Οι μέθοδοι αναζήτησης μπορούν επίσης να κλιμακωθούν ομαλά καθώς η υπολογιστική ισχύς αυξάνεται κατά τη φάση συμπερασμάτων για να δημιουργηθούν περισσότερες ή υψηλότερης ποιότητας υποψήφιες απαντήσεις.

Ένα πρόσφατο άρθρο που δημοσιεύθηκε από μελετητές από το Στάνφορντ, την Οξφόρδη, το DeepMind και άλλα ιδρύματα επικεντρώθηκε σε αυτό το σημείο.


Διεύθυνση χαρτιού: https://arxiv.org/abs/2407.21787

Με την αύξηση του αριθμού των επαναλαμβανόμενων δειγμάτων στο στάδιο συμπερασμάτων, η απόδοση (δηλαδή, κάλυψη προβλήματος) του μοντέλου στα πεδία των μαθηματικών, του συλλογισμού και του κώδικα όπως GSM8K, MATH, MiniF2F-Math και SWE-bench Lite έχει βελτιωθεί σημαντικά.

Ακόμη, φαίνεται να υπάρχει μια εκθετική γραμμική σχέση μεταξύ των δύο, και μπορεί να μοντελοποιηθεί από έναν νόμο εκθετικής ισχύος, ο οποίος φαίνεται να εξηγεί την ύπαρξη του νόμου κλιμάκωσης στο στάδιο της συλλογιστικής.


Εμπνευσμένοι από αυτό το έγγραφο, οι δύο μηχανικοί άρχισαν να προσπαθούν να το αναπαράγουν - το αποτέλεσμα ήταν ότι ψάχνοντας με 100 μικρά μοντέλα Llama, μπορούσαν να φτάσουν ή ακόμα και να νικήσουν το GPT-4o σε εργασίες προγραμματισμού Python.


Οι δύο συγγραφείς χρησιμοποίησαν μια ζωντανή μεταφορά: πριν, χρειαζόταν μια πάπια μεγέθους αλόγου για να αποκτήσουμε οριακές δυνατότητες, αλλά τώρα μπορούμε να επιλέξουμε να χρησιμοποιήσουμε 100 άλογα σε μέγεθος πάπιας (ή, πιο συγκεκριμένα, αλπακά λάμα).

Ο πηγαίος κώδικας που χρησιμοποιήθηκε στο πείραμα έχει μεταφορτωθεί στο GitHub και το κόστος αναπαραγωγής είναι αρκετά χαμηλό.


https://gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05

Προκειμένου να δοκιμάσει υψηλότερες επιδόσεις, ο συγγραφέας χρησιμοποίησε τη βιβλιοθήκη vLLM για την εφαρμογή συμπερασμάτων παρτίδας και επέκτεινε τις συνθήκες υλικού σε 10 GPU A100-40 GB, με την ταχύτητα εξόδου να φτάνει τα 40k token/s.

Μετρήσεις και αποτελέσματα αξιολόγησης

Ο συγγραφέας επέλεξε ένα τεστ αναφοράς που δεν καλύπτεται στην εργασία Large Language Monkeys που αναφέρεται παραπάνω-HumanEval.

Το πλεονέκτημα αυτού του συνόλου δεδομένων είναι ότι ο παραγόμενος κώδικας μπορεί να αξιολογηθεί χρησιμοποιώντας δοκιμές εκτέλεσης χωρίς τη συμμετοχή LLM-as-Judge ή ανθρώπινης αξιολόγησης, επιτρέποντας ένα πιο αντικειμενικό μέτρο ορθότητας.

Η απόδοση του μοντέλου μετριέται με δύο δείκτες: pass@k και fail@k. Σύμφωνα με τα αποτελέσματα της αναφοράς του PapersWithCode, σε συμπέρασμα μηδενικού δείγματος, η βαθμολογία pass@1 του GPT-4o είναι 90,2%.


https://paperswithcode.com/sota/code-generation-on-humaneval

Χρησιμοποιώντας τη μέθοδο που προτείνεται στην παραπάνω εργασία, συν μια ελάχιστη ποσότητα άμεσης μικρορύθμισης (χωρίς προσαρμογή άλλων υπερπαραμέτρων), η βαθμολογία pass@k του Llama 3.1 8B έχει βελτιωθεί σημαντικά.

Όταν ο αριθμός των επαναλαμβανόμενων δειγμάτων k είναι 100, η ​​απόδοση είναι ισοδύναμη με το GPT-4o (90,5% έναντι 90,2%) όταν το k φτάσει το 1000, η ​​βαθμολογία είναι 95,1%, που είναι σημαντικά καλύτερη από το GPT-4o.


Εάν χρησιμοποιήσετε τον δείκτη fail@k (ισοδύναμο με 1-pass@k) και μετασχηματίσετε λογαριθμικά τους δύο άξονες συντεταγμένων στο παραπάνω σχήμα, μπορείτε να δείτε την καμπύλη που φαίνεται στο παρακάτω σχήμα, η οποία φαίνεται να συμμορφώνεται απόλυτα με τον "νόμο κλιμάκωσης ".


Αξίζει να σημειωθεί ότι αυτό το μικρό πείραμα δεν είναι μια αυστηρή αναπαραγωγή του χαρτιού, αλλά εξάγει μόνο τη βασική μέθοδο.

Ωστόσο, αυτά τα αποτελέσματα υπογραμμίζουν περαιτέρω ότι τα μικρότερα μοντέλα μπορούν να ξεπεράσουν προβλέψιμα τα μοντέλα "big Mac" όπως το GPT-4o όταν χρησιμοποιούν μεθόδους αναζήτησης για την αύξηση του σταδίου συμπερασμάτων.

Το μέλλον της αναζήτησης

Ο λόγος για τον οποίο η μέθοδος αναζήτησης είναι ισχυρή είναι ότι μπορεί να επεκταθεί "διαφανώς" καθώς αυξάνεται ο όγκος των υπολογισμών και μπορεί επίσης να μετατοπίσει την κατανάλωση πόρων από τη μνήμη στον υπολογισμό για να επιτευχθεί περαιτέρω ισορροπία πόρων.

Τα πρόσφατα σημαντικά επιτεύγματα της τεχνητής νοημοσύνης στα μαθηματικά, όπως το επίπεδο της τεχνητής νοημοσύνης και της τεχνητής νοημοσύνης, είναι αδιαχώριστα από την αναζήτηση που χρησιμοποιείται σε αυτό.

Ωστόσο, η υλοποίηση της αναζήτησης απαιτεί πρώτα μια αξιολόγηση υψηλής ποιότητας των αποτελεσμάτων. Το μοντέλο του DeepMind μεταφράζει μαθηματικά προβλήματα που εκφράζονται σε φυσική γλώσσα σε τυπικές εκφράσεις, λαμβάνοντας έτσι λεπτομερή επίβλεψη από έναν μεταγλωττιστή/επαληθευτή όπως ο Lean.

, που μπορεί να βελτιώσει σημαντικά τον βαθμό παραλληλισμού και αυτοματισμού.

Σύμφωνα με την αλληλογραφία Curry-Howard-Lambek, θα ήταν σχετικά εύκολο να χρησιμοποιηθούν προγράμματα υπολογιστών για την αυτοματοποίηση της αναγνώρισης και αξιολόγησης των μαθηματικών αποδείξεων και των αποτελεσμάτων δημιουργίας κώδικα.

Όμως παρόμοιες προσεγγίσεις μπορεί να αποτύχουν σε τομείς άλλους από τα μαθηματικά και τον προγραμματισμό. Για παράδειγμα, για εργασίες NLP ανοιχτού τύπου, όπως η "σύνοψη των email", είναι δύσκολο να πραγματοποιηθούν αποτελεσματικές αναζητήσεις.

Από αυτή την άποψη, η αναζήτηση είναι κατάντη της αξιολόγησης. Μπορούμε να περιμένουμε ότι η βελτίωση της απόδοσης των μοντέλων παραγωγής σε συγκεκριμένα πεδία θα είναι ευθέως ανάλογη με τις δυνατότητες αξιολόγησης και αναζήτησης.

Για να επιτευχθεί αυτός ο σκοπός, οι πράκτορες σε επαναλαμβανόμενα ψηφιακά περιβάλλοντα φαίνεται να είναι μια πολλά υποσχόμενη κατεύθυνση.

Παραπομπές:

https://modal.com/blog/llama-human-eval