ο νέος βασιλιάς των μεγάλων μοντέλων ανοιχτού κώδικα έχει ανατρέψει το gpt4o, η νέα τεχνολογία μπορεί να διορθωθεί από μόνο του και το mathematics 99.2 έχει μεγιστοποιήσει το σύνολο δοκιμών

2024-09-06

ο δυτικός άνεμος προέρχεται από τον ναό aofei
qubits | δημόσιος λογαριασμός qbitai

ο θρόνος των μεγάλων μοντέλων ανοιχτού κώδικα άλλαξε ξαφνικά χέρια και προήλθε από μια μικρή επιχειρηματική ομάδα, πυροδοτώντας αμέσως τη βιομηχανία.

το νέο μοντέλο ονομάζεταιαντανάκλαση 70β, χρησιμοποιώντας μια νέα τεχνολογία εκπαίδευσης για να επιτρέψει στην τεχνητή νοημοσύνη να μάθει να διορθώνει τα δικά της λάθη και ψευδαισθήσεις κατά τη διαδικασία συλλογισμού.

για παράδειγμα, στο πρόσφατα δημοφιλές ψηφιακό τεστ r, έκανε τα ίδια λάθη με τα περισσότερα μοντέλα στην αρχή, αλλά πήρε την πρωτοβουλία ναετικέτα <reflection>ο ζονγκ διορθώθηκε.

στην επίσημη αξιολόγηση, το μοντέλο 70b ξεπέρασε συνολικά το ισχυρότερο ανοιχτού κώδικα llama 3.1 405b, gpt-4o, claude 3 opus και gemini 1.5 pro.βαθμολογήθηκε 99,2%。

αυτό το αποτέλεσμα έκανε επίσης τον noam brown, έναν επιστήμονα του openai και πατέρα της τεχνητής νοημοσύνης του πόκερ, να ανοίξει με ενθουσιασμό το μικρόφωνο:

το gsm8k σκοράρει 99%! μπορεί αυτό το σημείο αναφοράς να καταργηθεί επίσημα;

μόλις το μοντέλο κυκλοφόρησε στο διαδίκτυο, οι χρήστες του διαδικτύου ήταν συγκλονισμένοι με τη δοκιμή και η meta υποστήριξε επίσης ενεργά περισσότερη υπολογιστική ισχύ.

στις δοκιμές του διαδικτύου, το reflection 70b μπορεί να απαντήσει σε ερωτήσεις που έχουν λανθασμένες απαντήσεις στο σύνολο δεδομένων gsm8k:

έδωσα στο μοντέλο 5 ζητήματα "ground_truth" που υπάρχουν στο gsm8k που είναι εγγενώς λανθασμένα.
αντί να επαναλαμβάνει τις λανθασμένες απαντήσεις στο σύνολο δεδομένων, το μοντέλο τις έδωσε όλες σωστά, κάτι που είναι εντυπωσιακό.δείχνει ότι η ακρίβεια 99,2% δεν προέρχεται από την απομνημόνευση του σετ δοκιμής！

είναι εύκολο να μετρήσετε όλα τα είδη r, ακόμη καιδημιούργησε λέξειςπολλά r στο "drirrrrngrrrrnnnn" μπορούν επίσης να μετρηθούν σωστά.

οι χρήστες του διαδικτύου εκπλήσσονται που ο ανοιχτός κώδικας που δημιουργήθηκε από μια μικρή ομάδα έχει ξεπεράσει τον κορυφαίο κλειστό κώδικα τώρα το πιο ισχυρό μοντέλο ανοιχτού κώδικα μπορεί να εκτελεστεί τοπικά.

το κλειδί 70b είναι μόνο η αρχή οι επίσημοι είπαν ότι ένα μεγαλύτερο θα κυκλοφορήσει την επόμενη εβδομάδα.αντανάκλαση 405β。

αναμένεται ότι η απόδοση του 405b θα είναι σημαντικά καλύτερη από το sonnet και το gpt-4o.

τα βάρη reflection 70b έχουν δημοσιοποιηθεί και η πρόσβαση στο api θα παρέχεται από την hyperbolic labs αργότερα σήμερα.

τα μοντέλα μπορούν να αντανακλούν και να διορθώνουν λάθη

περισσότερες λεπτομέρειες που είναι διαθέσιμες αυτήν τη στιγμή στο reflection 70b είναι παρακάτω.

το κλειδί για τη βελτίωση των δυνατοτήτων του reflection 70b είναι η χρήση μιας μεθόδου που ονομάζεταιreflection-tuningμια μέθοδος εκπαίδευσης που επιτρέπει στο μοντέλο να αναλογιστεί το κείμενο που δημιουργεί, εντοπίζοντας και διορθώνοντας λάθη στη δική του συλλογιστική πριν οριστικοποιήσει μια απάντηση.

τα δεδομένα στην εκπαίδευση προέρχονται από συνθετικά δεδομένα που παράγονται χρησιμοποιώντας την πλατφόρμα glaiveai.

το reflection 70b βασίζεται στην οδηγία llama 3.1 70b και μπορεί να ληφθεί δείγμα από το reflection llama-3.1 70b χρησιμοποιώντας τον ίδιο κώδικα, διοχέτευση κ.λπ. με άλλα μοντέλα llama.

χρησιμοποιεί ακόμη και την τυπική μορφή συνομιλίας llama 3.1.

ωστόσο, το reflection 70b εισάγει μερικάειδικές μάρκες, δομημένη διαδικασία εξόδου.

όπως φαίνεται στο ακόλουθο παράδειγμα, ο διαχωρισμός της διαδικασίας σχεδιασμού σε ένα ξεχωριστό βήμα μπορεί να βελτιώσει το φαινόμενο cot και να διατηρήσει το αποτέλεσμα εκλεπτυσμένο:

το μοντέλο θα είναι από<thinking> και</thinking> το συμπέρασμα εξόδου εντός της ετικέτας ξεκινά και μόλις ικανοποιηθεί με το συμπέρασμα, το<output> και</output> η τελική απάντηση εμφανίζεται στην ετικέτα.

έτσι είναι σε θέση να διαχωρίσει την εσωτερική του σκέψη και συλλογισμό από την τελική απάντηση.

υπάρχω<thinking> ενότητα, το μοντέλο μπορεί να παράγει ένα ή περισσότερα<reflection>επιγραφή, το οποίο υποδεικνύει ότι το μοντέλο έχει ανακαλύψει ένα σφάλμα στη συλλογιστική του και θα προσπαθήσει να το διορθώσει πριν δώσει μια τελική απάντηση.

το σύστημα ζητά ως εξής:

είστε ένα σύστημα τεχνητής νοημοσύνης παγκόσμιας κλάσης, ικανό για πολύπλοκο συλλογισμό και προβληματισμό. αιτιολογήστε το ερώτημα μέσα από τις ετικέτες και, στη συνέχεια, δώστε την τελική σας απάντηση μέσα
ετικέτες. αν διαπιστώσετε ότι κάνατε λάθος στο συλλογισμό σας σε οποιοδήποτε σημείο, διορθώστε τον εαυτό σας μέσα στις ετικέτες.
(είστε ένα σύστημα τεχνητής νοημοσύνης παγκόσμιας κλάσης ικανό για πολύπλοκους συλλογισμούς και προβληματισμούς. συλλογισμός σχετικά με ερωτήματα εντός ετικετών και στη συνέχεια
δώστε την τελική σας απάντηση εντός της ετικέτας. εάν σε οποιοδήποτε σημείο διαπιστώσετε ότι συλλογίζεστε λάθος, διορθώστε τον εαυτό σας μέσα στην ετικέτα. )

αξίζει επίσης να αναφερθεί ότι στη δοκιμή αναφοράς, όλα τα σημεία αναφοράς έχουν ελεγχθεί για μόλυνση και έχουν απομονωθεί από το llm decontaminator της lmsys.<output> ενότητα και δοκιμάστε μόνο αυτό το τμήμα.

όταν χρησιμοποιείτε το reflection 70b, ο επίσημος μοιράστηκε επίσης μερικές συμβουλές:

αρχικά συνιστάται η θερμοκρασία της παραμέτρου να είναι 0,7 και η top_p να είναι 0,95
για να βελτιώσετε την ακρίβεια, είναι καλύτερο να προσαρτήσετε το "σκεφτείτε προσεκτικά" στο τέλος του μηνύματος.

το δήλωσαν και οι αξιωματούχοιμια αναφορά θα δημοσιευτεί την επόμενη εβδομάδα, περιγράφοντας λεπτομερώς τη διαδικασία εκπαίδευσης του μοντέλου και τα ευρήματα.

δημιουργήθηκε από την agent entrepreneurial team

το behind reflection 70b είναι μια μικρή ομάδα, με επικεφαλής τον διευθύνοντα σύμβουλο της hyperwriteai ματ σούμερμόλυβδος.

σύμφωνα με το linkedin, ο mutt shumer είναι ένας σειριακός επιχειρηματίας που αποφοίτησε από το πανεπιστήμιο των συρακουσών στις ηνωμένες πολιτείες και είναι επί του παρόντος ο συνιδρυτής και διευθύνων σύμβουλος της othersideai.

η othersideai είναι μια εταιρεία εφαρμογών ai αφιερωμένη στην ανάπτυξη των πιο προηγμένων εργαλείων αυτόματης συμπλήρωσης στον κόσμο μέσω συστημάτων τεχνητής νοημοσύνης μεγάλης κλίμακας. είναι επίσης η εταιρεία πίσω από το hyperwrite.

το hyperwrite είναι ένας παράγοντας λειτουργίας προγράμματος περιήγησης που μπορεί να χειριστεί το google chrome σαν άνθρωπος για να ολοκληρώσει μια σειρά εργασιών, όπως η παραγγελία πίτσας:

όπως και το gpt-llm-trainer, χρειάζεται μόνο να περιγράψετε τον στόχο σε κείμενο και θα τον εκτελέσει ενώ παραθέτει τα βήματα.

όταν πρωτοκυκλοφόρησε, ισχυρίστηκε ότι ήταν "καλύτερο από το autogpt".

το hyperwrite μπορεί επίσης να εγκατασταθεί ως επέκταση google.

επιπλέον, ο mutt shumer ίδρυσε τη visos όταν ήταν στο γυμνάσιο και δεσμεύεται να αναπτύξει την επόμενη γενιά λογισμικού εικονικής πραγματικότητας για ιατρικούς σκοπούς.

ίδρυσε επίσης την furi, μια εταιρεία που στοχεύει να αναστατώσει τη βιομηχανία αθλητικών ειδών δημιουργώντας προϊόντα υψηλής απόδοσης και πουλώντας τα σε δίκαιες τιμές.

αν και υπάρχει υποστήριξη meta, η δοκιμή είναι ανοιχτή αυτή τη στιγμή, αλλά εξακολουθεί να είναι: προσωρινά απρόσιτη.

αν ενδιαφέρεστε για παιδικά παπούτσια, μπορείτε να κάνετε πρώτα την παραγγελία σας~

https://reflection-playground-production.up.railway.app/

σύνδεσμοι αναφοράς:
[1]https://huggingface.co/mattshumer/reflection-llama-3.1-70b
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

νέα

τα μοντέλα μπορούν να αντανακλούν και να διορθώνουν λάθη

δημιουργήθηκε από την agent entrepreneurial team

εισαγωγή

τα στοιχεία επικοινωνίας μου