το google deepmind επιδεικνύει την τεχνολογία genrm: βελτιστοποίηση των llm ως μοντέλα ανταμοιβής για τη βελτίωση των παραγωγικών ικανοτήτων συλλογιστικής τεχνητής νοημοσύνης

το google deepmind επιδεικνύει την τεχνολογία genrm: βελτιστοποίηση των llm ως μοντέλα ανταμοιβής για τη βελτίωση των δυνατοτήτων συλλογιστικής τεχνητής νοημοσύνης

2024-09-03

το it house ανέφερε στις 3 σεπτεμβρίου ότι η ομάδα του google deepmind δημοσίευσε μια εργασία για το arxiv στις 27 αυγούστου, παρουσιάζοντας και επιδεικνύοντας τον γενετικό επαληθευτή genrm και προτείνοντας δημιουργικά ένα μοντέλο ανταμοιβής για τη βελτίωση των δυνατοτήτων συλλογιστικής τεχνητής νοημοσύνης.

στον κλάδο της τεχνητής νοημοσύνης, η τρέχουσα κύρια προσέγγιση για τη βελτίωση μοντέλων μεγάλων γλωσσών (llm) είναι η λειτουργία best-of-n, δηλαδή, οι n υποψήφιες λύσεις που δημιουργούνται από το llm ταξινομούνται από τον επαληθευτή και επιλέγεται η καλύτερη λύση .

τέτοιοι επικυρωτές που βασίζονται σε llm συνήθως εκπαιδεύονται ως ταξινομητές διακρίσεων για τη βαθμολογία λύσεων, αλλά δεν μπορούν να επωφεληθούν από τις δυνατότητες δημιουργίας κειμένου των προεκπαιδευμένων llm.

για να ξεπεράσει αυτόν τον περιορισμό, η ομάδα του deepmind προσπάθησε να χρησιμοποιήσει τον επόμενο στόχο πρόβλεψης διακριτικού για να εκπαιδεύσει τον επαληθευτή κατά την εκτέλεση επαλήθευσης και δημιουργίας λύσεων.

ο παραγωγικός επαληθευτής της ομάδας deepmind (genrm) περιλαμβάνει κυρίως τα ακόλουθα πλεονεκτήματα σε σύγκριση με τους παραδοσιακούς επαληθευτές:

απρόσκοπτη ενσωμάτωση προσαρμογών εντολών

υποστήριξη συλλογιστικής αλυσίδας σκέψης

μόχλευση πρόσθετων υπολογισμών χρόνου συμπερασμάτων μέσω της πλειοψηφίας

όταν χρησιμοποιούνται επικυρωτές που βασίζονται σε gemma σε εργασίες μαθηματικής συλλογιστικής αλγοριθμικής και δημοτικού σχολείου, το genrm υπερτερεί των επικυρωτών διακρίσεων και llm-as-a-judge, βελτιώνοντας το ποσοστό των προβλημάτων που επιλύθηκαν χρησιμοποιώντας το best-of-n 16-64%.

όπως αναφέρεται από το google deepmind, το πλεονέκτημα της genrm έναντι των κατηγορικών μοντέλων ανταμοιβής σηματοδοτεί μια κρίσιμη εξέλιξη στα συστήματα ανταμοιβής τεχνητής νοημοσύνης, ιδιαίτερα όσον αφορά την ικανότητά τους να αποτρέπουν απάτες που μαθαίνουν νέα μοντέλα. αυτή η πρόοδος υπογραμμίζει την επείγουσα ανάγκη βελτίωσης μοντέλων ανταμοιβής για την ευθυγράμμιση της παραγωγής τεχνητής νοημοσύνης με τα πρότυπα κοινωνικής ευθύνης.

νέα

το google deepmind επιδεικνύει την τεχνολογία genrm: βελτιστοποίηση των llm ως μοντέλα ανταμοιβής για τη βελτίωση των δυνατοτήτων συλλογιστικής τεχνητής νοημοσύνης

εισαγωγή

τα στοιχεία επικοινωνίας μου