νέα

χιονοστιβάδα mini κατάταξης gpt-4o, ενημερώθηκαν οι κανόνες αρένας μεγάλων μοντέλων, μη έγκυρες συμβουλές ενίσχυσης πόντων ultraman

2024-08-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ενημερώθηκαν οι κανόνες αρένας μεγάλου μοντέλου,η κατάταξη του gpt-4o mini κατέρρευσε αμέσως και έπεσε έξω από το top 10

η νέα λίστα απαντά στο aiχαρακτηριστικά όπως το μήκος και το στυλ έχουν υποβαθμιστεί., διασφαλίζοντας ότι η βαθμολογία αντικατοπτρίζει την πραγματική ικανότητα του μοντέλου να λύσει το πρόβλημα.

η προσπάθεια χρήσης όμορφων μορφών, η αύξηση του αριθμού των υπότιτλων και άλλες τεχνικές για να ευχαριστήσουν τους χρήστες και να ενισχύσουν την κατάταξη είναι πλέον άχρηστες.

σύμφωνα με τους νέους κανόνες, ultraman'sgpt-4o μίνι, του μασκσειρά grok-2σημαντική πτώση στην κατάταξη, googlegemini-1,5-flashτα μικρά μοντέλα έχουν επίσης πέσει πίσω.

σειρά claudeλάμα-3,1-405βοι βαθμολογίες των μεγάλων μοντέλων έχουν αυξηθεί το ένα μετά το άλλο.

κατά τον υπολογισμό μόνο σκληρών εργασιών (hard prompt), το πλεονέκτημα των μεγάλων μοντέλων στη λίστα ελέγχου στυλ είναι ακόμη πιο εμφανές.

προηγουμένως, το μίνι μοντέλο gpt-4o έφτασε στην κορυφή, ισοβαθμώντας στην πρώτη θέση με την έκδοση πλήρους υγείας gpt-4o, η οποία ήταν προφανώς ασυνεπής με την αίσθηση αφής των χρηστών.

το lmsys large model arena, ένα πρότυπο αξιολόγησης που συνιστούσε κάποτε η karpathy, έχει επίσης πέσει στο σημείο όπου «μπορεί να αντικατοπτρίζει μόνο τις προτιμήσεις των χρηστών και όχι τις δυνατότητες του μοντέλου».

ο οργανισμός lmsys έμαθε από την εμπειρία και αποκάλυψε αρχικά τα δεδομένα 1.000 μαχών στις οποίες συμμετείχε το gpt-4o mini, αναλύοντας έτσι το ποσοστό απόρριψης του μοντέλου, το μήκος του παραγόμενου περιεχομένου και τη μορφοποίηση ως διάφορους παράγοντες που επηρεάζουν τα αποτελέσματα της ψηφοφορίας.

επιπλέον, πριν από την κυκλοφορία του gpt-4o mini, ο ultraman άφησε να εννοηθεί ότι είχε βελτιστοποιηθεί σύμφωνα με τις ανθρώπινες προτιμήσεις.

τώρα, η lmsys έχει προχωρήσει ένα βήμα παραπέρα και ξεκίνησε έναν νέο αλγόριθμο για τον έλεγχο αυτών των παραγόντων, και αυτό είναι μόνο το πρώτο βήμα στον προγραμματισμό.

πώς να ελέγξετε την επιρροή του στυλ;

ας υποθέσουμε ότι υπάρχειμοντέλο αείναι καλό στη δημιουργία κώδικα, γεγονότων, αμερόληπτων απαντήσεων κ.λπ., αλλά η έξοδος του είναι πολύ συνοπτική.

μοντέλο βδεν είναι πολύ καλό όσον αφορά την ουσία (όπως η ορθότητα), αλλά η παραγωγή του είναι μεγάλη, λεπτομερής και όμορφα διαμορφωμένη.

ποιο λοιπόν είναι καλύτερο;

η απάντηση δεν είναι μοναδική, η lmsys προσπαθεί μαθηματικά να ανακαλύψει πόσο από τη βαθμολογία ενός μοντέλου συνεισφέρει το περιεχόμενο ή το στυλ.

επιπλέον, πρόσφατες μελέτες έχουν δείξει ότιοι άνθρωποι μπορεί να προτιμούν απαντήσεις τεχνητής νοημοσύνης που είναι όμορφα διαμορφωμένες και πιο λεπτομερείς.

από μέσαο μπράντλεϊ-τέρι επιστρέφειπροσθέστε χαρακτηριστικά στυλ, όπως μήκος απόκρισης, αριθμό υποτίτλων, λίστες και αριθμό έντονων κειμένων ως ορίσματα.

αυτή είναι μια κοινή τεχνική στη στατιστική και έχει χρησιμοποιηθεί πρόσφατα για την αξιολόγηση μεγάλων μοντέλων από την alpacaeval lc και άλλους.

η συμπερίληψη τυχόν συγχυτικών μεταβλητών (όπως το μήκος απόκρισης) στην παλινδρόμηση επιτρέπει την αύξηση των βαθμολογιών να αποδοθεί στις συγχυτικές μεταβλητές και όχι στην ίδια την ισχύ του μοντέλου.

ο σχετικός κωδικός έχει δημοσιοποιηθεί στο google colab.

επιπλέον, η ομάδα διεξήγαγε επίσης πειράματα αφαίρεσης σχετικά με τον «έλεγχο μόνο του μήκους» και «μόνο τον έλεγχο της μορφής». οι βαθμολογίες των σειρών gpt-4o mini και google gemini επηρεάζονται περισσότερο από τη μορφή.

ωστόσο, υπάρχουν περιορισμοί σε αυτήν την προσέγγιση, όπως η πιθανότητα μη παρατηρημένων παραγόντων σύγχυσης, όπως μια θετική συσχέτιση μεταξύ του μήκους και της ποιότητας απόκρισης, που δεν λαμβάνονται υπόψη (π.

πολλοί χρήστες του διαδικτύου είπαν ότι η προσαρμοσμένη λίστα δύσκολων εργασιών είναι πιο συνεπής με τις υποκειμενικές τους εντυπώσεις.

μερικοί άνθρωποι πιστεύουν επίσης ότι είναι το παιχνίδι μεταξύ της λίστας και των μεγάλων εταιρειών-μοντέλων που ανταγωνίζονται για τη λίστα που μπορεί να κάνει ολόκληρο το πεδίο να προχωρήσει μαζί.

εξακολουθείτε να επιλέγετε μοντέλα με βάση τα αποτελέσματα της μεγάλης αρένας μοντέλων; ή αν έχετε καλύτερες μεθόδους αξιολόγησης, μοιραστείτε τις στην περιοχή σχολίων.