τα στοιχεία επικοινωνίας μου
ταχυδρομείο[email protected]
2024-10-03
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
το έργο ενός κινέζου που γεννήθηκε τη δεκαετία του 2000 δημοσιεύτηκε στο nature και αυτό το μεγάλο μοντέλο χαρτιού προκάλεσε έντονες συζητήσεις.
με απλά λόγια, η εφημερίδα διαπίστωσε ότι τα μεγαλύτερα μοντέλα που ακολουθούν τις οδηγίες πιο προσεκτικά γίνονται επίσης λιγότερο αξιόπιστα και σε ορισμένες περιπτώσειςτο gpt-4 δεν είναι τόσο αξιόπιστο όσο το gpt-3 στην απάντηση ερωτήσεων。
σε σύγκριση με προηγούμενα μοντέλα, τα τελευταία μοντέλα, τα οποία έχουν μεγαλύτερη υπολογιστική ισχύ και ανθρώπινη ανάδραση, έχουν πράγματι χειροτερέψει ως προς την αξιοπιστία των απαντήσεων.
μόλις βγήκε το συμπέρασμα, προσέλκυσε αμέσως περισσότερους από 200.000 χρήστες του διαδικτύου να παρακολουθήσουν:
προκάλεσε επίσης συζητήσεις στο φόρουμ του reddit.
αυτό υπενθυμίζει στους ανθρώπους ότι πολλά μοντέλα σε επίπεδο ειδικού/διδακτορικού εξακολουθούν να μην γνωρίζουν την απλή ερώτηση "ποιο είναι μεγαλύτερο, 9,9 ή 9,11".
σχετικά με αυτό το φαινόμενο, η εφημερίδα ανέφερε ότι αυτό αντανακλά επίσηςη απόδοση του μοντέλου δεν ταιριάζει με τις ανθρώπινες προσδοκίες δυσκολίας。
με άλλα λόγια, "τα llm τόσο πετυχαίνουν όσο και (πιο επικίνδυνα) αποτυγχάνουν σε μέρη όπου οι χρήστες δεν περιμένουν."
ο ilya sutskever προέβλεψε το 2022:
ίσως με τον καιρό αυτή η διαφορά να μειωθεί.
ωστόσο, αυτό το έγγραφο διαπιστώνει ότι αυτό δεν συμβαίνει. όχι μόνο σειρές gpt, llama και bloom, αλλά ακόμηopenaiνέοςo1 μοντέλο και claude-3.5-sonnetυπάρχουν επίσης ανησυχίες σχετικά με την αξιοπιστία.
το πιο σημαντικό, το χαρτί βρήκε επίσηςβασιστείτε στην ανθρώπινη επίβλεψη για να διορθώσετε τα λάθηούτε η προσέγγιση λειτουργεί.
ορισμένοι χρήστες του διαδικτύου πιστεύουν ότι παρόλο που τα μεγαλύτερα μοντέλα ενδέχεται να προκαλέσουν προβλήματα αξιοπιστίας, παρέχουν επίσης πρωτοφανή λειτουργικότητα.
πρέπει να επικεντρωθούμε στην ανάπτυξη ισχυρών μεθόδων αξιολόγησης και στην αύξηση της διαφάνειας.
άλλοι πιστεύουν ότι αυτή η μελέτη αναδεικνύειόλα συμπεριλαμβάνονταιλεπτές προκλήσεις που αντιμετωπίζονται(εξισορρόπηση επέκτασης και αξιοπιστίας μοντέλου)。
για να επεξηγήσει το συμπέρασμα, η εργασία εξετάζει τρεις βασικές πτυχές που επηρεάζουν την αξιοπιστία των llm από την ανθρώπινη προοπτική:
1、ασυνεπής δυσκολία: αποτυγχάνουν τα llm εκεί που οι άνθρωποι περιμένουν να αποτύχουν;
2、αποφυγή εργασιών: οι llm αποφεύγουν να απαντούν σε ερωτήσεις που ξεπερνούν τις δυνατότητές τους;
3、ευαισθησία στις προτρεπτικές γλωσσικές εκφράσεις: η αποτελεσματικότητα της σύνθεσης του προβλήματος επηρεάζεται από τη δυσκολία του προβλήματος;
το πιο σημαντικό, οι συγγραφείς αναλύουν επίσης τις ιστορικές τάσεις και πώς αυτές οι τρεις πτυχές εξελίσσονται με δυσκολία εργασίας.
αναπτύξτε τα ένα προς ένα παρακάτω.
για το πρώτο ερώτημα, η εργασία εστιάζει κυρίως σεεξέλιξη της ορθότητας σε σχέση με τη δυσκολία。
κρίνοντας από την εξέλιξη των gpt και llama, όσο αυξάνεται η δυσκολία, η ορθότητα όλων των μοντέλων θα μειωθεί σημαντικά.(σύμφωνα με τις ανθρώπινες προσδοκίες)
ωστόσο, αυτά τα μοντέλα εξακολουθούν να μην μπορούν να λύσουν πολλές πολύ απλές εργασίες.
αυτό σημαίνει ότι οι ανθρώπινοι χρήστες δεν μπορούν να ανακαλύψουν τον ασφαλή χώρο λειτουργίας των llm και να τον χρησιμοποιήσουν για να διασφαλίσουν ότι η απόδοση ανάπτυξης του μοντέλου μπορεί να είναι άψογη.
παραδόξως, τα νέα llm βελτιώνουν κυρίως την απόδοση σε δύσκολες εργασίες, χωρίς σημαντική βελτίωση σε απλούστερες εργασίες. για παράδειγμα,gpt-4 σε σύγκριση με τον προκάτοχό του gpt-3.5-turbo。
τα παραπάνω αποδεικνύουν ότι υπάρχει ασυνέπεια μεταξύ των προσδοκιών ανθρώπινης δυσκολίας και της απόδοσης του μοντέλου.και αυτή η ασυνέπεια επιδεινώνεται στο νέο μοντέλο.
αυτό σημαίνει επίσης:
επί του παρόντος, δεν υπάρχουν ασφαλείς συνθήκες λειτουργίας για να προσδιορίσουν οι άνθρωποι ότι τα llm μπορούν να είναι αξιόπιστα.
αυτό είναι ιδιαίτερα ανησυχητικό σε εφαρμογές που απαιτούν υψηλή αξιοπιστία και αναγνώριση ασφαλών χώρων λειτουργίας. αυτό κάνει τους ανθρώπους να σκεφτούν αν η νοημοσύνη μηχανών αιχμής που οι άνθρωποι εργάζονται σκληρά για να δημιουργήσουν είναι πραγματικά αυτή που περιμένει το κοινό να έχει.
δεύτερον, όσον αφορά το σημείο 2, τα πορίσματα της εργασίας(η αποφυγή αναφέρεται συνήθως στο μοντέλο που αποκλίνει από την απάντηση στην ερώτηση ή δηλώνει απευθείας "δεν ξέρω"):
σε σύγκριση με προηγούμενα llm,τα τελευταία llm βελτιώνουν δραστικά πολλές από τις απαντήσεις που είναι λανθασμένες ή σοβαρές ανοησίες, αντί να αποφεύγουν προσεκτικά εργασίες πέρα από τις δυνατότητές τους.
αυτό οδηγεί επίσης σε ένα ειρωνικό φαινόμενο: σε ορισμένα σημεία αναφοράς, το ποσοστό σφάλματος των νέων llms βελτιώνεται ακόμη πιο γρήγορα από την ακρίβεια (doge).
σε γενικές γραμμές, όσο πιο δύσκολο είναι ένα έργο που αντιμετωπίζουν οι άνθρωποι, τόσο πιο πιθανό είναι να είναι ασαφείς.
αλλά η πραγματική απόδοση των llms είναι εντελώς διαφορετικήη συμπεριφορά αποφυγής τους δεν σχετίζεται σημαντικά με τη δυσκολία.
αυτό μπορεί εύκολα να οδηγήσει τους χρήστες που αρχικά βασίζονται υπερβολικά σε llm για να ολοκληρώσουν εργασίες στις οποίες δεν είναι καλοί, αλλά μακροπρόθεσμα να τους απογοητεύσει.
κατά συνέπεια, οι άνθρωποι πρέπει επίσης να επαληθεύσουν την ακρίβεια της παραγωγής του μοντέλου και να ανιχνεύσουν σφάλματα.(αν θέλετε να χρησιμοποιήσετε llm για να είστε τεμπέληδες, θα έχετε μεγάλη έκπτωση)
τέλος, η εργασία διαπίστωσε ότι ακόμη και αν κάποιοι δείκτες αξιοπιστίας έχουν βελτιωθεί, το μοντέλο εξακολουθεί να είναι ευαίσθητο σε μικρές αλλαγές διατύπωσης του ίδιου προβλήματος.
δώστε ένα κάστανο, η ερώτηση "μπορείτε να απαντήσετε..." αντί "παρακαλώ απαντήστε στην ακόλουθη ερώτηση..." θα έχει ως αποτέλεσμα διαφορετικούς βαθμούς ακρίβειας.
η ανάλυση βρέθηκε:το να στηριζόμαστε αποκλειστικά στην υπάρχουσα κλιμάκωση και διαμόρφωση είναι απίθανο να λύσει πλήρως το πρόβλημα της ευαισθησίας των ενδείξεων, καθώς τα τελευταία μοντέλα δεν έχουν βελτιστοποιηθεί σημαντικά σε σύγκριση με τους προκατόχους τους.
και ακόμη κι αν επιλέξετε την καλύτερη μορφή αναπαράστασης όσον αφορά τη μέση απόδοση, μπορεί να είναι κυρίως αποτελεσματική για εργασίες υψηλής δυσκολίας, αλλά ταυτόχρονα αναποτελεσματική για εργασίες χαμηλής δυσκολίας.(μεγαλύτερο ποσοστό σφάλματος)。
αυτό δείχνει ότιη ανθρωπότητα εξακολουθεί να υπόκειται στο προτρεπτικό έργο。
αυτό που είναι ακόμη πιο τρομακτικό είναι ότι η εφημερίδα το βρήκε αυτόη ανθρώπινη επίβλεψη δεν μπορεί να μετριάσει την αναξιοπιστία του μοντέλου。
η εργασία αναλύει με βάση ανθρώπινες έρευνες εάν οι ανθρώπινες αντιλήψεις για τη δυσκολία είναι συνεπείς με την πραγματική απόδοση και εάν οι άνθρωποι μπορούν να αξιολογήσουν με ακρίβεια την απόδοση του μοντέλου.
τα αποτελέσματα δείχνουν, στην περιοχή λειτουργίας που οι χρήστες θεωρούν δύσκολη, συχνά θεωρούν τη λανθασμένη έξοδο ως σωστή, ακόμη και για απλές εργασίες, δεν υπάρχει ασφαλής περιοχή λειτουργίας με χαμηλό σφάλμα μοντέλου και χαμηλό σφάλμα επίβλεψης.
τα παραπάνω προβλήματα αναξιοπιστίας υπάρχουν σε πολλές σειρές llm, συμπεριλαμβανομένων των gpt, llama και bloom τα ακόλουθα παρατίθενται στη μελέτη32 μοντέλα。
αυτά τα μοντέλα παρουσιάζουν διαφορετικάκλιμάκωση(αυξημένοι υπολογισμοί, μέγεθος μοντέλου και δεδομένα) καιδιαμορφώνοντας(για παράδειγμα, οδηγίες ft, rlhf).
εκτός από τα παραπάνω, οι συγγραφείς ανακάλυψαν αργότερα ότι ορισμένα από τα πιο πρόσφατα και ισχυρά μοντέλα υποφέρουν επίσης από τα ζητήματα αναξιοπιστίας που αναφέρονται σε αυτό το άρθρο:
συμπεριλαμβανομένου του μοντέλου o1 του openai, του claude-3.5-sonnet του antropicic και του llama-3.1-405b του meta。
υπάρχει επίσης ένα έγγραφο που δίνει παραδείγματα.(για λεπτομέρειες, ανατρέξτε στο πρωτότυπο έγγραφο):
επιπλέον, προκειμένου να επαληθευτεί εάν άλλα μοντέλα έχουν προβλήματα αξιοπιστίας, ο συγγραφέας χρησιμοποίησε τα δοκιμαστικά σημεία αναφοράς που χρησιμοποιήθηκαν στην εργασίαreliabilitybanchείναι επίσης ανοιχτού κώδικα.
αυτό είναι ένα σύνολο δεδομένων που καλύπτει πέντε τομείς, απλή αριθμητική ("προσθήκη"), αναδιοργάνωση λεξιλογίου ("παζλ λέξεων"), γεωγραφικές γνώσεις ("τοποθεσία"), βασικά και προηγμένα επιστημονικά προβλήματα ("επιστήμη") και κεντρικά βασισμένα σε πληροφορίες μεταμόρφωση («μεταμόρφωση»).
το πρώτο χαρτίlexin zhou, επί του παρόντος μόλις αποφοίτησε από το πανεπιστήμιο του cambridge με μεταπτυχιακό στο cs (24 ετών), και το ερευνητικό του ενδιαφέρον είναι η μεγάλη αξιολόγηση γλωσσικού μοντέλου.
πριν από αυτό, απέκτησε πτυχίο στην επιστήμη δεδομένων από το πολυτεχνικό πανεπιστήμιο της βαλένθια, υπό την εποπτεία του καθηγητή jose hernandez-orallo.
η προσωπική του σελίδα δείχνει ότι είχε πολλές εμπειρίες πρακτικής άσκησης. συμμετείχε σε δοκιμές κόκκινων ομάδων τόσο στο openai όσο και στο meta.(red teaming consultancy)
σχετικά με αυτό το άρθρο, εστίασε στα εξής:
ο σχεδιασμός και η ανάπτυξη της γενικής τεχνητής νοημοσύνης χρειάζεται ναθεμελιώδης αλλαγή, ειδικά σε τομείς υψηλού κινδύνου, όπου η προβλέψιμη κατανομή σφαλμάτων είναι ζωτικής σημασίας. πριν επιτευχθεί αυτό,υπάρχει κίνδυνος να βασίζεσαι στην ανθρώπινη επίβλεψη.
κατά την αξιολόγηση ενός μοντέλου,λάβετε υπόψη τη δυσκολία που αντιλαμβάνεται ο άνθρωπος και αξιολογήστε τη συμπεριφορά αποφυγής του μοντέλου, μπορεί να παρέχει μια πιο ολοκληρωμένη περιγραφή των δυνατοτήτων και των κινδύνων του μοντέλου, αντί να εστιάζει απλώς στην απόδοση σε δύσκολες εργασίες.
το έγγραφο αναφέρει επίσης συγκεκριμένα ορισμένους πιθανούς λόγους για αυτές τις αναξιοπιστίες, καθώς και λύσεις:
στο scaling-up, τα σημεία αναφοράς τα τελευταία χρόνια τείνουν όλο και περισσότερο να προσθέτουν πιο δύσκολα παραδείγματα ή να δίνουν μεγαλύτερη βαρύτητα στις αποκαλούμενες «έγκυρες» πηγές. ως εκ τούτου, οι ερευνητές είναι πιο διατεθειμένοι να βελτιστοποιούν την απόδοση των μοντέλων σε δύσκολες εργασίες, με αποτέλεσμα το chronic. επιδείνωση της συνέπειας δυσκολίας.
κατά τη διαμόρφωση (όπως το rlhf), το προσλαμβανόμενο άτομο τείνει να τιμωρεί τις απαντήσεις που παρακάμπτουν την εργασία, με αποτέλεσμα το μοντέλο να είναι πιο πιθανό να «μιλάει ανοησίες» όταν αντιμετωπίζει δύσκολα προβλήματα που δεν μπορεί να λύσει.
πώς να λύσετε αυτές τις αναξιοπιστίες, η εργασία πιστεύει ότι οι προσδοκίες ανθρώπινης δυσκολίας μπορούν να χρησιμοποιηθούν για την καλύτερη εκπαίδευση ή βελτίωση του μοντέλου ή η δυσκολία εργασίας και η εμπιστοσύνη του μοντέλου μπορούν να χρησιμοποιηθούν για να διδάξουν καλύτερα το μοντέλο να αποφύγει προβλήματα πέρα από τις δικές του δυνατότητες κ.λπ.
τι πιστεύετε για αυτό;