νέα

το o1 κερδίζει το gpt-4 στον ιατρικό τομέα και η απόδοσή του εκτοξεύεται στα ύψη! η κινεζική ομάδα εξέδωσε ένα άρθρο: πλησιάζουμε πιο κοντά στους γιατρούς της τεχνητής νοημοσύνης.

2024-10-04

한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina



  νέα έκθεση σοφίας

επιμέλεια: lrs
[εισαγωγή στη νέα σοφία]το μοντέλο o1 του openai έχει επιδείξει αξιοσημείωτες επιδόσεις σε γενικές γλωσσικές εργασίες.


όταν το μοντέλο της μεγάλης γλώσσας κυκλοφόρησε για πρώτη φορά, ξεπέρασε επιτυχώς την εργασία του, την ευελιξία του τομέα και τις δυνατότητες δημιουργίας ομαλών κειμένων, ωστόσο, η τεχνολογία εκείνη την εποχή μπορούσε να εφαρμοστεί μόνο σε ορισμένες σχετικά απλές εργασίες.


με την εμφάνιση άμεσων τεχνολογιών όπως η αλυσίδα σκέψης, ειδικά το νέο μοντέλο o1 του openai, είναι το πρώτο που υιοθέτησε την εσωτερικευμένη τεχνολογία αλυσίδας σκέψης της στρατηγικής ενισχυτικής μάθησης, η οποία βελτιώνει την ικανότητα μεγάλων μοντέλων να επιλύουν πολύπλοκα προβλήματα και να συλλογίζονται ένα εντελώς νέο επίπεδο.


αν και το μοντέλο o1 έχει δείξει εκπληκτικά ισχυρές ικανότητες σε διάφορες γενικές γλωσσικές εργασίες, η απόδοσή του σε επαγγελματικούς τομείς όπως η ιατρική είναι ακόμα άγνωστη.


μια κινεζική ομάδα από το πανεπιστήμιο της καλιφόρνια, σάντα κρουζ, το πανεπιστήμιο του εδιμβούργου και τα εθνικά ινστιτούτα υγείας δημοσίευσαν από κοινού μια έκθεση, διενεργώντας μια ολοκληρωμένη εξερεύνηση του o1 σε διαφορετικά ιατρικά σενάρια και εξετάζοντας την απόδοση του μοντέλου στην κατανόηση και τη λογική .) και δυνατότητες πολυγλωσσίας.



η αξιολόγηση καλύπτει έξι εργασίες χρησιμοποιώντας δεδομένα από 37 ιατρικά σύνολα δεδομένων, συμπεριλαμβανομένων δύο δύσκολων εργασιών ερωτήσεων και απαντήσεων που βασίζονται στο new england journal of medicine (nejm) και στο the lancet professional medical test.


σε σύγκριση με τα τυπικά σημεία αναφοράς για την απάντηση ιατρικών ερωτήσεων, όπως το medqa, αυτά τα σύνολα δεδομένων είναι πιο κλινικά σχετικά και μπορούν να εφαρμοστούν πιο αποτελεσματικά σε κλινικά σενάρια πραγματικού κόσμου.


η ανάλυση του μοντέλου o1 δείχνει ότι η ενίσχυση της συλλογιστικής ικανότητας των llms συμβάλλει περισσότερο στην κατανόηση από το μοντέλο των διαφόρων ιατρικών οδηγιών και μπορεί επίσης να βελτιώσει την ικανότητα του μοντέλου να συλλογίζεται σε πολύπλοκα κλινικά σενάρια.


αξίζει να σημειωθεί ότι η ακρίβεια του μοντέλου o1 σε 19 σύνολα δεδομένων και δύο σύνθετα σενάρια ερωτήσεων και απαντήσεων ξεπέρασε το προηγούμενο gpt-4 κατά 6,2% και 6,6% κατά μέσο όρο.


ταυτόχρονα, οι ερευνητές βρήκαν αρκετά ελαττώματα στις δυνατότητες του μοντέλου και στα υπάρχοντα πρωτόκολλα αξιολόγησης, συμπεριλαμβανομένων των παραισθήσεων, των ασυνεπών πολυγλωσσικών δυνατοτήτων και των ασυνεπών μετρήσεων αξιολόγησης.


ολοκληρωμένη αξιολόγηση των ιατρικών δυνατοτήτων μεγάλων μοντέλων


όσον αφορά τη βελτίωση της συλλογιστικής ικανότητας του μοντέλου, οι προτροπές της αλυσίδας σκέψης (cot) είναι μια ευρέως χρησιμοποιούμενη στρατηγική άμεσης λειτουργίας, η οποία χρησιμοποιεί τα μοτίβα συλλογιστικής μέσα στο μοντέλο για να ενισχύσει την ικανότητα επίλυσης πολύπλοκων εργασιών.


το μοντέλο o1 προχωρά ένα βήμα παραπέρα, ενσωματώνοντας τη διαδικασία cot στην εκπαίδευση μοντέλων, ενσωματώνοντας την ενισχυτική μάθηση και επιδεικνύοντας ισχυρή συλλογιστική απόδοση, ωστόσο, το μοντέλο o1 δεν έχει ακόμη αξιολογηθεί με δεδομένα σε επαγγελματικούς τομείς και η απόδοσή του σε συγκεκριμένες εργασίες εξακολουθεί να είναι άγνωστος.



τα υπάρχοντα σημεία αναφοράς llm στον ιατρικό τομέα αξιολογούν συνήθως μόνο συγκεκριμένες δυνατότητες του μοντέλου, όπως η γνώση και η λογική, η ασφάλεια και η πολυγλωσσία.



για να εξασφαλίσουν μια ολοκληρωμένη αξιολόγηση, οι ερευνητές συνέλεξαν μια ποικιλία ιατρικών εργασιών και συνόλων δεδομένων που καλύπτουν τις παραπάνω πτυχές και διερεύνησαν τρεις στρατηγικές προτροπής στη διαδικασία, όπως:


1. απευθείας προτροπές για καθοδήγηση μεγάλων γλωσσικών μοντέλων για την άμεση επίλυση προβλημάτων

2. αλυσίδα σκέψης, η οποία απαιτεί από το μοντέλο να σκεφτεί βήμα-βήμα πριν δώσει την τελική απάντηση.

3. λίγες υποδείξεις δίνουν στο μοντέλο αρκετά παραδείγματα για να μάθει τη χαρτογράφηση εισόδου-εξόδου αμέσως.


τέλος, χρησιμοποιήστε μια κατάλληλη μέτρηση για να μετρήσετε τη διαφορά μεταξύ των δημιουργούμενων απαντήσεων και των πραγματικών απαντήσεων.



εστίαση και καθήκοντα


οι ερευνητές χρησιμοποίησαν 35 υπάρχοντα σύνολα δεδομένων και δημιούργησαν 2 πρόσθετα σύνολα δεδομένων με μεγαλύτερη δυσκολία για αξιολόγηση και στη συνέχεια ταξινόμησαν και τα 37 σύνολα δεδομένων σε 3 πτυχές και 6 εργασίες για σαφέστερη αξιολόγηση και αναλυτικά στοιχεία για να κατανοήσουν πώς αποδίδει ένα μοντέλο σε έναν συγκεκριμένο τομέα.


κατανόησηαναφέρεται στην ικανότητα του μοντέλου να χρησιμοποιεί τις εσωτερικές ιατρικές του γνώσεις για την κατανόηση ιατρικών εννοιών.


για παράδειγμα, στις εργασίες αναγνώρισης εννοιών, τα μοντέλα πρέπει να εξάγουν ή να επεξεργάζονται ιατρικές έννοιες από άρθρα ή διαγνωστικές αναφορές στη σύνοψη κειμένων, τα μοντέλα πρέπει να κατανοούν έννοιες σε πολύπλοκα κείμενα για να δημιουργήσουν συνοπτικές περιλήψεις.


αιτιολογίαδοκιμάστε την ικανότητα του μοντέλου να σκέφτεται λογικά μέσα από πολλά βήματα για να καταλήξετε σε συμπεράσματα.


στις εργασίες ερωτήσεων και απαντήσεων, το μοντέλο πρέπει να ακολουθεί άμεσες οδηγίες για να αιτιολογήσει με βάση τις ιατρικές πληροφορίες που παρέχονται στην ερώτηση και να επιλέξει τη σωστή απάντηση από πολλές επιλογές.


εκτός από τα κοινά σύνολα δεδομένων ερωτήσεων και απαντήσεων, οι ερευνητές συνέλεξαν επίσης κλινικές ερωτήσεις πραγματικού κόσμου από το the lancet, το new england journal of medicine (nejm) και το medbullets για να αξιολογήσουν καλύτερα την κλινική χρησιμότητα των llm.


στις εργασίες κλινικής σύστασης, τα μοντέλα πρέπει να παρέχουν συστάσεις θεραπείας ή διαγνωστικές αποφάσεις με βάση τις πληροφορίες των ασθενών. στα σύνολα δεδομένων ai ​​hospital και agentclinic, το μοντέλο πρέπει να λειτουργεί ως ιατρικός παράγοντας στο σύνολο δεδομένων medcalc-bench, το μοντέλο πρέπει να εκτελεί μαθηματικούς συλλογισμούς και να υπολογίζει τις απαντήσεις.


πολυγλωσσία, οι γλώσσες για την εισαγωγή οδηγιών και την έξοδο των απαντήσεων είναι διαφορετικές.


το σύνολο δεδομένων xmedbench απαιτεί από τους llm να απαντούν σε ιατρικές ερωτήσεις σε έξι γλώσσες, συμπεριλαμβανομένων των κινεζικών, αραβικών, χίντι, ισπανικών, κινέζων και αγγλικών στο σύνολο δεδομένων ai ​​hospital, το μοντέλο πρέπει να χρησιμοποιεί κινέζικα για ερωτήσεις και απαντήσεις.


δείκτες αξιολόγησης


ακρίβεια, ένα άμεσο μέτρο του ποσοστού των απαντήσεων που παράγονται από το μοντέλο που ταιριάζουν ακριβώς με την αληθινή απάντηση.


χρησιμοποιείται κυρίως όταν η πραγματική απάντηση είναι μια λέξη ή φράση, συμπεριλαμβανομένων συνόλων δεδομένων ερωτήσεων πολλαπλής επιλογής, συνόλων δεδομένων medcalcbench και συνόλων δεδομένων κλινικών συμβουλών και ταυτοποίησης εννοιών.


η βαθμολογία f1, η αρμονική μέση ακρίβεια και ανάκληση, χρησιμοποιείται σε σύνολα δεδομένων όπου το μοντέλο πρέπει να επιλέξει πολλές σωστές απαντήσεις.


bleu και rouge, μια μέτρηση επεξεργασίας φυσικής γλώσσας που μετρά την ομοιότητα μεταξύ των δημιουργούμενων απαντήσεων και των πραγματικών απαντήσεων, χρησιμοποιώντας bleu-1 και rouge-1 για όλες τις εργασίες δημιουργίας ελεύθερης μορφής στην αξιολόγηση


alignscore, μια μέτρηση που μετρά τη συνέπεια των παραγόμενων γεγονότων κειμένου, χρησιμοποιεί το alignscore για όλες τις εργασίες δημιουργίας απροσδιόριστης μορφής για να αξιολογήσει τον βαθμό ψευδαίσθησης του μοντέλου.


μωβ, μια μέτρηση που μετρά τη διαφορά μεταξύ της κατανομής του κειμένου που δημιουργείται και του κειμένου που έχει γραφτεί από άνθρωπο, χρησιμοποιείται για όλες τις εργασίες δημιουργίας μη καθορισμένης μορφής η τιμή της μέτρησης κυμαίνεται από 0 έως 100, με υψηλότερες τιμές που υποδηλώνουν υψηλότερη ποιότητα του μοντέλου. παραγωγή.


πειραματικά αποτελέσματα


άμεση στρατηγική


για εργασίες ερωτήσεων και απαντήσεων γνώσης, εργασίες πράκτορα, εργασίες ιατρικών υπολογιστών και εργασίες που σχετίζονται με πολλές γλώσσες, χρησιμοποιήστε μεθόδους άμεσης αξιολόγησης.


για άλλες εργασίες από το meds-bench, ακολουθείται η στρατηγική προτροπής τριών δειγμάτων στη ρύθμιση συγκριτικής αξιολόγησης.



σύμφωνα με τη δήλωση του openai, οι κοινές τεχνικές προτροπής όπως το chain of thoughts (cot) και τα examples in context δεν βοηθούν πολύ στη βελτίωση της απόδοσης του o1, επειδή το μοντέλο έχει ήδη ενσωματωμένο ένα σιωπηρό cot.


για να ελέγξουν περαιτέρω αυτόν τον ισχυρισμό, οι ερευνητές πρόσθεσαν τα αποτελέσματα πολλών προηγμένων ενδείξεων στην αξιολόγηση, συμπεριλαμβανομένων των cot, self consistency και reflex


εκτός από την επιλογή μοντέλων gpt-3.5, gpt-4 και o1 για αξιολόγηση, οι ερευνητές επέλεξαν επίσης δύο μοντέλα ανοιχτού κώδικα: το ένα είναι ένα μοντέλο μεγάλης γλώσσας meditron-70b εκπαιδευμένο με δεδομένα ιατρικού κέντρου και το πιο πρόσφατο και ισχυρότερο ανοιχτού κώδικα μοντέλο μεγάλη γλώσσα μοντέλο llama3-8b


κύρια αποτελέσματα


οι ικανότητες του o1 στην κλινική κατανόηση έχουν βελτιωθεί


όταν κυκλοφόρησε το μοντέλο o1, το openai έδωσε έμφαση κυρίως σε αυτόσημαντικές βελτιώσεις στη γνώση και τις συλλογιστικές ικανότητες, όπως η επίλυση μαθηματικών προβλημάτων και η δημιουργία κώδικα, μπορούν επίσης να παρατηρηθούν από τα πειραματικά αποτελέσματα, και αυτή η ικανότητα μπορεί επίσης να μεταφερθεί στην κατανόηση συγκεκριμένης κλινικής γνώσης.



μπορεί να φανεί ότι το o1 υπερτερεί των άλλων μοντέλων όσον αφορά την κατανόηση των περισσότερων κλινικών εργασιών. υψηλότερα, με μέση βελτίωση 24,5% στο κοινώς χρησιμοποιούμενο σύνολο δεδομένων bc4chem.



στη συνοπτική εργασία, το o1 βελτίωσε τη βαθμολογία του rouge-1 κατά 2,4% και 3,7% αντίστοιχα σε σύγκριση με τα gpt-4 και gpt-3,5, αποδεικνύοντας την βελτιωμένη ικανότητά του στην κλινική κατανόηση του πραγματικού κόσμου στο πρόοδοι γενικής χρήσης οι δυνατότητες επεξεργασίας φυσικής γλώσσας μπορούν να μεταφραστούν αποτελεσματικά σε βελτιωμένη κατανόηση μοντέλων στον ιατρικό τομέα.


η ισχυρή συλλογιστική ικανότητα του μοντέλου o1 σε σενάρια κλινικής διάγνωσης


σε εργασίες που σχετίζονται με τη λογική, το μοντέλο o1 έχει επίσης αποδείξει τα πλεονεκτήματά του σε πραγματικές διαγνωστικές καταστάσεις.


στις πρόσφατα κατασκευασμένες και απαιτητικές εργασίες απάντησης ερωτήσεων nejmqa και lancetqa, η μέση ακρίβεια του o1 στα αντίστοιχα σύνολα δεδομένων βελτιώνεται κατά 8,9% και 27,1% σε σύγκριση με το gpt-4 (79,6%) και το gpt-3,5 (61,5%) αντίστοιχα.


μια άλλη αξιοσημείωτη βελτίωση στις δυνατότητες μαθηματικού συλλογισμού του o1 είναι ότι βελτιώνει τη βασική γραμμή medcalc-bench στο 34,9%, ένα σημαντικό 9,4% υψηλότερο από το gpt-4


σε πιο σύνθετα σενάρια συλλογιστικής που περιλαμβάνουν πολλαπλούς γύρους διαλόγου και προσομοίωσης περιβάλλοντος, το o1 ξεπερνά τα gpt-4 και gpt-3.5 στο σημείο αναφοράς agentclinic, κερδίζοντας τουλάχιστον 15,5% και 10% στα υποσύνολα medqa και nejm, αντίστοιχα , με σκορ 45,5% και 20,0% αντίστοιχα.


εκτός από την υψηλότερη ακρίβεια, οι απαντήσεις του o1 είναι επίσης πιο συνοπτικές και άμεσες, ενώ το gpt-4 δημιουργεί παραισθήσεις δίπλα σε λάθος απαντήσεις.



οι ερευνητές πιστεύουν ότι οι βελτιώσεις του o1 στη γνώση και τη συλλογιστική αποδίδονται κυρίως στη χρήση βελτιωμένων δεδομένων και υποκείμενων τεχνικών (όπως δεδομένα cot και τεχνικές ενισχυτικής μάθησης) κατά τη διάρκεια της εκπαιδευτικής διαδικασίας.


με βάση τα παραπάνω αισιόδοξα αποτελέσματα, οι ερευνητές δήλωσαν ενθουσιασμένοι στην εργασία: με το μοντέλο o1, πλησιάζουμε όλο και πιο κοντά σε έναν πλήρως αυτόματο γιατρό ai.


παραπομπές: