2024-10-04
한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina
nouveau rapport de sagesse
lorsque le grand modèle de langage a été publié pour la première fois, il a réussi à percer grâce à ses tâches, sa polyvalence de domaine et ses capacités de génération de texte fluide. cependant, la technologie de l'époque ne pouvait être appliquée qu'à certaines tâches relativement simples.
avec l'émergence de technologies rapides telles que la chaîne de réflexion, en particulier le nouveau modèle o1 d'openai, elle est la première à adopter la technologie de chaîne de pensée internalisée de la stratégie d'apprentissage par renforcement, qui améliore la capacité des grands modèles à résoudre des problèmes complexes et à raisonner. un tout nouveau niveau.
bien que le modèle o1 ait montré des capacités étonnamment fortes sur diverses tâches linguistiques générales, ses performances dans des domaines professionnels tels que la médecine sont encore inconnues.
une équipe chinoise de l'université de californie à santa cruz, de l'université d'édimbourg et des national institutes of health a publié conjointement un rapport, menant une exploration complète de o1 dans différents scénarios médicaux et examinant les performances du modèle en termes de compréhension et de raisonnement. . ) et des capacités multilingues.
l'évaluation couvre six tâches utilisant les données de 37 ensembles de données médicales, dont deux tâches difficiles de questions et réponses basées sur le new england journal of medicine (nejm) et le lancet professional medical test.
par rapport aux critères de réponse aux questions médicales standard tels que medqa, ces ensembles de données sont plus pertinents sur le plan clinique et peuvent être appliqués plus efficacement dans des scénarios cliniques réels.
l'analyse du modèle o1 montre que l'amélioration de la capacité de raisonnement des llm est plus propice à la compréhension du modèle de diverses instructions médicales et peut également améliorer la capacité du modèle à raisonner dans des scénarios cliniques complexes.
il convient de noter que la précision du modèle o1 dans 19 ensembles de données et deux scénarios complexes de questions et réponses a dépassé le précédent gpt-4 de 6,2 % et 6,6 % en moyenne.
dans le même temps, les chercheurs ont découvert plusieurs failles dans les capacités du modèle et les protocoles d’évaluation existants, notamment des hallucinations, des capacités multilingues incohérentes et des mesures d’évaluation incohérentes.
évaluation complète des capacités médicales des grands modèles
en termes d'amélioration de la capacité de raisonnement du modèle, les invites de chaîne de pensée (cot) sont une stratégie d'invite couramment utilisée, qui utilise les modèles de raisonnement au sein du modèle pour améliorer la capacité à résoudre des tâches complexes.
le modèle o1 va encore plus loin, en intégrant le processus cot dans la formation du modèle, en intégrant l'apprentissage par renforcement et en démontrant de solides performances de raisonnement. cependant, le modèle o1 n'a pas encore été évalué avec des données dans des domaines professionnels et ses performances sur des tâches spécifiques sont encore faibles ; inconnu.
les benchmarks llm existants dans le domaine médical n'évaluent généralement que les capacités spécifiques du modèle, telles que la connaissance et le raisonnement, la sécurité et le multilinguisme. les tests sont relativement isolés les uns des autres et ne peuvent pas évaluer de manière exhaustive les modèles avancés comme o1.
pour garantir une évaluation complète, les chercheurs ont collecté une variété de tâches médicales et d'ensembles de données couvrant les aspects ci-dessus et ont exploré trois stratégies d'incitation au cours du processus, notamment :
1. invites directes pour guider les grands modèles de langage afin de résoudre directement les problèmes
2. chaîne de réflexion, qui nécessite que le modèle réfléchisse étape par étape avant de générer la réponse finale.
3. quelques conseils fournissent au modèle plusieurs exemples pour apprendre le mappage entrée-sortie à la volée.
enfin, utilisez une métrique appropriée pour mesurer la différence entre les réponses générées et les réponses réelles.
concentration et tâches
les chercheurs ont utilisé 35 ensembles de données existants et créé 2 ensembles de données supplémentaires avec une difficulté plus élevée pour l'évaluation, puis ont classé les 37 ensembles de données en 3 aspects et 6 tâches pour une évaluation et une analyse plus claires afin de comprendre comment un modèle fonctionne dans un domaine spécifique.
compréhension,désigne la capacité du modèle à utiliser ses connaissances médicales internes pour comprendre des concepts médicaux.
par exemple, dans les tâches de reconnaissance de concepts, les modèles doivent extraire ou élaborer des concepts médicaux à partir d'articles ou de rapports de diagnostic ; dans le résumé de texte, les modèles doivent comprendre les concepts de textes complexes pour générer des résumés concis.
raisonnement,testez la capacité du modèle à penser logiquement en plusieurs étapes pour parvenir à des conclusions.
dans les tâches de questions et réponses, le modèle doit suivre des instructions rapides pour raisonner sur la base des informations médicales fournies dans la question et sélectionner la bonne réponse parmi plusieurs options.
en plus des ensembles de données communs de questions et réponses, les chercheurs ont également collecté des questions cliniques du monde réel auprès de the lancet, du new england journal of medicine (nejm) et de medbullets pour mieux évaluer l'utilité clinique des llm.
dans les tâches de recommandation clinique, les modèles doivent fournir des recommandations de traitement ou des décisions de diagnostic basées sur les informations du patient. dans les ensembles de données ai hospital et agentclinic, le modèle doit agir en tant qu'agent médical ; dans l'ensemble de données medcalc-bench, le modèle doit effectuer un raisonnement mathématique et calculer des réponses.
multilinguisme, les langues de saisie des instructions et de sortie des réponses sont différentes.
l'ensemble de données xmedbench nécessite que les llm répondent aux questions médicales en six langues, dont le chinois, l'arabe, l'hindi, l'espagnol, le chinois et l'anglais ; dans l'ensemble de données ai hospital, le modèle doit utiliser le chinois pour les questions et réponses.
indicateurs d'évaluation
précision, une mesure directe du pourcentage de réponses générées par le modèle qui correspondent exactement à la vraie réponse.
principalement utilisé lorsque la vraie réponse est un mot ou une phrase, y compris les ensembles de données de questions à choix multiples, les ensembles de données medcalcbench et les ensembles de données de conseils cliniques et d'identification de concepts.
le score f1, la moyenne harmonique de précision et de rappel, est utilisé sur des ensembles de données où le modèle doit sélectionner plusieurs réponses correctes.
bleu et rouge, une métrique de traitement du langage naturel qui mesure la similarité entre les réponses générées et les réponses réelles, en utilisant bleu-1 et rouge-1 pour toutes les tâches de génération de forme libre dans l'évaluation
alignerscore, une métrique qui mesure la cohérence des faits textuels générés, utilise alignscore pour toutes les tâches de génération de format non spécifiées afin d'évaluer le degré d'illusion du modèle.
mauve, une métrique qui mesure la différence entre la distribution du texte généré et du texte écrit par un humain, est utilisée pour toutes les tâches de génération de format non spécifiées. la valeur de la métrique varie de 0 à 100, les valeurs plus élevées indiquant une qualité supérieure du modèle. sortir.
résultats expérimentaux
stratégie rapide
pour les tâches de questions et réponses de connaissances, les tâches d'agent, les tâches d'informatique médicale et les tâches liées à plusieurs langues, utilisez des méthodes d'évaluation directe et rapide ;
pour les autres tâches de meds-bench, la stratégie d'incitation à trois échantillons dans le cadre de référence est suivie.
selon la déclaration d'openai, les techniques d'incitation courantes telles que la chaîne de pensées (cot) et les exemples en contexte ne sont pas très utiles pour améliorer les performances o1, car le modèle intègre déjà un cot implicite.
pour tester davantage cette affirmation, les chercheurs ont ajouté les effets de plusieurs signaux avancés à l'évaluation, notamment cot, self consistency et reflex.
en plus de sélectionner les modèles gpt-3.5, gpt-4 et o1 pour évaluation, les chercheurs ont également sélectionné deux modèles open source : l'un est un grand modèle de langage meditron-70b formé avec les données du centre médical, et le modèle open source le plus récent et le plus puissant. modèle grand modèle de langage llama3-8b
principaux résultats
les capacités d'o1 en matière de compréhension clinique ont été améliorées
lors de la sortie du modèle o1, openai a principalement mis l'accent sur sondes améliorations significatives des connaissances et des capacités de raisonnement, telles que la résolution de problèmes mathématiques et la génération de codes, peuvent également être observées à partir des résultats expérimentaux, et cette capacité peut également être transférée à la compréhension de connaissances cliniques spécifiques.
on peut constater que o1 surpasse les autres modèles en termes de compréhension de la plupart des tâches cliniques. par exemple, o1 surpasse gpt-4 et gpt-3.5 en moyenne sur 5 ensembles de données de reconnaissance de concepts utilisant f1 comme métrique, respectivement. plus élevé, avec une amélioration moyenne de 24,5 % par rapport à l’ensemble de données bc4chem couramment utilisé.
sur la tâche récapitulative, o1 a amélioré son score rouge-1 de 2,4 % et 3,7 % respectivement par rapport à gpt-4 et gpt-3.5, prouvant sa capacité accrue à comprendre le monde réel. les résultats ont également confirmé le rôle des grands modèles de langage. les progrès dans les capacités générales de traitement du langage naturel peuvent se traduire efficacement par une meilleure compréhension des modèles dans le domaine médical.
la puissante capacité de raisonnement du modèle o1 dans les scénarios de diagnostic clinique
sur les tâches liées au raisonnement, le modèle o1 a également démontré ses avantages dans des situations de diagnostic réelles.
dans les tâches de réponse aux questions nouvellement construites et difficiles nejmqa et lancetqa, la précision moyenne de o1 sur les ensembles de données respectifs est améliorée de 8,9 % et 27,1 % par rapport à gpt-4 (79,6 %) et gpt-3.5 (61,5 %) respectivement.
une autre amélioration notable des capacités de raisonnement mathématique de o1 est qu'il améliore la référence medcalc-bench à 34,9 %, soit 9,4 % de plus que gpt-4.
dans des scénarios de raisonnement plus complexes impliquant plusieurs cycles de dialogue et de simulation d'environnement, o1 surpasse gpt-4 et gpt-3.5 sur le benchmark agentclinic, gagnant au moins 15,5 % et 10 % sur les sous-ensembles medqa et nejm, respectivement. le taux de précision a été amélioré. , avec des scores de 45,5% et 20,0% respectivement.
en plus d'une plus grande précision, les réponses de o1 sont également plus concises et directes, tandis que gpt-4 génère des explications hallucinatoires à côté des mauvaises réponses.
les chercheurs pensent que les améliorations apportées par o1 en termes de connaissances et de raisonnement sont principalement attribuées à l’utilisation de données améliorées et de techniques sous-jacentes (telles que les données cot et les techniques d’apprentissage par renforcement) au cours du processus de formation.
sur la base des résultats optimistes ci-dessus, les chercheurs ont déclaré avec enthousiasme dans l'article : avec le modèle o1, nous nous rapprochons de plus en plus d'un médecin ia entièrement automatique.