2024-10-03
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
le travail d’un chinois né dans les années 2000 a été publié dans nature, et ce grand modèle d’article a suscité de vives discussions.
en termes simples, l'article a révélé que les modèles plus grands qui suivent plus attentivement les instructions deviennent également moins fiables et, dans certains cas,gpt-4 n'est pas aussi fiable que gpt-3 pour répondre aux questions。
par rapport aux modèles précédents, les modèles les plus récents, qui disposent de plus de puissance de calcul et de commentaires humains, ont en fait vu leur fiabilité des réponses se détériorer.
dès que la conclusion est sortie, elle a immédiatement attiré plus de 200 000 internautes :
cela a également suscité des discussions sur le forum reddit.
cela rappelle aux gens que de nombreux modèles de niveau expert/doctoral ne connaissent toujours pas la simple question « lequel est le plus grand, 9,9 ou 9,11 ».
concernant ce phénomène, le document mentionne que cela reflète également,les performances du modèle ne correspondent pas aux attentes humaines en matière de difficulté。
en d’autres termes, « les llm réussissent et (plus dangereusement) échouent là où les utilisateurs ne s’y attendent pas ».
ilya sutskever a prédit en 2022 :
peut-être qu’avec le temps, cette différence diminuera.
cependant, cet article constate que ce n’est pas le cas. non seulement les séries gpt, llama et bloom, mais même les nouveauxmodèle o1 et claude-3.5-sonnetil existe également des préoccupations concernant la fiabilité.
plus important encore, le document a également constatécomptez sur la surveillance humaine pour corriger les erreursl'approche ne fonctionne pas non plus.
certains internautes estiment que même si les modèles plus grands peuvent poser des problèmes de fiabilité, ils offrent également des fonctionnalités sans précédent.
nous devons nous concentrer sur le développement de méthodes d’évaluation robustes et sur une transparence accrue.
d’autres estiment que la recherche met en évidence les défis délicats auxquels est confrontée l’intelligence artificielle (équilibrer la mise à l’échelle et la fiabilité du modèle).
les modèles plus grands sont moins fiables et s’appuyer sur les commentaires humains ne fonctionne pas
pour illustrer la conclusion, l'article examine trois aspects clés qui influencent la fiabilité des llm d'un point de vue humain :
1、difficulté incohérente: les llm échouent-ils là où les humains s'attendent à ce qu'ils échouent ?
2、évitement de tâches: les llm évitent-ils de répondre à des questions qui dépassent leurs capacités ?
3、sensibilité aux expressions linguistiques rapides: l'efficacité de la formulation du problème est-elle affectée par la difficulté du problème ?
plus important encore, les auteurs analysent également les tendances historiques et la manière dont ces trois aspects évoluent avec la difficulté de la tâche.
développez-les un par un ci-dessous.
pour la première question, l'article se concentre principalement surevolution de la justesse par rapport à la difficulté。
à en juger par l'évolution de gpt et llama, à mesure que la difficulté augmente, l'exactitude de tous les modèles diminuera considérablement. (conforme aux attentes humaines)
cependant, ces modèles ne peuvent toujours pas résoudre de nombreuses tâches très simples.
cela signifie que les utilisateurs humains ne peuvent pas découvrir l'espace d'exploitation sécurisé des llm et l'utiliser pour garantir que les performances de déploiement du modèle peuvent être sans faille.
étonnamment, les nouveaux llm améliorent principalement les performances sur les tâches difficiles, sans amélioration significative sur les tâches plus simples. par exemple, le gpt-4 est comparé à son prédécesseur gpt-3.5-turbo.
ce qui précède prouve qu’il existe une incohérence entre les attentes en matière de difficultés humaines et les performances du modèle.et cette incohérence est exacerbée sur le nouveau modèle.
cela signifie également :
il n’existe actuellement aucune condition de fonctionnement sûre permettant aux humains de déterminer que les llm sont fiables.
ceci est particulièrement préoccupant dans les applications qui nécessitent une fiabilité élevée et l’identification d’espaces de fonctionnement sûrs. cela amène les gens à se demander si l’intelligence artificielle de pointe que les humains s’efforcent de créer est vraiment ce que le public s’attend à avoir.
deuxièmement, concernant le deuxième point des conclusions de l'article (l'évitement fait généralement référence au modèle s'écartant de la réponse à la question, ou déclarant directement « je ne sais pas ») :
par rapport aux llm précédents,les derniers llm améliorent considérablement de nombreuses réponses fausses ou absurdes., plutôt que d’éviter soigneusement les tâches dépassant leurs capacités.
cela conduit également à un phénomène ironique : dans certains benchmarks, le taux d'erreur des nouveaux llm s'améliore encore plus rapidement que la précision (doge).
d’une manière générale, plus une tâche à laquelle les humains sont confrontés est difficile, plus elles risquent d’être vagues.
mais les performances réelles des llm sont complètement différentes. la recherche montre que.leur comportement d’évitement n’est pas significativement lié à la difficulté.
cela peut facilement conduire les utilisateurs à s'appuyer initialement trop sur les llm pour accomplir des tâches pour lesquelles ils ne sont pas bons, mais les laisser déçus à long terme.
en conséquence, les humains doivent également vérifier l’exactitude des résultats du modèle et détecter les erreurs. (si vous souhaitez utiliser les llm pour être paresseux, vous bénéficierez d'une grosse remise)
enfin, l'article révèle que même si certains indicateurs de fiabilité se sont améliorés, le modèle reste sensible à de petits changements de formulation du même problème.
donner une châtaigne, demander « pouvez-vous répondre... ? » plutôt que « veuillez répondre à la question suivante... » entraînera des degrés de précision variables.
analyse trouvée :il est peu probable que le fait de s’appuyer uniquement sur la mise à l’échelle et la mise en forme existantes résoudra complètement le problème de la sensibilité des indications, dans la mesure où les derniers modèles ne sont pas optimisés de manière significative par rapport à leurs prédécesseurs.
et même si l’on choisit le format de représentation le meilleur en termes de performance moyenne, il peut être principalement efficace pour les tâches très difficiles, mais en même temps inefficace (taux d’erreur plus élevé) pour les tâches peu difficiles.
cela montre quel'humanité est toujours soumise au projet d'incitation。
ce qui est encore plus effrayant, c'est que le journal a découvert quela supervision humaine ne peut pas atténuer le manque de fiabilité du modèle。
l'article analyse, sur la base d'enquêtes humaines, si les perceptions humaines de la difficulté sont cohérentes avec les performances réelles et si les humains peuvent évaluer avec précision les résultats du modèle.
les résultats montrent, dans la zone de fonctionnement que les utilisateurs considèrent comme difficile, ils considèrent souvent une sortie incorrecte comme correcte, même pour des tâches simples, il n'existe pas de zone de fonctionnement sûre avec à la fois une faible erreur de modèle et une faible erreur de supervision ;
les problèmes de manque de fiabilité ci-dessus existent dans plusieurs séries de llm, notamment gpt, llama et bloom. les éléments suivants sont répertoriés dans l'étude.32 modèles。
ces modèles présentent différentsmise à l'échelle(augmentation des calculs, de la taille du modèle et des données) etmise en forme(par exemple, instructions ft, rlhf).
en plus de ce qui précède, les auteurs ont découvert plus tard que certains des modèles les plus récents et les plus puissants souffrent également des problèmes de manque de fiabilité mentionnés dans cet article :
y compris le modèle o1 d'openai, claude-3.5-sonnet d'antropicic et llama-3.1-405b de meta。
il existe également un document qui donne respectivement des exemples (veuillez vous référer au document original pour plus de détails) :
de plus, afin de vérifier si d'autres modèles présentent des problèmes de fiabilité, l'auteur a utilisé les tests de référence utilisés dans l'article.banc de fiabilitéc’est aussi open source.
il s'agit d'un ensemble de données couvrant cinq domaines, l'arithmétique simple (« addition »), la réorganisation du vocabulaire (« puzzles de mots »), les connaissances géographiques (« localisation »), les problèmes scientifiques fondamentaux et avancés (« science ») et les connaissances centrées sur l'information. transformation ("transformation").
présentation de l'auteur
le premier papierlexin zhou, vient actuellement d'obtenir une maîtrise en informatique de l'université de cambridge (24 ans), et ses recherches portent sur l'évaluation de grands modèles de langage.
avant cela, il a obtenu une licence en science des données de l'université polytechnique de valence, supervisée par le professeur josé hernández-orallo.
sa page d'accueil personnelle montre qu'il a eu de nombreuses expériences de stage. participation aux tests de l'équipe rouge chez openai et meta. (conseil red teaming)
concernant cet article, il s'est concentré sur :
la conception et le développement de l’intelligence artificielle générale doiventchangement fondamental, en particulier dans les domaines à haut risque, où une distribution prévisible des erreurs est cruciale. avant que cela soit réalisé,il y a un danger à s’appuyer sur la supervision humaine.
lors de l'évaluation d'un modèle,tenir compte des difficultés perçues par l'humain et évaluer le comportement d'évitement du modèle, peut fournir une description plus complète des capacités et des risques du modèle, plutôt que de se concentrer uniquement sur les performances des tâches difficiles.
le document mentionne également spécifiquement certaines raisons possibles de ces manques de fiabilité, ainsi que des solutions :
en scaling-up, les benchmarks de ces dernières années ont de plus en plus tendance à ajouter des exemples plus difficiles, ou à accorder plus de poids aux sources dites « faisant autorité ». par conséquent, les chercheurs sont plus enclins à optimiser les performances des modèles sur des tâches difficiles, ce qui aboutit à des résultats chroniques. détérioration de la cohérence des difficultés.
dans le cadre du façonnage (comme le rlhf), la personne embauchée a tendance à pénaliser les réponses qui contournent la tâche, ce qui rend le modèle plus susceptible de « dire des bêtises » lorsqu'il est confronté à des problèmes difficiles qu'il ne peut pas résoudre.
comment résoudre ce manque de fiabilité, l'article estime que les attentes en matière de difficulté humaine peuvent être utilisées pour mieux entraîner ou affiner le modèle, ou que la difficulté des tâches et la confiance du modèle peuvent être utilisées pour mieux apprendre au modèle à éviter les problèmes au-delà de ses propres capacités, etc.