nouvelles

des chinois nés en 2000 ont publié un article dans nature affirmant que les grands modèles sont moins fiables pour les humains.

2024-10-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

le travail d’un chinois né dans les années 2000 a été publié dans nature, et ce grand modèle d’article a suscité de vives discussions.

pour faire simple, le document a révélé que les modèles plus grands, plus grands et plus conformes, devenaient également moins fiables et, dans certains cas,gpt-4 n'est pas aussi fiable que gpt-3 pour répondre aux questions

par rapport aux modèles précédents, les modèles les plus récents, qui disposent de plus de puissance de calcul et de commentaires humains, ont en fait vu leur fiabilité des réponses se détériorer.

dès que la conclusion est sortie, elle a immédiatement attiré plus de 200 000 internautes :

cela a également suscité des discussions sur le forum reddit.

cela rappelle aux gens que de nombreux modèles de niveau expert/doctorat ne connaissent toujours pas la simple question « lequel est le plus grand, 9,9 ou 9,11 ».

concernant ce phénomène, le document mentionne que cela reflète également,les performances du modèle ne correspondent pas aux attentes humaines en matière de difficulté

en d’autres termes, « les llm réussissent et (plus dangereusement) échouent là où les utilisateurs ne s’y attendent pas ».

ilya sutskever a prédit en 2022 :

peut-être qu’avec le temps, cette différence diminuera.

cependant, cet article constate que ce n’est pas le cas. non seulement les séries gpt, llama et bloom, mais mêmeopenainouveaumodèle o1 et claude-3.5-sonnetil existe également des inquiétudes concernant la fiabilité.

plus important encore, le document a également constatécomptez sur la surveillance humaine pour corriger les erreursl'approche ne fonctionne pas non plus.

certains internautes estiment que même si les modèles plus grands peuvent poser des problèmes de fiabilité, ils offrent également des fonctionnalités sans précédent.

nous devons nous concentrer sur le développement de méthodes d’évaluation robustes et sur une transparence accrue.

d'autres estiment que cette étude met en évidenceiade subtils défis rencontrés(équilibrer l’expansion et la fiabilité du modèle)

les modèles plus grands sont moins fiables et s’appuyer sur les commentaires humains ne fonctionne pas

pour illustrer la conclusion, l'article examine trois aspects clés qui influencent la fiabilité des llm d'un point de vue humain :

1、difficulté incohérente: les llm échouent-ils là où les humains s'attendent à ce qu'ils échouent ?
2、
évitement de tâches: les llm évitent-ils de répondre à des questions qui dépassent leurs capacités ?
3、
sensibilité aux expressions linguistiques rapides: l'efficacité de la formulation du problème est-elle affectée par la difficulté du problème ?

plus important encore, les auteurs analysent également les tendances historiques et la manière dont ces trois aspects évoluent avec la difficulté de la tâche.

développez-les un par un ci-dessous.

pour la première question, l'article se concentre principalement surevolution de la justesse par rapport à la difficulté

à en juger par l'évolution de gpt et llama, à mesure que la difficulté augmente, l'exactitude de tous les modèles diminuera considérablement.(conforme aux attentes humaines)

cependant, ces modèles ne peuvent toujours pas résoudre de nombreuses tâches très simples.

cela signifie que les utilisateurs humains ne peuvent pas découvrir l'espace d'exploitation sécurisé des llm et l'utiliser pour garantir que les performances de déploiement du modèle peuvent être sans faille.

étonnamment, les nouveaux llm améliorent principalement les performances sur les tâches difficiles, sans amélioration significative sur les tâches plus simples. par exemple,gpt-4 par rapport à son prédécesseur gpt-3.5-turbo

ce qui précède prouve qu’il existe une incohérence entre les attentes en matière de difficultés humaines et les performances du modèle.et cette incohérence est exacerbée sur le nouveau modèle.

cela signifie également :

il n’existe actuellement aucune condition de fonctionnement sûre permettant aux humains de déterminer que les llm sont fiables.

ceci est particulièrement préoccupant dans les applications qui nécessitent une fiabilité élevée et l’identification d’espaces de fonctionnement sûrs. cela amène les gens à se demander si l’intelligence artificielle de pointe que les humains s’efforcent de créer est vraiment ce que le public s’attend à avoir.

deuxièmement, concernant le point 2, les conclusions du document(l'évitement fait généralement référence au modèle qui s'écarte de la réponse à la question ou qui déclare directement « je ne sais pas »)

par rapport aux llm précédents,les derniers llm améliorent considérablement de nombreuses réponses fausses ou absurdes., plutôt que d’éviter soigneusement les tâches dépassant leurs capacités.

cela conduit également à un phénomène ironique : dans certains benchmarks, le taux d'erreur des nouveaux llm s'améliore encore plus rapidement que la précision (doge).

d’une manière générale, plus une tâche à laquelle les humains sont confrontés est difficile, plus elles risquent d’être vagues.

mais les performances réelles des llm sont complètement différentes. la recherche montre que.leur comportement d’évitement n’est pas significativement lié à la difficulté.

cela peut facilement conduire les utilisateurs à s'appuyer initialement trop sur les llm pour accomplir des tâches pour lesquelles ils ne sont pas bons, mais les laisser déçus à long terme.

en conséquence, les humains doivent également vérifier l’exactitude des résultats du modèle et détecter les erreurs.(si vous souhaitez utiliser les llm pour être paresseux, vous bénéficierez d'une grosse réduction)

enfin, l'article révèle que même si certains indicateurs de fiabilité se sont améliorés, le modèle reste sensible à de petits changements de formulation du même problème.

donner une châtaigne, demander « pouvez-vous répondre... ? » au lieu de « veuillez répondre à la question suivante... » entraînera différents degrés de précision.

analyse trouvée :il est peu probable que s’appuyer uniquement sur les mises à l’échelle et la mise en forme existantes résoudra complètement le problème de la sensibilité des indications, dans la mesure où les derniers modèles ne sont pas optimisés de manière significative par rapport à leurs prédécesseurs.

et même si vous choisissez le meilleur format de représentation en termes de performances moyennes, il peut être principalement efficace pour les tâches très difficiles, mais en même temps inefficace pour les tâches peu difficiles.(taux d'erreur plus élevé)

cela montre quel'humanité est toujours soumise au projet d'incitation

ce qui est encore plus effrayant, c'est que le journal a découvert quela supervision humaine ne peut pas atténuer le manque de fiabilité du modèle

l'article analyse, sur la base d'enquêtes humaines, si les perceptions humaines de la difficulté sont cohérentes avec les performances réelles et si les humains peuvent évaluer avec précision les résultats du modèle.

les résultats montrent, dans les régions d'exploitation que les utilisateurs considèrent comme difficiles, ils considèrent souvent les sorties incorrectes comme correctes, même pour des tâches simples, il n'existe pas de région d'exploitation sûre avec à la fois une faible erreur de modèle et une faible erreur de supervision.

les problèmes de manque de fiabilité ci-dessus existent dans plusieurs séries de llm, notamment gpt, llama et bloom. les éléments suivants sont répertoriés dans l'étude.32 modèles

ces modèles présentent différentsmise à l'échelle(augmentation des calculs, de la taille du modèle et des données) etmise en forme(par exemple, instructions ft, rlhf).

en plus de ce qui précède, les auteurs ont découvert plus tard que certains des modèles les plus récents et les plus puissants souffrent également des problèmes de manque de fiabilité mentionnés dans cet article :

y compris le modèle o1 d'openai, claude-3.5-sonnet d'antropicic et llama-3.1-405b de meta

il existe également un document qui donne des exemples.(pour plus de détails, veuillez vous référer au document original)

de plus, afin de vérifier si d'autres modèles présentent des problèmes de fiabilité, l'auteur a utilisé les tests de référence utilisés dans l'article.banc de fiabilitéc’est aussi open source.

il s'agit d'un ensemble de données couvrant cinq domaines, l'arithmétique simple (« addition »), la réorganisation du vocabulaire (« puzzles de mots »), les connaissances géographiques (« localisation »), les problèmes scientifiques fondamentaux et avancés (« science ») et les connaissances centrées sur l'information. transformation ("transformation").

présentation de l'auteur

le premier papierlexin zhou, actuellement tout juste diplômé de l'université de cambridge avec une maîtrise en informatique (24 ans), et ses intérêts de recherche sont l'évaluation de grands modèles de langage.

avant cela, il a obtenu une licence en science des données de l'université polytechnique de valence, supervisée par le professeur josé hernández-orallo.

sa page d'accueil personnelle montre qu'il a eu de nombreuses expériences de stage. participation aux tests de l'équipe rouge chez openai et meta.(conseil red teaming)

concernant cet article, il s'est concentré sur :

la conception et le développement de l’intelligence artificielle générale doiventchangement fondamental, en particulier dans les domaines à haut risque, où une distribution prévisible des erreurs est cruciale. avant que cela soit réalisé,il y a un danger à s’appuyer sur la supervision humaine.

lors de l'évaluation d'un modèle,tenir compte des difficultés perçues par l'humain et évaluer le comportement d'évitement du modèle, peut fournir une description plus complète des capacités et des risques du modèle, plutôt que de se concentrer uniquement sur les performances des tâches difficiles.

le document mentionne également spécifiquement certaines raisons possibles de ces manques de fiabilité, ainsi que des solutions :

en scaling-up, les benchmarks de ces dernières années ont de plus en plus tendance à ajouter des exemples plus difficiles, ou à accorder plus de poids aux sources dites « faisant autorité ». par conséquent, les chercheurs sont plus enclins à optimiser les performances des modèles sur des tâches difficiles, ce qui aboutit à des résultats chroniques. détérioration de la cohérence des difficultés.

dans le façonnage (comme le rlhf), la personne embauchée a tendance à pénaliser les réponses qui contournent la tâche, ce qui rend le modèle plus susceptible de « dire des bêtises » lorsqu'il est confronté à des problèmes difficiles qu'il ne peut pas résoudre.

comment résoudre ce manque de fiabilité, l'article estime que les attentes en matière de difficulté humaine peuvent être utilisées pour mieux entraîner ou affiner le modèle, ou que la difficulté des tâches et la confiance du modèle peuvent être utilisées pour mieux apprendre au modèle à éviter les problèmes au-delà de ses propres capacités, etc.

qu'en pensez-vous ?