2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Différents formats de sortie peuvent réellement affecter les performances des grands modèles ? !
Laissez les grands modèles de langage (LLM) résoudre le même problème mathématique sous deux invites. Le problème est le suivant :
- Le salaire horaire d'Eliza pour les 40 premières heures de travail par semaine est de 10 $ et la rémunération des heures supplémentaires est de 1,2 fois par heure. Si Eliza a travaillé 45 heures cette semaine, combien a-t-elle gagné cette semaine ?
Invite de chaîne de pensée: "Fournissez un résultat, un raisonnement étape par étape, dans le format suivant : ...Réponse : La réponse finale est...".
Invite de restriction de format: "Fournir une sortie au format JSON valide suivant : ... (voir la figure pour le format JSON spécifique)".
La bonne réponse est460, on voit que la chaîne de réflexion (laisser le modèle réfléchir étape par étape) fonctionne, mais la restriction de format (« sortie au format JSON ») échoue ! !
Ceci est une scène d'une nouvelle étude de l'Université nationale de Taiwan et d'Appier AI Research. Ils ont découvert que——.
Les restrictions de format réduiront la capacité de raisonnement des LLM, et plus les restrictions sont strictes, plus le raisonnement est mauvais. (avec un personnage rebelle)
Mais la bonne nouvelle est que cela peut être traité.
Ils ont trouvé,meilleure solutionIl s'agit d'une « conversion secondaire » (c'est vrai), c'est-à-dire que les LLM répondent d'abord aux questions en langage naturel, puis convertissent les réponses dans le format cible.
Ce faisant, ils ont comparé les différences de performances de différents modèles tels que GPT-3.5 Turbo, Claude 3 Haiku, Gemini 1.5 Flash, etc. lors de la génération de données dans différents formats.Il s'est avéré que:
GPT aime YAML, Claude aime XML et Gemini/Gemma aime JSON. (En gros, chacun a ses propres préférences)
Après avoir lu l'étude, certains internautes ont souligné qu'il étaitÉquilibrer la génération structurée et le raisonnement des tâchessignification:
Les restrictions de format réduisent les capacités de raisonnement des LLM
La recherche mentionnée ci-dessus a été publiée sur arXiv. L'article révèle principalement que sous des contraintes de format, la capacité de raisonnement des LLM diminue considérablement.Surtout en mode JSON。
Tout au long,Intégrer les LLM dans les applications industriellesUn obstacle majeur est leur manque d’adhésion aux formats de sortie standardisés.
Une solution courante est la génération structurée, où les contraintes de format permettent aux LLM de fournir une sortie dans un format standardisé tel que JSON ou XML.
Cela dit, bien qu’il existe de nombreuses façons d’obtenir cette restriction, les effets ultérieurs n’ont pas été étudiés. (La restriction affecte-t-elle les performances du modèle ?)
Faites-le, les chercheurs adoptent3 méthodes courantesPour évaluer l'impact des différentes restrictions de format sur les performances en aval :
Au fait, je dois ajouterLangue naturelle (NL), qui est le format le moins restreint et permet aux modèles de répondre librement aux questions en langage naturel.
Les objets d'évaluation sont GSM8K (contenant des problèmes mathématiques dans un environnement de langage naturel) et Last Letter Concatenation (la tâche de connexion de la dernière lettre), deux ensembles de données qui nécessitent des réponses exactes, ainsi que Shuffled Objects (tâche de suivi d'objets mélangés).
Ils ont constaté que des indices plus lâches entraînaient généralement de meilleurs résultats dans ces tâches impliquant un raisonnement.
en même temps,Le schéma JSON fonctionne moins bien dans la plupart des cas, suivi des instructions de restriction de format (FRI), puis de la conversion du langage naturel vers le format (NL vers Format) et des invites en langage naturel (NL).
L'étude a également révélé que différents LLM répondent à différents formats de données.afficher des préférences différentes。
Par exemple, GPT préfère le format YAML, Claude préfère le format XML et Gemini/Gemma préfère le format JSON.
Cependant, dans les tâches de classification,Les restrictions de format peuvent avoir amélioré la précision, car cela réduit les choix de réponses possibles, réduisant ainsi le taux d'erreur.
Ils ont en outre conclu que les restrictions de format peuvent réduire les capacités d'inférence du modèle.raison, comprenant principalement :
Bonne nouvelle : on peut guérir
En réponse à ce problème, ils ont proposé plusieurs contre-mesures :
Premièrement, comme mentionné précédemment, le mode JSON est le moins performant dans la plupart des cas, et enfin la conversion du langage naturel au format (NL vers Format).
Puis à l'inverse,La meilleure solution pour résoudre les limitations de format est NL to Format, c'est-à-dire que les LLM répondent d'abord aux questions en langage naturel, puis convertissent les réponses dans le format cible. Cette approche permet d'obtenir de meilleures performances en dissociant le raisonnement de la conformité du format.
De plus, la sortie structuréecommande de cléAvoir un impact important sur la réponse des LLM.
Par exemple, lors de l'utilisation de GPT-3.5 Turbo, 100 % des réponses en mode JSON plaçaient incorrectement la touche « réponse » avant « raisonnement », ce qui faisait que le modèle donnait directement la réponse au lieu de montrer le processus de réflexion.
La recherche montre également que les limitations de format conduisent àErreur d'analyseCe n’est pas la principale raison de la différence de performances.
Par exemple, dans le modèle LLaMA 3 8B, le taux d'erreur d'analyse au format JSON pour la tâche Dernière lettre n'est que de 0,15 %, mais par rapport à la réponse en langage naturel, l'écart de performances atteint 38,15 %.
et peutAtténuez ces erreurs avec des conseils correctifs, par exemple, pour le modèle Claude-3-Haiku, dans la tâche Dernière Lettre, grâce à l'étape de correction, la précision des formats JSON et YAML a augmenté respectivement de +2,8 % et +44,8 %.
Ce qui précède signifie également que lors de l'application des LLM, un équilibre doit être trouvé entre un format facilement analysable et le maintien des capacités de raisonnement inhérentes.
Enfin, les chercheurs ont rappelé dans l’article :
- Par rapport aux expressions régulières, les LLM en tant qu'analyseurs de réponses peuvent fournir une compréhension du texte plus approfondie et plus précise. Ils ne se limitent pas à une correspondance de modèles superficielle, mais peuvent véritablement comprendre le sens et le contexte de la réponse.