nouvelles

Llama 8B recherche 100 fois et dépasse GPT-4o ! La recherche inférentielle peut améliorer les performances, nouvelle « loi de mise à l'échelle »

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Qiao Yang

[Introduction à la nouvelle sagesse]Des articles récents ont montré que les modèles génératifs tels que LLM peuvent être mis à l'échelle avec la recherche et permettre des améliorations de performances très significatives. Une autre expérience de récurrence a également révélé que si le modèle Llama 3.1 avec seulement 8 paramètres B est recherché 100 fois, il peut atteindre le même niveau que GPT-4o dans la tâche de génération de code Python.

Rich Sutton, pionnier de l'apprentissage par renforcement et professeur au département CS de l'Université de l'Alberta au Canada, a écrit un article de blog intitulé « The Bitter Lesson » en 2019, qui est devenu l'une des discussions classiques dans le domaine de l'IA.

En fait, l’intuition de Rich Sutton qui se reflète entre les lignes est assez similaire à celle de Scaling Law.


Adresse originale : https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

L'article passe brièvement en revue le parcours de développement de l'IA dans les domaines des échecs, du Go, de la reconnaissance vocale et de la vision, et avance le point de vue suivant :


L’une des dures leçons que nous devrions tirer est de prendre conscience de la puissance d’une approche universelle. Cette approche peut continuer à évoluer à mesure que la quantité de calcul augmente en raison d’une augmentation de la puissance de calcul disponible. Les deux méthodes qui semblent évoluer arbitrairement de cette manière sont la recherche et l’apprentissage.

Cependant, cette vision n’est pas exactement la même que celle de la loi d’échelle, et nous ne pouvons pas l’utiliser comme base pour croire que les petits modèles sont voués à ne pas être pertinents.

Comme le décrit Sutton, la mise à l’échelle se heurte à deux défis majeurs : l’apprentissage et la recherche.

La loi de mise à l'échelle proposée par OpenAI met l'accent sur la première. Toutes choses égales par ailleurs, les modèles plus grands fonctionnent mieux car davantage de connaissances et de modèles peuvent être appris à partir de l'ensemble de formation.

Mais ce que nous négligeons souvent, c’est ce dernier point. Les méthodes de recherche peuvent également évoluer en douceur à mesure que la puissance de calcul augmente pendant la phase d'inférence pour générer des réponses candidates plus nombreuses ou de meilleure qualité.

Un article récent publié par des chercheurs de Stanford, Oxford, DeepMind et d’autres institutions s’est concentré sur ce point.


Adresse papier : https://arxiv.org/abs/2407.21787

Avec l'augmentation du nombre d'échantillons répétés dans l'étape d'inférence, les performances (c'est-à-dire la couverture des problèmes) du modèle dans les domaines des mathématiques, du raisonnement et du code tels que GSM8K, MATH, MiniF2F-Math et SWE-bench Lite a été considérablement amélioré.

Il semble même y avoir une relation linéaire exponentielle entre les deux, et elle peut être modélisée par une loi de puissance exponentielle, ce qui semble expliquer l'existence de la loi d'échelle au stade du raisonnement.


Inspirés par cet article, les deux ingénieurs ont commencé à essayer de le reproduire. Le résultat a été qu'en recherchant avec 100 petits modèles de lamas, ils ont pu rattraper ou même battre GPT-4o dans les tâches de programmation Python.


Les deux auteurs ont utilisé une métaphore frappante : avant, il fallait un canard de la taille d'un cheval pour obtenir des capacités limites ; mais maintenant, on peut choisir d'utiliser 100 chevaux de la taille d'un canard (ou, plus précisément, des alpagas Lama).

Le code source utilisé dans l'expérience a été téléchargé sur GitHub et le coût de reproduction est assez faible.


https://gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05

Afin d'essayer des performances plus élevées, l'auteur a utilisé la bibliothèque vLLM pour implémenter l'inférence par lots et a étendu les conditions matérielles à 10 GPU A100-40 Go, avec une vitesse de sortie atteignant 40 000 jetons/s.

Paramètres et résultats de l’évaluation

L'auteur a choisi un test de référence non couvert dans l'article de Large Language Monkeys mentionné ci-dessus, HumanEval.

L'avantage de cet ensemble de données est que le code généré peut être évalué à l'aide de tests en cours d'exécution sans l'implication d'un LLM-as-Judge ou d'une évaluation humaine, ce qui permet une mesure plus objective de l'exactitude.

La performance du modèle est mesurée par deux indicateurs : pass@k et fail@k. Selon les résultats du rapport de PapersWithCode, dans l'inférence à échantillon nul, le score pass@1 de GPT-4o est de 90,2 %.


https://paperswithcode.com/sota/code-generation-on-humaneval

En utilisant la méthode proposée dans l'article ci-dessus, ainsi qu'un minimum de réglages rapides (sans ajuster d'autres hyperparamètres), le score pass@k de Llama 3.1 8B a été considérablement amélioré.

Lorsque le nombre d'échantillons répétés k est de 100, la performance est équivalente à GPT-4o (90,5 % contre 90,2 %) ; lorsque k atteint 1 000, le score est de 95,1 %, ce qui est nettement meilleur que GPT-4o.


Si vous utilisez l'indicateur fail@k (équivalent à 1-pass@k) et transformez logarithmiquement les deux axes de coordonnées dans la figure ci-dessus, vous pouvez voir la courbe montrée dans la figure ci-dessous, qui semble parfaitement respecter la "loi d'échelle ".


Il convient de noter que cette petite expérience n’est pas une reproduction stricte de l’article, mais n’en extrait que la méthode de base.

Cependant, ces résultats soulignent en outre que les modèles plus petits peuvent, de manière prévisible, surpasser les modèles « big Mac » comme GPT-4o lors de l'utilisation de méthodes de recherche pour l'augmentation de l'étape d'inférence.

L'avenir de la recherche

La raison pour laquelle la méthode de recherche est puissante est qu'elle peut s'étendre « de manière transparente » à mesure que la quantité de calcul augmente, et elle peut également déplacer la consommation de ressources de la mémoire vers le calcul pour atteindre un meilleur équilibre des ressources.

Les récentes réalisations majeures de l'IA en mathématiques, telles que le niveau d'IA et d'IA, sont indissociables de la recherche qui y est utilisée.

Cependant, la mise en œuvre d’une recherche nécessite d’abord une évaluation de haute qualité des résultats. Le modèle de DeepMind traduit des problèmes mathématiques exprimés en langage naturel en expressions formelles, bénéficiant ainsi d'une supervision détaillée d'un compilateur/vérificateur comme Lean.

, ce qui peut grandement améliorer le degré de parallélisme et d'automatisation.

Selon la correspondance Curry-Howard-Lambek, il serait relativement facile d'utiliser des programmes informatiques pour automatiser l'identification et l'évaluation des preuves mathématiques et des résultats de génération de codes.

Mais des approches similaires pourraient échouer dans des domaines autres que les mathématiques et la programmation. Par exemple, pour des tâches ouvertes de PNL telles que « résumer des e-mails », il est difficile d'effectuer des recherches efficaces.

Dans cette perspective, la recherche se situe en aval de l’évaluation. On peut à peu près s'attendre à ce que l'amélioration des performances des modèles génératifs dans des domaines spécifiques soit directement proportionnelle aux capacités d'évaluation et de recherche.

Pour atteindre cet objectif, les agents dans des environnements numériques reproductibles semblent être une voie prometteuse.

Références :

https://modal.com/blog/llama-human-eval