nouvelles

google deepmind présente la technologie genrm : affiner les llm en tant que modèles de récompense pour améliorer les capacités de raisonnement génératif de l'ia

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house a rapporté le 3 septembre que l'équipe de google deepmind avait publié un article sur arxiv le 27 août, présentant et démontrant le vérificateur génératif genrm et proposant de manière créative un modèle de récompense pour améliorer les capacités de raisonnement génératif de l'ia.

dans l'industrie de l'ia, l'approche dominante actuelle pour améliorer les grands modèles de langage (llm) est le mode best-of-n, c'est-à-dire que les n solutions candidates générées par le llm sont triées par le vérificateur et la meilleure solution est sélectionnée. .

ces validateurs basés sur llm sont généralement formés comme classificateurs discriminants pour noter les solutions, mais ils ne peuvent pas tirer parti des capacités de génération de texte des llm pré-entraînés.

afin de surmonter cette limitation, l'équipe deepmind a essayé d'utiliser la prochaine cible de prédiction de jeton pour former le vérificateur tout en effectuant la vérification et la génération de solutions.

le vérificateur génératif (genrm) de l’équipe deepmind comprend principalement les avantages suivants par rapport aux vérificateurs traditionnels :

intégration transparente des ajustements de commande

soutenir le raisonnement en chaîne de pensée

tirer parti des calculs de temps d'inférence supplémentaires via le vote majoritaire

lors de l'utilisation de validateurs basés sur gemma sur des tâches de raisonnement algorithmique et mathématique à l'école primaire, genrm surpasse les validateurs discriminatifs et llm-as-a-judge, améliorant le pourcentage de problèmes résolus en utilisant best-of-n de 16 à 64 %.

comme le rapporte google deepmind, l'avantage de genrm sur les modèles de récompense catégoriques marque une évolution cruciale dans les systèmes de récompense de l'intelligence artificielle, notamment en termes de capacité à prévenir la fraude apprise par les nouveaux modèles. ces progrès mettent en évidence la nécessité urgente d’améliorer les modèles de récompense pour aligner les résultats de l’ia sur les normes de responsabilité sociale.