le nouveau roi des grands modèles open source a renversé gpt4o, la nouvelle technologie peut s'auto-corriger et mathematics 99.2 a maximisé l'ensemble de tests

2024-09-06

le vent d'ouest vient du temple aofei
qubits | compte public qbitai

le trône des grands modèles open source a soudainement changé de mains, et il est venu d'une petite équipe entrepreneuriale, faisant instantanément exploser l'industrie.

le nouveau modèle s'appelleréflexion 70b, utilisant une nouvelle technologie de formation pour permettre à l’ia d’apprendre à corriger ses propres erreurs et illusions au cours du processus de raisonnement.

par exemple, dans le test numérique r récemment populaire, il a commis les mêmes erreurs que la plupart des modèles au début, mais il a pris l'initiative debalise <réflexion>zhong se corrigea.

dans l'évaluation officielle, le modèle 70b a largement surpassé les plus puissants open source llama 3.1 405b, gpt-4o, claude 3 opus et gemini 1.5 pro. en particulier, il a directement dépassé la référence mathématique gsm8k.noté 99,2 %。

ce résultat a également incité noam brown, scientifique d'openai et père de l'ia de poker, à ouvrir le micro avec enthousiasme :

gsm8k obtient un score de 99 % ! cette référence peut-elle être officiellement supprimée ?

dès que le modèle a été mis en ligne, les internautes ont été submergés par l'essai et meta a également activement soutenu davantage de puissance de calcul.

dans les tests des internautes, reflection 70b peut répondre aux questions qui contiennent de mauvaises réponses à l'ensemble de données gsm8k :

j'ai alimenté le modèle 5 de problèmes "ground_truth" qui existent dans gsm8k et qui sont intrinsèquement incorrects.
plutôt que de répéter les mauvaises réponses dans l’ensemble de données, le modèle les a toutes obtenues, ce qui est impressionnant.montre que la précision de 99,2 % ne vient pas de la mémorisation de l'ensemble de test！

il est facile de compter toutes sortes de r, mêmemots créésplusieurs r dans "drirrrrngrrrrnnnn" peuvent également être comptés correctement.

les internautes sont surpris que l'open source créé par une petite équipe ait dépassé le top des sources fermées. désormais, le modèle open source le plus puissant peut être exécuté localement.

la clé 70b n'est qu'un début. les responsables ont annoncé qu'une clé plus grande serait publiée la semaine prochaine.réflexion 405b。

on s'attend à ce que les performances du 405b soient nettement meilleures que celles du sonnet et du gpt-4o.

les poids reflection 70b ont été rendus publics et l'accès à l'api sera fourni par hyperbolic labs plus tard dans la journée.

les modèles peuvent s’auto-réfléchir et corriger les erreurs

plus de détails actuellement disponibles sur reflection 70b sont ci-dessous.

la clé pour améliorer les capacités de reflection 70b est l'utilisation d'une méthode appeléeréflexion-tuningune méthode de formation qui permet au modèle de réfléchir sur le texte qu'il génère, en détectant et en corrigeant les erreurs dans son propre raisonnement avant de finaliser une réponse.

les données en formation proviennent de données synthétiques générées à l'aide de la plateforme glaiveai.

reflection 70b est basé sur l'instruction llama 3.1 70b et peut être échantillonné à partir de reflection llama-3.1 70b en utilisant le même code, pipeline, etc. que les autres modèles llama.

il utilise même le format de discussion standard llama 3.1.

cependant, reflection 70b introduit quelquesjetons spéciaux, processus de sortie structuré.

comme le montre l'exemple suivant, diviser le processus de planification en une étape distincte peut améliorer l'effet cot et affiner le résultat :

le modèle sera de<thinking> et</thinking> l'inférence de sortie intra-étiquette commence, et une fois satisfaite de son inférence, le<output> et</output> la réponse finale est affichée dans l'étiquette.

il est ainsi capable de séparer sa réflexion et son raisonnement internes de la réponse finale.

exister<thinking> section, le modèle peut générer un ou plusieurs<reflection>étiquette, ce qui indique que le modèle a découvert une erreur dans son raisonnement et tentera de la corriger avant de fournir une réponse définitive.

le système vous invite comme suit :

vous êtes un système d'ia de classe mondiale, capable de raisonnement et de réflexion complexes. raisonnez sur la requête à l'intérieur des balises, puis fournissez votre réponse finale à l'intérieur
balises. si vous détectez que vous avez fait une erreur dans votre raisonnement à un moment donné, corrigez-vous à l'intérieur des balises.
(vous êtes un système d'intelligence artificielle de classe mondiale capable de raisonnement et de réflexion complexes. raisonnement sur des requêtes dans des balises, puis
fournissez votre réponse finale dans la balise. si vous vous trompez à un moment donné, corrigez-vous dans l’étiquette. )

il convient également de mentionner que lors du test de référence, tous les tests de référence ont été vérifiés quant à la contamination et isolés par le décontaminateur llm de lmsys.<output> section et testez cette section seule.

lors de l'utilisation du reflection 70b, le responsable a également partagé quelques conseils :

il est initialement recommandé que le paramètre température soit de 0,7 et top_p soit de 0,95.
pour améliorer la précision, il est préférable d’ajouter « réfléchissez bien ».

les responsables ont également déclaré queun rapport sera publié la semaine prochaine, détaillant le processus de formation du modèle et les résultats.

créé par l'équipe entrepreneuriale d'agent

derrière reflection 70b se cache une petite équipe, dirigée par le pdg d'hyperwriteai mutt shumerplomb.

selon linkedin, mutt shumer est un entrepreneur en série diplômé de l'université de syracuse aux états-unis et est actuellement co-fondateur et pdg d'othersideai.

othersideai est une société d'applications d'ia dédiée au développement des outils d'auto-complétion les plus avancés au monde grâce à des systèmes d'ia à grande échelle. c'est également la société derrière hyperwrite.

hyperwrite est un agent d'exploitation de navigateur qui peut utiliser google chrome comme un humain pour effectuer une série de tâches, telles que commander une pizza :

comme gpt-llm-trainer, il vous suffit de décrire l'objectif dans le texte, et il l'exécutera tout en listant les étapes.

lors de son lancement initial, il était prétendument « meilleur qu’autogpt ».

hyperwrite peut également être installé en tant qu'extension google.

de plus, mutt shumer a fondé visos alors qu'il était au lycée et s'engage à développer la prochaine génération de logiciels de réalité virtuelle à des fins médicales.

a également fondé furi, une entreprise visant à révolutionner l'industrie des articles de sport en créant des produits performants et en les vendant à des prix équitables.

bien qu'il existe un support meta, l'essai est actuellement ouvert, mais il est toujours : temporairement inaccessible.

si vous êtes intéressé par les chaussures pour enfants, vous pouvez d'abord passer votre commande~

https://reflection-playground-production.up.railway.app/

liens de référence :
[1]https://huggingface.co/mattshumer/reflection-llama-3.1-70b
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

nouvelles

le nouveau roi des grands modèles open source a renversé gpt4o, la nouvelle technologie peut s'auto-corriger et mathematics 99.2 a maximisé l'ensemble de tests

les modèles peuvent s’auto-réfléchir et corriger les erreurs

créé par l'équipe entrepreneuriale d'agent

introduction

mes coordonnées