la mise à niveau du modèle deepseek ai lance la version 2.5 : fusion de coder et chat, alignement des préférences humaines, etc.

2024-09-06

titre original : mise à niveau du modèle deepseek ai lancée vers la version 2.5 : fusion de coder et chat, alignement des préférences humaines, optimisation des tâches d'écriture et du suivi des instructions, etc.

it house a rapporté le 6 septembre que les deux modèles de deepseek coder v2 et deepseek v2 chat ont été fusionnés et mis à niveau, et que le nouveau modèle mis à niveau est deepseek v2.5.

source : capture d'écran des internautes du forum linux.do

deepseek a officiellement mis à jour la documentation de support de l'api hier (5 septembre) et a annoncé la fusion des modèles deepseek coder v2 et deepseek v2 chat, la mise à niveau et le lancement d'un nouveau modèle deepseek v2.5.

officiellement déclaré compatible avec les versions ultérieures, les utilisateurs de l'api peuvent accéder au nouveau modèle via deepseek-coder ou deepseek-chat.

le nouveau modèle dépasse largement les deux modèles de l'ancienne version en termes de capacités générales et de capacités de codage.

le nouveau modèle aligne mieux les préférences humaines et est optimisé dans de nombreux aspects tels que les tâches d'écriture et le suivi des instructions :

le taux de victoire d'arenahard est passé de 68,3 % à 76,3 %

le taux de victoire d'alpacaeval 2.0 lc est passé de 46,61 % à 50,52 %

le score mt-bench est passé de 8,84 à 9,02

le score d'alignbench est passé de 7,88 à 8,04

le nouveau modèle améliore encore les capacités de génération de code basées sur le modèle coder d'origine, optimise les scénarios d'application de programmation courants et obtient les résultats suivants sur l'ensemble de tests standard :

évaluation humaine : 89 %

livecodebench (janvier-septembre) : 41 %

remarque sur la maison informatique :le modèle deepseek ai a été lancé par hangzhou deepseek artificial intelligence, une société fondée en 2023.

l'introduction officielle est la suivante :

concentrez-vous sur la recherche des principaux modèles et technologies d'intelligence artificielle générale au monde et défiez les problèmes de pointe en matière d'intelligence artificielle. sur la base de ressources telles qu'un cadre de formation auto-développé, des clusters informatiques intelligents auto-construits et la puissance de calcul wanka, l'équipe deepseek a publié et open source plusieurs modèles à grande échelle avec des dizaines de milliards de paramètres en seulement six mois, tels que le modèle de langage général deepseek-llm, grand modèle de code deepseek-coder, et en janvier 2024, il a pris la tête de l'open source du premier grand modèle moe du pays (deepseek-moe). les effets de généralisation de chaque modèle majeur dépassent le même niveau. dans les listes d’évaluation publiques et les échantillons réels. excellentes performances du modèle.

nouvelles

la mise à niveau du modèle deepseek ai lance la version 2.5 : fusion de coder et chat, alignement des préférences humaines, etc.

introduction

mes coordonnées