la actualización del modelo de ia de deepseek lanza la versión 2.5: fusiona coder y chat, alinea las preferencias humanas, etc.

la actualización del modelo de ia de deepseek lanza la versión 2.5: fusionando coder y chat, alineando las preferencias humanas, etc.

2024-09-06

título original: actualización del modelo de ia de deepseek lanzada a la versión 2.5: fusionando coder y chat, alineando las preferencias humanas, optimizando las tareas de escritura y el seguimiento de instrucciones, etc.

it house informó el 6 de septiembre que los dos modelos de deepseek coder v2 y deepseek v2 chat se fusionaron y actualizaron, y que el nuevo modelo actualizado es deepseek v2.5.

fuente: captura de pantalla de internautas del foro linux.do

deepseek actualizó oficialmente la documentación de soporte de api ayer (5 de septiembre) y anunció la fusión de los modelos deepseek coder v2 y deepseek v2 chat, actualizando y lanzando un nuevo modelo deepseek v2.5.

oficialmente declarado compatible con versiones posteriores, los usuarios de api pueden acceder al nuevo modelo a través de deepseek-coder o deepseek-chat.

el nuevo modelo supera significativamente a los dos modelos de la versión anterior en términos de capacidades generales y capacidades de codificación.

el nuevo modelo alinea mejor las preferencias humanas y está optimizado en muchos aspectos, como las tareas de escritura y el seguimiento de instrucciones:

la tasa de victorias de arenahard aumentó del 68,3% al 76,3%

la tasa de victorias de alpacaeval 2.0 lc aumentó del 46,61% al 50,52%

la puntuación de mt-bench aumentó de 8,84 a 9,02

la puntuación de alignbench aumentó de 7,88 a 8,04

el nuevo modelo mejora aún más las capacidades de generación de código basadas en el modelo coder original, optimiza escenarios de aplicaciones de programación comunes y logra los siguientes resultados en el conjunto de pruebas estándar:

evaluación humana: 89%

livecodebench (enero-septiembre): 41%

nota de inicio de ti:el modelo de ia de deepseek fue lanzado por hangzhou deepseek artificial intelligence, una empresa fundada en 2023.

la introducción oficial es la siguiente:

concéntrese en investigar los modelos y tecnologías subyacentes de inteligencia artificial general líderes en el mundo y desafíe los problemas de vanguardia en inteligencia artificial. basado en recursos como el marco de capacitación de desarrollo propio, los clústeres de computación inteligentes construidos por él mismo y la potencia informática de wanka, el equipo de deepseek ha lanzado y abierto múltiples modelos a gran escala con decenas de miles de millones de parámetros en solo medio año, como el modelo de lenguaje general deepseek-llm, modelo grande de código deepseek-coder y, en enero de 2024, tomó la iniciativa en abrir el primer modelo moe grande del país (deepseek-moe). los efectos de generalización de cada modelo principal superan el mismo nivel. en listas de evaluación públicas y muestras reales. excelente desempeño del modelo.

noticias

la actualización del modelo de ia de deepseek lanza la versión 2.5: fusionando coder y chat, alineando las preferencias humanas, etc.

introducción

mi información de contacto