a atualização do modelo deepseek ai lança a versão 2.5: mesclando coder e chat, alinhando preferências humanas, etc.

2024-09-06

título original: atualização do modelo deepseek ai lançada para a versão 2.5: mesclando coder e chat, alinhando preferências humanas, otimizando tarefas de escrita e acompanhamento de instruções, etc.

a it house informou em 6 de setembro que os dois modelos deepseek coder v2 e deepseek v2 chat foram mesclados e atualizados, e o novo modelo atualizado é deepseek v2.5.

fonte: captura de tela dos internautas do fórum linux.do

deepseek atualizou oficialmente a documentação de suporte da api ontem (5 de setembro) e anunciou a fusão dos modelos deepseek coder v2 e deepseek v2 chat, atualizando e lançando um novo modelo deepseek v2.5.

oficialmente declarado compatível com versões futuras, os usuários da api podem acessar o novo modelo por meio do deepseek-coder ou deepseek-chat.

o novo modelo excede significativamente os dois modelos da versão antiga em termos de capacidades gerais e capacidades de codificação.

o novo modelo alinha melhor as preferências humanas e é otimizado em muitos aspectos, como tarefas de redação e acompanhamento de instruções:

a taxa de vitória do arenahard aumentou de 68,3% para 76,3%

a taxa de vitória do alpacaeval 2.0 lc aumentou de 46,61% para 50,52%

a pontuação do mt-bench aumentou de 8,84 para 9,02

a pontuação do alignbench aumentou de 7,88 para 8,04

o novo modelo melhora ainda mais os recursos de geração de código com base no modelo coder original, otimiza cenários comuns de aplicativos de programação e atinge os seguintes resultados no conjunto de testes padrão:

avaliação humana: 89%

livecodebench (janeiro a setembro): 41%

nota inicial de ti:o modelo deepseek ai foi lançado pela hangzhou deepseek artificial intelligence, uma empresa fundada em 2023.

a introdução oficial é a seguinte:

concentre-se na pesquisa dos principais modelos e tecnologias subjacentes à inteligência artificial geral do mundo e desafie problemas de ponta em inteligência artificial. com base em recursos como estrutura de treinamento autodesenvolvida, clusters de computação inteligente autoconstruídos e poder de computação wanka, a equipe deepseek lançou e abriu o código-fonte de vários modelos de grande escala com dezenas de bilhões de parâmetros em apenas meio ano, como o modelo de linguagem geral deepseek-llm, modelo grande de código deepseek-coder e, em janeiro de 2024, assumiu a liderança no código aberto do primeiro grande modelo moe do país (deepseek-moe os efeitos de generalização de cada modelo principal excedem o mesmo nível). em listas públicas de avaliação e amostras reais excelente desempenho do modelo.

notícias

a atualização do modelo deepseek ai lança a versão 2.5: mesclando coder e chat, alinhando preferências humanas, etc.

introdução

minhas informações de contato