l'aggiornamento del modello ai di deepseek lancia la versione 2.5: fusione di coder e chat, allineamento delle preferenze umane, ecc.

2024-09-06

titolo originale: aggiornamento del modello ai di deepseek lanciato alla versione 2.5: fusione di coder e chat, allineamento delle preferenze umane, ottimizzazione delle attività di scrittura e seguito delle istruzioni, ecc.

it house ha riferito il 6 settembre che i due modelli di deepseek coder v2 e deepseek v2 chat sono stati uniti e aggiornati e il nuovo modello aggiornato è deepseek v2.5.

fonte: screenshot dai netizen del forum linux.do

deepseek ha aggiornato ufficialmente la documentazione di supporto api ieri (5 settembre) e ha annunciato la fusione dei modelli deepseek coder v2 e deepseek v2 chat, aggiornando e lanciando un nuovo modello deepseek v2.5.

dichiarato ufficialmente compatibile con le versioni successive, gli utenti api possono accedere al nuovo modello tramite deepseek-coder o deepseek-chat.

il nuovo modello supera significativamente i due modelli della vecchia versione in termini di capacità generali e capacità di codifica.

il nuovo modello allinea meglio le preferenze umane ed è ottimizzato in molti aspetti come la scrittura delle attività e le seguenti istruzioni:

la percentuale di vittorie di arenahard è aumentata dal 68,3% al 76,3%

la percentuale di vittorie di alpacaeval 2.0 lc è aumentata dal 46,61% al 50,52%

il punteggio mt-bench è aumentato da 8,84 a 9,02

il punteggio di alignbench è aumentato da 7,88 a 8,04

il nuovo modello migliora ulteriormente le capacità di generazione del codice basate sul modello coder originale, ottimizza gli scenari comuni delle applicazioni di programmazione e ottiene i seguenti risultati sul set di test standard:

valutazione umana: 89%

livecodebench (gennaio-settembre): 41%

nota sulla casa it:il modello deepseek ai è stato lanciato da hangzhou deepseek artificial intelligence, una società fondata nel 2023.

la presentazione ufficiale è la seguente:

concentrati sulla ricerca dell'intelligenza artificiale generale leader a livello mondiale alla base di modelli e tecnologie e affronta i problemi all'avanguardia dell'intelligenza artificiale. basandosi su risorse quali strutture di formazione auto-sviluppate, cluster di calcolo intelligenti auto-costruiti e potenza di calcolo wanka, il team di deepseek ha rilasciato e reso open source molteplici modelli su larga scala con decine di miliardi di parametri in appena sei mesi, come il deepseek-llm modello linguistico generale, modello di grandi dimensioni del codice deepseek-coder e, nel gennaio 2024, ha preso l'iniziativa nell'open source del primo grande modello moe del paese (deepseek-moe). gli effetti di generalizzazione di ciascun modello principale superano lo stesso livello nelle liste di valutazione pubbliche e nei campioni reali ottime prestazioni del modello.

notizia

l'aggiornamento del modello ai di deepseek lancia la versione 2.5: fusione di coder e chat, allineamento delle preferenze umane, ecc.

introduzione

le mie informazioni di contatto