nachricht

deepseek ai-modell-upgrade bringt version 2.5 auf den markt: zusammenführung von coder und chat, angleichung menschlicher vorlieben usw.

2024-09-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

originaltitel: deepseek ai-modell-upgrade auf version 2.5 gestartet: zusammenführen von coder und chat, angleichen menschlicher vorlieben, optimieren von schreibaufgaben und befolgen von anweisungen usw.

it house berichtete am 6. september, dass die beiden modelle deepseek coder v2 und deepseek v2 chat zusammengeführt und aktualisiert wurden und das aktualisierte neue modell deepseek v2.5 ist.

quelle: screenshot von internetnutzern des linux.do-forums

deepseek hat gestern (5. september) die api-unterstützungsdokumentation offiziell aktualisiert und die zusammenführung der modelle deepseek coder v2 und deepseek v2 chat sowie die aktualisierung und einführung eines neuen deepseek v2.5-modells angekündigt.

offiziell als vorwärtskompatibel erklärt, können api-benutzer über deepseek-coder oder deepseek-chat auf das neue modell zugreifen.

das neue modell übertrifft die beiden modelle der alten version hinsichtlich der allgemeinen fähigkeiten und codierungsfunktionen deutlich.

das neue modell passt sich den menschlichen vorlieben besser an und ist in vielen aspekten optimiert, beispielsweise beim schreiben von aufgaben und beim befolgen von anweisungen:

arenahard-gewinnrate von 68,3 % auf 76,3 % erhöht

die gewinnrate von alpacaeval 2.0 lc stieg von 46,61 % auf 50,52 %.

der mt-bench-score stieg von 8,84 auf 9,02

der alignbench-score stieg von 7,88 auf 8,04

das neue modell verbessert die codegenerierungsfähigkeiten basierend auf dem ursprünglichen coder-modell weiter, optimiert gängige programmieranwendungsszenarien und erzielt die folgenden ergebnisse mit dem standardtestsatz:

humaneval: 89 %

livecodebench (januar-september): 41 %

it-home-hinweis:das deepseek ai-modell wurde von hangzhou deepseek artificial intelligence, einem 2023 gegründeten unternehmen, ins leben gerufen.

die offizielle einführung lautet wie folgt:

konzentrieren sie sich auf die erforschung der weltweit führenden modelle und technologien für allgemeine künstliche intelligenz und stellen sie aktuelle probleme der künstlichen intelligenz in frage. basierend auf ressourcen wie einem selbst entwickelten trainings-framework, selbst erstellten intelligenten computerclustern und wanka-rechenleistung hat das deepseek-team in nur einem halben jahr mehrere groß angelegte modelle mit dutzenden milliarden parametern veröffentlicht und als open-source-lösung bereitgestellt, wie z das allgemeine sprachmodell deepseek-llm und das große codemodell deepseek-coder übernahmen im januar 2024 die führung beim open-sourcing des ersten großen moe-modells des landes (deepseek-moe). in öffentlichen bewertungslisten und realen mustern.