berita

peningkatan model ai deepseek meluncurkan versi 2.5: menggabungkan coder dan chat, menyelaraskan preferensi manusia, dll.

2024-09-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

judul asli: peningkatan model ai deepseek diluncurkan ke versi 2.5: menggabungkan coder dan obrolan, menyelaraskan preferensi manusia, mengoptimalkan tugas menulis dan mengikuti instruksi, dll.

it house melaporkan pada tanggal 6 september bahwa dua model deepseek coder v2 dan deepseek v2 chat telah digabungkan dan ditingkatkan, dan model baru yang ditingkatkan adalah deepseek v2.5.

sumber: screenshot dari netizen forum linux.do

deepseek secara resmi memperbarui dokumentasi dukungan api kemarin (5 september) dan mengumumkan penggabungan model obrolan deepseek coder v2 dan deepseek v2, meningkatkan dan meluncurkan model baru deepseek v2.5.

secara resmi dinyatakan kompatibel ke depan, pengguna api dapat mengakses model baru melalui deepseek-coder atau deepseek-chat.

model baru ini secara signifikan melebihi dua model versi lama dalam hal kemampuan umum dan kemampuan pengkodean.

model baru ini lebih menyelaraskan preferensi manusia dan dioptimalkan dalam banyak aspek seperti tugas menulis dan instruksi berikut:

tingkat kemenangan arenahard meningkat dari 68,3% menjadi 76,3%

tingkat kemenangan alpacaeval 2.0 lc meningkat dari 46,61% menjadi 50,52%

skor mt-bench meningkat dari 8,84 menjadi 9,02

skor alignbench meningkat dari 7,88 menjadi 8,04

model baru ini semakin meningkatkan kemampuan pembuatan kode berdasarkan model coder asli, mengoptimalkan skenario aplikasi pemrograman umum, dan mencapai hasil berikut pada set pengujian standar:

evaluasi manusia: 89%

livecodebench (januari-september): 41%

catatan rumah it:model ai deepseek diluncurkan oleh hangzhou deepseek artificial intelligence, sebuah perusahaan yang didirikan pada tahun 2023.

pengenalan resminya adalah sebagai berikut:

fokus pada penelitian model dan teknologi dasar kecerdasan buatan umum terkemuka di dunia, dan tantang masalah-masalah mutakhir dalam kecerdasan buatan. berdasarkan sumber daya seperti kerangka pelatihan yang dikembangkan sendiri, cluster komputasi cerdas yang dibangun sendiri, dan kekuatan komputasi wanka, tim deepseek telah merilis dan membuka sumber beberapa model berskala besar dengan puluhan miliar parameter hanya dalam waktu setengah tahun, seperti model bahasa umum deepseek-llm, model besar kode deepseek-coder, dan pada januari 2024, deepseek-llm memimpin dalam open source model moe besar pertama di negara itu (deepseek-moe). dalam daftar evaluasi publik dan sampel nyata.