소식

deepseek ai 모델 업그레이드 버전 2.5 출시: coder와 chat 병합, 인간 선호도 조정 등

2024-09-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

원제: deepseek ai 모델 업그레이드가 버전 2.5로 출시됨: coder와 chat 병합, 인간 선호도 조정, 쓰기 작업 최적화 및 지시 따르기 등

it house는 deepseek coder v2와 deepseek v2 chat의 두 가지 모델이 병합 및 업그레이드되었으며, 업그레이드된 새로운 모델은 deepseek v2.5라고 9월 6일 보도했습니다.

출처: linux.do 포럼 네티즌의 스크린샷

deepseek은 어제(9월 5일) api 지원 문서를 공식 업데이트했으며 deepseek coder v2와 deepseek v2 chat 모델의 합병을 발표하고 새로운 deepseek v2.5 새 모델을 업그레이드하고 출시했습니다.

공식적으로는 향후 호환이 가능하다고 명시된 api 사용자는 deepseek-coder 또는 deepseek-chat을 통해 새 모델에 액세스할 수 있습니다.

새 모델은 일반 기능과 코딩 기능 측면에서 이전 버전의 두 모델을 크게 능가합니다.

새로운 모델은 인간의 선호도에 더 잘 부합하며 다음과 같은 작문 작업 및 지침과 같은 여러 측면에서 최적화되었습니다.

arenahard 승률이 68.3%에서 76.3%로 증가했습니다.

alpacaeval 2.0 lc 승률이 46.61%에서 50.52%로 증가했습니다.

mt-bench 점수가 8.84에서 9.02로 증가했습니다.

alignbench 점수가 7.88에서 8.04로 증가했습니다.

새 모델은 원래 coder 모델을 기반으로 코드 생성 기능을 더욱 향상시키고 일반적인 프로그래밍 애플리케이션 시나리오를 최적화하며 표준 테스트 세트에서 다음과 같은 결과를 달성합니다.

인간평가: 89%

livecodebench(1월~9월): 41%

it 홈 참고:deepseek ai 모델은 2023년에 설립된 회사인 hangzhou deepseek artificial intelligence에서 출시되었습니다.

공식적인 소개는 다음과 같습니다.

세계 최고의 일반 인공지능 기반 모델 및 기술 연구에 집중하고, 인공지능의 첨단 문제에 도전합니다. deepseek 팀은 자체 개발한 훈련 프레임워크, 자체 구축한 지능형 컴퓨팅 클러스터 및 wanka 컴퓨팅 성능과 같은 리소스를 기반으로 단 반년 만에 수백억 개의 매개변수를 갖춘 여러 대규모 모델을 출시하고 오픈 소스화했습니다. deepseek-llm 일반 언어 모델, deepseek-coder 코드 대형 모델, 그리고 2024년 1월 국내 최초 대형 moe 모델(deepseek-moe) 오픈소스화에 앞장섰으며, 각 주요 모델의 일반화 효과는 같은 수준을 넘습니다. 공개 평가 목록과 실제 샘플에서 우수한 성능을 발휘합니다.