소식

미니맥스, 첫 파트너데이 컨퍼런스 개최 및 영상·음악세대 모델 공개

2024-09-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

01:55
기술과 음악을 결합한 라이브 쇼에서 지난 8월 31일 ai 유니콘 기업 minimax shanghai xiyu technology co., ltd.(이하 minimax)의 첫 번째 개발자 컨퍼런스인 'minimaxlink 파트너 데이'가 시작되었습니다. 이날 미니맥스는 영상모델인 video-01과 음악모델인 music-01을 공식 출시했다.
다중 모드 모델은 대형 모델 회사에게 반드시 대답해야 하는 질문이 되었으며, 그 중 비디오 모델 혁신이 가장 명백합니다. zhipu ai가 출시한 비디오 생성 모델 "qingying"과 ai pixverse를 포함하여 많은 ai 회사가 이전에 대형 모델 비디오를 출시했습니다. shi technology의 v2, shengshu technology의 vidu, kuaishou의 "keling ai" 등
01:55
다중 모드 모델을 배치하는 것은 시작에 불과합니다.
이번에 minimax가 출시한 video-01은 기본 고해상도 및 높은 프레임 속도의 동영상을 생성하는 데 초점을 맞춘 것으로 파악됩니다. 프롬프트 단어를 입력하면 사용자는 minimax 공식 웹사이트에 로그인하여 동영상을 생성할 수 있습니다. 제품을 경험해보세요.
minimax 공식 출시 비디오 모델—video-01
비디오 모델 video-01을 평가한 후 제품 디자이너는 "올바른 물리학, 좋은 다이나믹 레인지 및 안정성으로 전체적인 효과가 매우 좋으며 공상 과학 및 판타지 개념에 대한 반응이 비교적 정확하지만 플라스틱 느낌이 좋지 않습니다. 무겁습니다. 미적 성능이 상대적으로 좋지 않고 화질과 사진 세부 묘사도 좋지 않습니다.”
이와 관련하여 minimax 창립자이자 ceo인 yan junjie는 현재 전시된 것은 제품의 첫 번째 버전일 뿐이며 향후 업데이트 버전이 점진적으로 출시될 것이라고 말했습니다.
따라서 해당 영상 모델은 일정 기간 동안 사용자에게 무료로 제공되며, 제품이 만족스러운 상태로 업데이트될 때까지 상용화는 고려되지 않습니다. “향후 상용화는 크게 두 가지 형태로 나누어집니다. 하나는 회사의 개방형 플랫폼과 회사의 축적된 2,000개 이상의 고객 파트너를 기반으로 하며, 다른 하나는 음성 인식 기능을 사용할 계획입니다. 인식 기능이 자체적으로 제품에 도입되었습니다.”
보고서에 따르면 minimax의 현재 다중 모드 모델 매트릭스 제품에는 다기능 엔드투엔드 음악 생성 대형 모델인 music-01, 차세대 생성 음성 합성 대형 모델인 speech-01 등도 포함됩니다. "이것은 시작에 불과합니다. 우리는 계속해서 모델 속도와 효과를 개선하고 해당 제품을 추가로 출시할 것입니다."
모델 성능 향상의 핵심
"기술 회사로서 기술은 항상 핵심 요소입니다." yan junjie는 현 단계에서 minimax의 초점은 상용화에 있지 않다고 말했습니다.
yan junjie는 minimax의 모델이 현재 30억 건 이상의 고객 상호 작용을 처리하고 있다고 말했습니다. 1년 전 minimax 상호 작용 시간은 chatgpt의 3%에 불과했지만 현재 이 비율은 53%로 증가했습니다. 그럼에도 불구하고 연결된 사용자는 전 세계 인구의 1%에 불과하며 0.8%에 불과합니다. 1%에서 100%로 성장하기 위해서는 사용자의 ai 제품 침투율과 사용 깊이를 높이는 것이 가장 중요합니다.
minimax 사용자 상호작용 데이터
극복해야 할 기술적 어려움이 많이 있으며, 그 중 가장 중요한 세 가지 최적화 방향은 모델의 오류율을 지속적으로 줄이는 방법, 무한한 입력 및 출력, 다중 모드입니다. "텍스트 상호 작용은 작은 부분일 뿐이고 음성 및 영상 상호 작용이 더 많다는 사실을 생활에서 찾는 것은 어렵지 않습니다. 사운드, 그래픽, 텍스트 및 비디오와 같은 다중 모드 콘텐츠가 정보 전송의 주류가 되었습니다. 침투 속도를 향상시키기 위해서는 다중 양식이 유일한 방법입니다." yan junjie는 이러한 어려움을 극복하기 위한 "속도"가 minimax의 기본 대형 모델의 핵심 기술 연구 및 개발 목표라고 말했습니다. "비슷한 성능을 가진 두 모델 중에서 훈련과 추론이 더 빠른 모델이 컴퓨팅 리소스를 더 효과적으로 사용하여 더 많은 데이터를 반복할 수 있어 더 나은 모델 기능을 가질 수 있습니다."
보고서에 따르면 minimax는 과거에 moe(mixed expert architecture)와 linear attention(linear attention)을 포함하여 두 가지 주요 기본 기술 변화를 경험했습니다. 올해 4월에는 gpt-4o 수준과 맞먹는 moe+ linear attention 기반 차세대 모델을 개발했다. 100,000개의 토큰을 처리할 때 새 모델의 처리 효율성은 최대 2~3배까지 향상될 수 있으며, 길이가 길어질수록 모델의 효율성은 더욱 뚜렷하게 증가합니다.
차세대 기술을 사용하는 abab7 시리즈 텍스트 모델은 앞으로 몇 주 안에 공식적으로 출시될 것으로 이해됩니다.
공개 보고서에 따르면 2021년 12월 설립된 minimax는 이전에 tencent, mihoyo 등 3차 자금 조달을 완료했으며 현재 가치는 25억 달러를 초과했습니다.
더페이퍼 기자 yu yan과 인턴 wang chun
(이 기사는 the paper에서 발췌한 것입니다. 더 많은 원본 정보를 보려면 “the paper” 앱을 다운로드하세요.)
보고/피드백