"king of beanbao": bytedance, 하루 만에 두 개의 대형 비디오 생성 모델 출시

"빈바오의 왕": bytedance, 하루 만에 두 개의 대형 비디오 생성 모델 출시

2024-09-24

bytedance는 공식적으로 ai 비디오 세대 진출을 발표했습니다. 9월 24일, bytedance의 자회사인 volcano engine은 선전에서 ai 혁신 투어를 개최하고 두바오 비디오 세대의 두 가지 대형 모델인 pixeldance와 두바오 비디오 세대인 seaweed를 출시하고 기업 시장을 위한 초청 테스트를 시작했습니다.

이벤트에서 보여진 비디오 세대는 놀라웠습니다. 의미론적 이해 기능, 여러 피사체 움직임의 복잡한 대화형 이미지, 다중 렌즈 전환의 콘텐츠 일관성 등 doubao 비디오 생성 대형 모델은 업계의 고급 수준에 도달했습니다. volcano engine의 tan dai 사장은 "동영상 생성에는 극복해야 할 많은 어려움이 있습니다. 두 doubao 모델은 계속해서 발전하고 핵심 문제를 해결하기 위해 더 많은 가능성을 탐색하며 창작 공간 및 ai 영상 적용"

사진: 탄다이(tan dai) 화산엔진 사장이 빈백 영상 생성 모델을 공개했다.

다중 에이전트 상호 작용 및 일관성 문제를 해결하는 혁신적인 기술

이전 비디오 생성 모델의 대부분은 간단한 지침만 완료할 수 있었던 반면, doubao 비디오 생성 모델은 자연스럽고 일관된 다중 촬영 동작과 복잡한 다중 피사체 상호 작용을 달성할 수 있습니다. 일부 제작자는 doubao 비디오 생성 모델에 대한 초기 액세스 중에 생성된 비디오가 복잡한 지침을 따르고 다양한 캐릭터가 여러 동작 지침의 상호 작용을 완료할 수 있을 뿐만 아니라 캐릭터의 외모, 의상 세부 사항 및 심지어 모자까지 유지된다는 사실을 발견했습니다. 다양한 움직임에서 일관되고 실제 촬영 효과에 가깝습니다.

volcano engine에 따르면 doubao 비디오 생성 모델은 효율적인 dit 융합 컴퓨팅 유닛을 통해 비디오가 대형 다이내믹과 이동 렌즈 간에 자유롭게 전환될 수 있으며 줌, 서라운드와 같은 다중 렌즈 언어 기능을 갖춘 dit 아키텍처를 기반으로 합니다. , 팬, 확대/축소 및 대상 추적. 새롭게 고안된 확산 모델 훈련 방법은 멀티샷 전환의 일관성 문제를 극복했으며, 샷 전환 시 피사체, 스타일, 분위기의 일관성을 동시에 유지할 수 있는 것도 doubao 비디오의 독특한 기술 혁신입니다. 세대 모델.

cutting 및 dream ai와 같은 비즈니스 시나리오를 연마하고 지속적으로 반복한 후 doubao 비디오 생성 모델은 전문가 수준의 빛과 그림자 레이아웃 및 색상 조정을 갖추고 시각적 외관이 매우 아름답고 현실적입니다. 깊이 최적화된 transformer 구조는 doubao 비디오 생성의 일반화 능력을 크게 향상시키고 3d 애니메이션, 2d 애니메이션, 중국어 회화, 흑백, 두꺼운 페인트 및 기타 스타일을 지원하며 영화, tv, 컴퓨터, 휴대폰 및 기타 장치에 적합합니다. 프로포션은 전자상거래 마케팅, 애니메이션 교육, 도시 문화 관광, 마이크로 스크립트 등 기업 시나리오에 적합할 뿐만 아니라 전문 창작자 및 아티스트에게도 창의적인 지원을 제공할 수 있습니다.

현재 새로운 빈백 영상 생성 모델은 jimeng ai 내부 베타 버전에서 소규모 테스트를 진행 중이며, 향후 모든 사용자에게 점진적으로 공개될 예정이다. jianying 및 jimeng ai의 시장 리더인 chen xinran은 ai가 창작자와 깊이 상호 작용하고 함께 창조할 수 있다고 믿으며, jimeng ai는 사용자에게 가장 가깝고 현명한 창의적인 파트너가 되기를 희망합니다.

doubao big model, 업계 초고속 동시 트래픽 표준 출시

이번 행사에서 두바오 빅모델은 새로운 영상 세대 모델을 추가했을 뿐만 아니라 언어, 음성, 이미지, 영상 등 모든 모드를 완벽하게 포괄하고 완벽하게 충족하는 두바오 음악 모델과 동시통역 모델도 공개했다. 다양한 산업 및 분야의 요구 사항.

제품 성능이 점점 향상되는 동시에 대형 빈백 모델의 사용도 빠르게 증가하고 있습니다. volcano engine에 따르면 9월 현재 doubao 언어 모델의 일일 평균 토큰 사용량은 1조 3천억 개를 넘어섰으며, 이는 5월 첫 번째 출시에 비해 10배 증가한 수치입니다. 다중 모드 데이터 처리량도 이미지 5천만 개, 이미지 50개에 도달했습니다. 하루에 850,000시간의 이미지를 얻을 수 있습니다.

앞서 두바오 대형 모델은 업계 99%보다 낮은 가격을 발표하며 국내 대형 모델 가격 인하 추세를 주도했다. tan dai는 대형 모델의 가격이 더 이상 혁신의 장벽이 아니라고 믿습니다. 기업의 대규모 적용으로 인해 더 많은 동시 트래픽을 지원하는 대형 모델이 산업 발전의 핵심 요소가 되고 있습니다.

tan dai에 따르면 업계의 많은 대형 모델은 현재 최대 300k 또는 심지어 100k tpm(분당 토큰)만 지원하므로 기업 생산 환경의 트래픽을 전달하기 어렵습니다. 예를 들어, 과학 연구 기관의 문서 번역 시나리오에서 최대 tpm은 360k, 특정 자동차 스마트 조종석의 최대 tpm은 420k, ai 교육 회사의 최대 tpm은 630k에 이릅니다. 이러한 이유로 beanbao 대형 모델은 기본적으로 업계 평균보다 훨씬 높은 800k의 초기 tpm을 지원하며 고객은 필요에 따라 용량을 유연하게 확장할 수도 있습니다.

"우리의 노력으로 대형 모델의 적용 비용이 잘 해결되었습니다. tan dai는 더 나은 모델 기능과 서비스를 통해 대량 가격에서 대량 성능으로 전환해야 합니다."

이단 샤오펑

보고/피드백

소식

"빈바오의 왕": bytedance, 하루 만에 두 개의 대형 비디오 생성 모델 출시

소개

내 연락처 정보