소식

byte는 ai를 사용하여 기존 비즈니스를 되살립니다. 실제 효과에 가까운 대규모 비디오 생성 모델에 진입합니다.

2024-09-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

이 기사의 출처: times weekly 저자: he shanshan

비디오 생성 대형 모델 분야에서는 중요한 플레이어를 환영합니다.

9월 24일 바이트댄스 자회사인 볼케이노엔진(volcano engine)은 심천에서 ai 혁신 투어를 진행했다. 빈백 비디오 세대인 픽셀댄스(pixeldance)와 빈백 비디오 세대인 씨위드(seaweed)의 두 가지 대형 모델을 출시하고 기업 시장을 대상으로 한 초청 테스트도 열었다.

대규모 비디오 생성 모델의 경우 생성된 비디오의 지속 시간이 매우 중요합니다. 현재 pixeldanc 영상 생성 시간은 5초, 10초이고, seaweed는 5초입니다. volcano engine의 tan dai 사장은 time weekly 및 기타 매체에 다음과 같이 말했습니다. "비디오 생성에는 극복해야 할 많은 어려움이 있습니다. volcano engine의 장점에는 지침을 따르는 능력, 카메라 움직임(여러 렌즈에서 피사체 일관성)이 포함됩니다. 등, 그 이면에는 기술적 혁신과 풀스택 역량이 있습니다. 또한 douyin과 jianying의 동영상에 대한 이해도 장점입니다.”

tan dai는 대규모 비디오 생성 모델이 지속 시간을 논의할 뿐만 아니라 애플리케이션 시나리오도 고려해야 한다고 믿습니다. 시나리오마다 지속 시간 요구 사항이 다르며 huoshan은 다양한 산업을 위한 솔루션에 더 관심을 갖고 있습니다. "

새로운 빈백 영상 생성 모델은 jimeng ai에서 소규모로 테스트 중이며 향후 점차 모든 사용자에게 공개될 예정이라는 점은 주목할 만합니다.

올해 2월, douyin group의 전 ceo인 zhang nan은 갑자기 영화 편집으로 전환하고 영화 편집에 ai 적용을 추진하겠다고 발표했습니다. 편집을 담당한다고 발표한 지 일주일 만인 지난 2월 16일, 오픈ai는 1분짜리 영상을 생성할 수 있는 소라(sora)를 출시하며 빈센트의 영상 기능이 다시 전 세계적으로 인기를 끌게 됐다. 동시에 편집 업무 책임자인 zhang nan은 wechat moments에서 ji meng의 출시를 발표했으며, ji meng은 이적 후 zhang nan의 첫 번째 중요한 제품 업데이트가 되었습니다.

ai 혁신 투어에서 jianying과 jimeng의 ai 마케팅 책임자인 chen xinran은 두 앱의 'ai화' 최신 현황을 소개했습니다. 그녀는 과거에는 유사한 품질의 콘텐츠를 제작하려면 스토리 라인 작성, 특수 효과 연마, 패키징 및 편집 등을 포함하여 5~10명의 팀이 필요했다고 말했습니다. 협업 프로세스가 복잡하여 제작 주기가 1~2개월 정도 소요되었습니다. , 많은 자금과 자원 투자가 필요했습니다. 하지만 ai의 도움으로 대부분의 창작자들이 혼자서 창작을 완료할 수 있게 되었고, 제작 기간도 1~2주로 단축되었습니다.

tan dai는 또한 연설에서 다음과 같이 언급했습니다. "비디오 생성에는 극복해야 할 많은 어려움이 있습니다. 두 doubao 모델은 계속해서 발전하고 핵심 문제를 해결하는 데 더 많은 가능성을 탐색하며 창의적 공간의 확장과 응용을 가속화할 것입니다. ai 영상."

어쨌든 대규모 doubao 비디오 생성 모델의 탄생과 jimeng 및 jianying에서의 사용은 bytedance가 ai를 사용하여 비디오의 "기존 비즈니스"를 개선하는 데 한 걸음 더 가까워졌다는 것을 의미합니다.

출처 : 타임즈위클리 기자가 현장에서 촬영한 사진

렌즈를 자유롭게 전환할 수 있습니다.

volcano engine 사이트의 보고에 따르면 대형 빈백 모델의 사용이 빠르게 증가하고 있습니다.

9월 현재 doubao 언어 모델 토큰의 일일 평균 사용량은 5월 출시보다 10배 증가한 1조 3천억 개를 넘어섰습니다. 다중 모드 데이터 처리량도 하루에 각각 5천만 장의 사진과 85만 시간의 음성을 기록했습니다.

엄청난 사용자 수와 함께 빈백 모델은 다시 한번 새로운 변화를 가져왔습니다. 새로운 영상세대 모델이 추가됐을 뿐만 아니라, 언어, 스피치, 이미지, 영상 등 모든 모드를 완벽하게 커버하는 빈백 음악 모델과 동시통역 모델도 출시됐다.

이전에 대부분의 비디오 생성 모델은 간단한 지침만 완료할 수 있었습니다. doubao 비디오 생성 모델은 자연스럽고 일관된 멀티샷 동작과 여러 대상과의 복잡한 상호 작용을 달성할 수 있습니다. 복잡한 지침을 따를 수 있을 뿐만 아니라 다양한 캐릭터가 상호 작용을 완료할 수도 있습니다. 다양한 액션 지시의 모습, 의상 디테일, 심지어 헤드기어까지 다양한 카메라 움직임에도 일관되게 유지되어 실제 촬영 효과에 가깝습니다.

doubao 비디오 생성 모델은 dit 아키텍처를 기반으로 하며 효율적인 dit 융합 컴퓨팅 장치를 통해 비디오는 대형 다이내믹과 이동 렌즈 간에 자유롭게 전환할 수 있으며 줌, 서라운드, 팬, 줌과 같은 다중 렌즈 언어 기능을 갖추고 있습니다. 그리고 목표를 추적합니다. "이것은 doubao에서 생성된 비디오가 다중 장면 전환의 일관성 문제를 극복하고 샷 전환 시 피사체, 스타일 및 분위기의 일관성을 동시에 유지할 수 있음을 의미합니다. 이는 또한 doubao의 독특한 기술 혁신입니다. doubao 비디오 생성 모델." tan dai가 말했습니다.

모델의 미래 방향과 관련하여 tan dai는 volcano engine이 기존 모델을 기반으로 더 나은 구현과 가속화된 혁신에 더 많은 관심을 기울이고 있다고 말했습니다. "기술은 사용자 요구를 충족해야 하며, 신기술과 기존 기술은 지속적으로 조정 및 적응되어야 합니다. 성숙한 표준 대형 모델의 경우 인큐베이션 이후의 사용자입니다. 실험실의 피드백이 아닌 일정량의 경험을 통해 얻은 실제적이고 좋은 피드백입니다. 예를 들어 jimeng과 doubao는 수많은 내부 테스트를 거쳤으며 사용자 피드백은 중요한 평가 기준이 됩니다.”

이전에 doubao big model은 업계의 99%보다 낮은 토큰 가격을 설정했으며 가격 인하의 물결을 일으킨 최초의 화산 엔진이었습니다. 현재 doubao video의 대형 모델 사용 가격은 아직 발표되지 않았습니다. tan daidai는 times weekly와 기타 매체에 비디오 모델과 언어 모델의 적용 시나리오가 다르며 가격 논리도 다르다고 말했습니다. "새로운 경험-오래된 경험-이주 비용"이 널리 사용될 수 있는지 여부를 고려해야 합니다. 결국은 이전에 비해 생산성 roi가 얼마나 향상되었는지에 따라 달라집니다.

출처: 지멍 공식 홈페이지

ai 네이티브 제품 살펴보기

이전에는 jimeng의 일반 사용자는 3초짜리 ai 짧은 동영상을 생성할 수 있었고, vip 사용자는 3초까지 시간을 연장할 수 있었습니다.

커팅은 올해 3월부터 스마트 자막, 영상 번역, 기타 기능 등 ai 기능을 집중적으로 업데이트했다. 또한 컷팅 ai 기능을 활용한 단편 영상에 대한 트래픽 및 현금 보상을 지원하기 위해 douyin과도 오픈했습니다. 예를 들어 뛰어난 작품은 영상당 dou + 500위안의 트래픽 지원을 받을 수 있습니다. 현재 jianying의 vip 멤버십 가격은 1년 218위안이며, 월 평균 요금은 18.17위안인 반면, dream의 월 vip 멤버십 요금은 69위안입니다.

ai 혁신 투어에서 천신란은 “빈백 대형 모델 관련 기술이 컷아웃, 드림 ai, 깨우기 사진 등에 적용됐다”고 언급하며 ai 기술이 적용된 새로운 기능을 소개했다.

예를 들어, 디지털 복제 응용 분야에서 디지털 인간 음성 복제 기능은 음성 복제 기술을 기반으로 온라인으로 맞춤화될 수 있습니다. 디지털 제작자는 3분 분량의 고화질 정면 영상을 녹화하거나 업로드하기만 하면 되며, 톤 클로닝은 5초의 음성 입력만으로 자연스럽고 부드러우며 모순되지 않는 음성을 생성하고 다양한 언어로 번역도 가능합니다. "우리는 개인 정보 보호 및 보안 문제에 대해 매우 우려하고 있습니다. 제품 디자인 및 기술 측면에서 사용자의 개인적인 확인이 필요합니다. 또한 서비스 보안 및 신뢰성을 향상하기 위해 새로운 업계 규정에도 주의를 기울일 것입니다."

또한 전자상거래 판매자를 위한 '콘텐츠 마케팅' 제작 도구도 있습니다. 과거에는 판매자들이 인기 동영상 루틴을 분석하고 루틴을 해체하고 사본을 복사하기 위해 douyin 및 tiktok을 검색하는 데 몇 시간을 보냈고 이제는 제품 이름과 내용을 입력하는 데 몇 시간밖에 걸리지 않습니다. 자료를 추가하거나 제품 페이지 링크를 붙여넣으면 한 번의 클릭으로 다양한 스타일의 배송 동영상을 생성할 수 있습니다.

chen xinran은 jianying이 기존 제품에 ai를 적용하는 것 외에도 gena(generative artificial intelligence) i 시대에 ai 네이티브 제품의 가능성도 모색하고 있다고 구체적으로 언급했습니다. “jimeng ai는 현재 이 방향으로 제품을 탐색하고 있습니다. 장면 다듬기 및 효과 다듬기 내부 테스트를 위해 두 개의 대형 비디오 생성 모델을 연결합니다. 제작 비용, 스타일 또는 문화적 배경에 의해 제한되어서는 안 되며, 재미있고 행복해야 합니다."

tan dai는 또한 대형 모델의 적용 비용이 잘 해결되었다고 말했습니다. "대형 모델은 더 나은 모델 기능과 서비스를 통해 볼륨 가격에서 볼륨 성능으로 전환해야 합니다."