zhang yiming은 늦게 도착했지만 나중에도

zhang yiming은 늦게 도착했지만 더 늦게 도착했습니다.

2024-09-25

9월에 들어서면서 대형 영상 모델은 주요 제조사들의 새로운 ai 경쟁 포인트가 됐다. 그런데 이번에도 장이밍이 늦었다.

alibaba tongyi qianwen wensheng video가 출시된 지 5일이 지났고, kuaishou가 6월에 keling을 출시한 지 3개월이 지난 9월 24일 byte가 마침내 자체 doubao 비디오 생성 모델을 출시했습니다.

주목할 점은 늘 투자수익률(roi)을 중시하고 실용주의자인 장이밍이 처음부터 두바오 영상 모델의 '상업화' 기조를 정했다는 점이다.

이날 행사에서 볼케이노 엔진(volcano engine)의 탄 다이(tan dai) 사장은 이렇게 말했다.두바오(doubao) 영상 생성 모델 출시 이후부터 상용화를 검토해왔다.응용 분야로는 전자상거래 마케팅, 애니메이션 교육, 도시 문화 관광, 음악 mv, 마이크로 영화, 단편극 등의 대본 등이 있습니다.

범례: 렌더링 소스를 생성하려면 "산타 모자를 쓰고 봉제인형 고양이를 안고 있는 어린 소녀"를 입력하세요. 알파벳 목록

동시에 tan dai는 doubao 비디오 모델이 출시되기 전에 이미 douyin에 대한 많은 단편 드라마 프로젝트에 '출연'했다고 강조했습니다. 지난 달 kunlun wanwei는 ai 단편 드라마 생성 플랫폼인 skyreels를 출시했으며, 7월에는 meitu xiuxiu가 ai 단편 드라마 생성 도구인 moki를 출시했습니다.

"현재 해외에서 단편극을 판매하고 ai 대형 모델 사용자가 된 회사가 수백 개에 달합니다." 또한 바이트와 같은 대형 모델 제조업체의 경우 높은 영화 및 tv 제작 비용을 줄이기 위해 ai가 사용된다고 말했습니다. ai의 축복을 받아 단편극이나 mv도 이용자 참여가 늘어나 온라인 기사나 단편영화와 유사한 콘텐츠 상품이 될 것이라는 게 그의 견해다.

실제로 소라가 폭발적으로 대형 영상모델을 출시할 수 있는지 여부는 2024년 대형 모델 제조사의 기술이 발전했는지를 측정하는 '새로운 기준'이 됐다.

이번 소라 추격에 바이트는 두바오 모델 프로(doubao model pro)가 업그레이드되면서 비디오 모델을 위한 '공간 확보'를 위해 9월 말까지 '서두르지 않기'를 연기했다.

alphabet이 jimeng ai를 오픈했을 때 beanbao 비디오 모델을 적용한 후 c-end 사용자가 jimeng ai에서 비디오 생성을 경험할 수 있다는 사실이 주목되었습니다.

최대 생성 시간인 12초는 '공정'하며, 치켈링의 생성 효과는 '놀라운 것은 아니지만 몇 달 늦었고, 최초의 대형 영상 모델에 비해 기술 격차에서 벗어나지 못했다'고 한다. 두바오(doubao) 비디오 모델의 ai 실무자인 장양(zhang yang)은 알파벳과의 인터뷰에서 국내 비디오 모델이 집중적으로 업데이트되고 있지만,바이트의 뒤늦은 등장에 대한 자신감은 이전 ai 비디오 세대의 효과가 사용자를 '놀라게' 하지 못했다는 사실 때문일 수 있습니다.

국내 모델들이 소라를 추격하는 가운데, openai는 gpt-o1 출시를 통해 대규모 기본 모델에 대한 강화 학습의 새로운 길을 보여주었습니다. , 새로운 매치 포인트도 있습니다.

이전에 jianying이 출시한 jimeng ai는 3초의 비디오 지속 시간만 지원합니다. 대형 콩주머니 모델을 로드한 후 jimeng ai는 3~12초의 비디오를 생성할 수 있습니다.

이에 비해 keling 버전 1.0은 회원가입 없이 5초의 영상 생성만 경험할 수 있는 반면, byte의 jimeng ai는 매일 로그인 시 66포인트를 발급하여 사용자의 무료 체험판을 지원합니다.

하지만 업계 98%보다 낮은 가격으로 '대형 모델 제로위안 구매'를 선동하며 열띤 논의를 불러일으킨 두바오 모델과 달리, 두바오 모델은 바이트의 전통과 부합하지 않는 것 같다. "조용히 큰 일을 하는 것". 다소 거칠다.

"래그돌 고양이를 안고 있는 어린 소녀"라는 키워드를 입력하세요. 두바오 영상 모델 출시 전 내부 베타 버전에서는 처음으로 ai가 래그돌 고양이를 인형으로 인식한 것 같고, 생성된 영상이 나옵니다. 팔에 가짜 고양이를 안고 있는 모습인데, 영상 속 얼굴도 살짝 굳어있습니다.

9월 25일에 다시 생성된 후 봉제인형 고양이는 다시 정원 고양이로 변했습니다. 세 번째 생성되었을 때에만 대형 ai 모델이 지시를 정확하게 완료했습니다. zhang yang은 alphabet과의 인터뷰에서 내부 테스트의 첫 번째 ai 실무자 중 한 명으로서 대형 doubao 비디오 모델을 사용한 효과가 놀랍지 않다고 말했습니다.

그러나 doubao video의 대형 모델은 3d 애니메이션, 2d 애니메이션, 중국 회화, 흑백, 두꺼운 페인트 등 다양한 스타일 간에 전환할 수 있으며, 카메라를 무작위로 이동하거나 확대와 같은 카메라 이동 모드를 사용자 정의할 수도 있습니다. 16:9, 9:16, 1:1의 세 가지 화면 비율을 사용할 수 있지만 doubao는 3:4, 2:3, 4:3, 3을 포함한 다양한 화면 비율에 더 적합합니다. 2개 이상의 비율 선택.

zhang yang의 견해에 따르면 doubao는 사용자 상호 작용 경험 측면에서 더 많은 선택권을 제공합니다. 다만, 콩바오 비디오 대형 모델은 프롬프트 내에서 다중 렌즈 전환을 실현할 수 있지만, "전체 화면의 연결이 여전히 다소 매끄럽지 않고, 캐릭터의 표정이 다소 왜곡되어 있습니다."

그러나 zhang yiming은 이번에 doubao video 모델의 dna에 "실용주의"를 새겨 넣었습니다.

doubao video의 대형 모델이 출시되자 기업 시장 테스트에 초대되었습니다. 동시에 volcano engine의 tan daigeng 사장은 이렇게 말했습니다.두바오(doubao) 영상 생성 모델 출시 이후부터 상용화를 검토해왔다.응용 분야로는 전자상거래 마케팅, 애니메이션 교육, 도시 문화 관광, 음악 mv, 마이크로 영화, 단편극 등의 대본 등이 있습니다.

bytedance든 kuaishou든 "망치로 못을 찾는" 다른 ai 스타트업과 달리 "자체 콘텐츠와 플랫폼이 있고 못이 손에 쥐어져 있기 때문에 자연스럽게 대규모 비디오 모델을 만드는 데 더 많은 응용 시나리오가 있습니다." 장양이 말했다.

7월 24일 keling ai의 공식 wechat 게시물은 권한을 신청한 사용자 수가 100만 명을 초과했다고 밝혔으며, 같은 날 골드, 플래티넘, 다이아몬드의 세 가지 멤버십 카테고리를 포함하는 유료 멤버십 시스템이 출시되었습니다. 연간 회원 가격은 500위안 이상부터 시작됩니다. 5,000위안 이상입니다. 게임이 늦어진 바이트의 경우 기술적으로는 켈링과 대등할지 모르지만, 상용화 경로에서는 이미 c사이드 비용을 지불하기 시작한 켈링이 다시 한발 앞서 있는 것으로 보인다.

지난 5월 '오픈ai가 구글이 i/o를 공개하기 전날 gpt-4o를 공개했다'는 문제에 대해 구글 모회사 알파벳이자 구글 ceo 순다르 피차이는 "우리가 ai 변곡점에 있을 때 내가 보는 것은 무엇인가"라고 직설적으로 말했다. 기회이기 때문에 이 일정을 연장하면 특정 날짜에 일어나는 특정 일은 중요하지 않습니다."

openai에게 끊임없이 밀리고 있는 구글처럼,늦게 온 바이는 못을 손에 쥐고 뒤에서 따라잡으려는 듯하다.

questmobile 데이터에 따르면 7월 기준 ai 앱의 월간 활성 사용자 수는 6,630만명을 넘어섰습니다. 그 중 doubao, wen xiaoyan, kimi, hoshino 및 tongyi는 각각 월간 활성 사용자가 3,042만 명, 1,008만 명, 625만 명, 466만 명, 424만 명으로 상위 5위 안에 들었습니다.

doubao 앱은 alibaba의 tongyi qianwen보다 훨씬 늦게 출시되었고 baidu의 wen xinyiyan 및 kimi보다 훨씬 늦게 출시되었지만 doubao의 월간 활성 사용자는 이미 다른 4개 앱의 총 활성 사용자 수보다 많습니다.

따라서 ai 영상생성 분야에서는국내 기술 혁신이 부진한 현 상황에 직면해 바이트 역시 늦게 도착할 자신감을 갖고 있는 것으로 보인다.

업계 최초로 나온 켈링이든, 오랫동안 기다려온 바이트 빈백 영상 모델이든, 지난 7~9월 영상 모델을 출시한 제조사 중 소라를 따라잡을 사람은 없을 것으로 보인다.

kuaishou의 "mountains and seas' strange mirror: cutting the waves"에서 byte의 "sanxingdui: future apocalypse"까지 ai를 사용하여 단편 극을 만드는 것은 선도적인 제조업체의 ai 비디오 생성 효과를 위한 "연금석"이 되었습니다.

분명히, 실제 캐릭터가 등장하고 상호 작용해야 하는 전통적인 단편 드라마에 비해 신화, 공상 과학 및 기타 유형의 단편 드라마가 현 단계의 대형 ai 모델에 더 적합합니다.

장양은 "현재 ai 생성 수준은 불안정해 대규모 장면에서 폭탄 폭발, 불꽃놀이 등 실제 효과와 가짜 효과를 구별하기 어렵지만 여전히 디버깅 인력이 1~2시간 더 조정해야 한다"고 말했다. 알파벳 리스트에 따르면, 현재의 ai 대형 모델이 생성한 영상, 캐릭터의 더욱 세밀한 표정과 행동은 여전히 부자연스러운 표정, 좁은 움직임 범위, 기계적인 표정 등의 문제를 안고 있다.

ai 단편 드라마 플랫폼 reel.ai 주장(zhu jiang) 역시 인터뷰에서 “비애니메이션 단편 드라마는 올 하반기에는 소비성 수준에 도달할 것으로 예상된다”고 퉁명스럽게 말했다.

robin li는 "12개월 앞서 있든 18개월 뒤처지든 상관없습니다. 모든 회사는 완전 경쟁 시장에 있습니다. 무엇을 하든 많은 경쟁자가 있을 것입니다."라고 말했습니다.

사용자 기반이 1억 명에 달하는 douyin app을 사용하면 byte의 용이성을 설명하기가 어렵지 않습니다. 아직 대형 동영상 모델을 출시하지 않은 텐센트도 최대 소셜 app인 위챗을 보유하고 있어 '손톱을 잡고 있는' 장이밍과 마화텡의 선택권이 더 많아진 것으로 보인다.

"지금 어떤 회사의 비디오 모델을 사용하든 모두 그림 카드에 관한 것입니다."

"10번 세대 중 약 1번은 실제로 상업적 표준을 충족할 수 있지만 10번 디버깅하는 과정은 수동 작업만큼 효율적이지 않을 수 있습니다." , 직설적으로 말하면 현재 대형 모델은 세대 효과 측면에서 사용자의 기대에 미치지 못합니다.

"입력하면 랙돌 고양이 영상이 생성됩니다. 결과는 장난감 고양이이거나 정원 고양이입니다. 사용자가 2~3번의 시도 후에도 안정적이고 예상치 못한 결과를 얻지 못하면 진정한 사용자 유지가 어려울 것입니다."shan shan의 눈에는 이것이 sora가 출시된 지 반년이 넘도록 아직 공개 테스트용으로 출시되지 않은 이유를 설명할 수도 있습니다.

연초에는 openai ceo 알트만이 tsmc와 협력해 7조 달러를 투자해 웨이퍼 공장을 건설할 것이라는 보도가 있었고, 지난 9월 openai는 tsmc가 자체 개발한 칩을 건너뛰기 위해 노력하고 있다고 밝혔습니다. "sore 비디오 모델" "맞춤형 a16 옹스트롬 수준 프로세스 칩을 개발하는 목적은 비디오 생성 기능을 향상시키는 것입니다.

이 a16 칩의 밀도는 동일한 작동 전압에서 1.10배 증가하고 동일한 속도에서 속도는 8%-10% 증가하며 전력 소비는 15%-20% 감소합니다."더 빠른 ai 비디오 생성을 촉진하기 위해 저렴한 가격과 에너지 소비"를 사용하는 것은 openai가 sora의 공개 베타를 연기한 중요한 이유임이 분명합니다.

더 나은 ai 비디오 생성 효과를 달성하기 위해 더 높은 컴퓨팅 전력 비용, 더 낮은 가격 및 에너지 소비도 국내 대형 비디오 모델이 결국 "고갈"될 수 있는지 여부를 결정하는 핵심 요소가 되었습니다.

최근 byte는 ai 칩에 관해 tsmc와 협력할 계획인 것으로 밝혀졌지만 나중에 byte는 이 보고서가 사실이 아니라고 응답하고 칩 분야에서의 탐구가 추천 및 광고의 비즈니스 최적화에 더 중점을 두고 있다고 밝혔습니다.하지만 바이트 채용 홈페이지에 '칩' 등의 키워드를 입력하면 이미 ai 칩 아키텍처, 칩 sil 테스트 엔지니어 등 관련 직위가 200여 개가 넘는다.

그러나 장이밍(zhang yiming)과 심지어 국내 대형 모델 헤드 제조업체들에게도 그들이 직면한 과제는 더 어려울 수 있습니다.

9월 19일 2024년 yunqi 컨퍼런스에서 dark side of the moon 창립자 yang zhilin은 gpt-o1 출시의 주요 의미는 ai의 상한선을 높이는 것이라고 말했습니다. “생산성을 10%, 즉 gdp의 10배로 늘리는 것, 여기서 가장 중요한 질문은 강화 학습을 통해 더 확장할 수 있는지 여부입니다.”

gpt-o1 시대에는 doubao, tongyi qianwen, wenxin 및 kimi의 인스턴트 채팅이 10초 또는 20초의 생각에서 답변을 생성하기 위해 다양한 도구를 호출하여 분 수준 또는 심지어는 작업을 수행할 수 있는 수준으로 변했습니다. 국내 유저들에게 이미 친숙한 ai 인스턴트 채팅 상품 형태는 "ai가 인간, 혹은 보조자에 더 가깝다"는 새로운 형태의 다크가 등장할 것으로 보인다. openai를 따라잡는 사이드 오브 더 문(side of the moon)

새로운 경쟁의 순간이 다시 찾아왔을 때, 국내 대형 모델 제조사의 대형 기본 모델은 당시 '새로운 돌풍'을 보지 못했지만 장이밍 등에게는 다시 한번 선택의 기로에 섰다.

vincent video와 같은 기능적 시나리오에 계속해서 많은 "사람, 돈, 컴퓨팅 성능"을 투자하여 반복해야 할까요, 아니면 openai에서 배우고 향상된 반복 경로를 도입해야 할까요? 돈이 부족하지 않은 바이트의 경우 당연히 "둘 다 가질 수 있다".

그리고 '강화학습'이 가져온 상상의 공간이 충분히 크고 유혹적일 때, 일찍 일어나지 못한 바이트는 과연 이번에도 앞서나갈 수 있을까?

(기사에서는 zhang yang과 shan shan이 가명입니다)

소식

zhang yiming은 늦게 도착했지만 더 늦게 도착했습니다.

소개

내 연락처 정보