Zhipu AI는 공식적으로 Sora "Qingying"을 오픈 소스로 공개했습니다

Zhipu AI는 방금 Sora "Qingying"을 공식적으로 오픈 소스로 만들었습니다.

2024-08-06

한밤중에 바다 반대편은 굴러다니지 않고 국내 기업들이 굴러다니고 있었다.

정말 자고 싶어요, 정말.

이유는 잠자리에 들기 전 Github를 보다가 우연히 THUKEG 계정을 보고 프로젝트를 업데이트 했기 때문입니다.

코그비디오X。

THUKEG는 Zhipu의 공식 명칭이며,CogVideoX는 지난 2주 동안 큰 인기를 끌었던 Zhipu의 2세대 AI 영상 삭제의 기본 모델입니다.

가장 널리 사용되는 용어로 CogVideoX는 GPT4o와 동일하고 Qingying은채팅GPT, 하나는 모델이고 다른 하나는 모델을 기반으로 한 제품이라고 간단하게 이해하면 실제로 등호를 그릴 수 있습니다.

지난 2주 동안 픽스버스는 2세대 AI 영상배틀에서 기존 3대 판타지 신 런웨이, 케링, 루마를 기반으로 한 V2 버전을 출시했고, 많은 요청을 받았던 비두 모델도 공개했다.

대형 모델 분야에서 가장 스타적인 AI 회사인 Zhipu도 이번 AI 비디오 난투에 합류하여 DiT 비디오 제품인 Qingying을 출시했습니다.

이 제품은 AI 보조원 Zhipu Qingyan에서 사용할 수 있습니다.

하지만 솔직히 말해서 세대효과 측면에서 켈링, 런웨이와는 아직 어느 정도 격차가 있는 것 같아서 쓰지 않았습니다.

그리고 오늘, Qingying을 출시한 지 2주가 지난 후, 그들은 다음과 같이 결정했습니다.CogVideoX,오픈 소스입니다.

한번 시도해 볼 가치가 있습니다.

CogVideoX 모델 다운로드 주소:

요즘 주류 AI 영상은 모두 오픈소스인 오픈소라(Open-Sora)가 있지만, 솔직히 효과는 만족스럽지 않다.

Qingying의 경우 주류 비공개 소스 모델에 비해 효과는 아직 한참 뒤떨어져 있지만, 적어도 일부 콘텐츠를 실행할 때는 사용할 수 있습니다.

이번에 오픈소스를 찾아보니 오픈소스가 하나인 것을 알게 되었습니다.CogVideoX-2B의 소형 모델.

추론에는 21.6G 비디오 메모리가 필요합니다.즉, 3090 또는 4090 카드 한 장만 있으면 비용을 소모하지 않고 로컬에서 직접 비디오를 실행할 수 있습니다. 그러나 최고 값은 36G에 도달하므로 비디오 메모리가 소모될 가능성이 높습니다.

하지만 그들은 곧 최적화할 것이라고 스스로 말했습니다.

하지만 비디오 메모리가 8G에 불과한 작은 정크 4060만 가지고 있습니다. 최적화한 후에도 실행할 수 없습니다. 4090 솔직히 말해서 살 돈이 정말 없어요 ==

SD1.5와 같은 AI 영상 모델이 모든 생명체에게 유익하고 누구나 사용할 수 있게 된다면 정말 좋을 것 같습니다.

이번 2B 모델은,영상 길이는 6초, 프레임 레이트는 8프레임/초, 영상 해상도는 720*480입니다.。

이러한 매개변수는 Dream 1세대와 동일한 느낌을 가지고 있습니다.

그 분들의 공식적인 사례 몇개 올려보겠습니다.(실제로 청잉에 가서 몇개 실행해봐도 거의 똑같습니다)

복잡하게 조각된 돛대와 돛을 갖춘 절묘한 나무 장난감 보트는 바다의 파도를 시뮬레이션한 고급 파란색 카펫 위에서 부드럽게 미끄러집니다. 선체는 진한 갈색으로 칠해져 있고 작은 창문이 있습니다. 부드럽고 질감이 좋은 러그는 마치 넓은 바다처럼 완벽한 배경을 제공합니다. 배 주변에는 다양한 장난감과 어린이 용품이 있어 어린이다운 환경을 연상시킵니다. 이 장면은 기발한 실내 환경에서 끝없는 모험을 상징하는 장난감 보트의 여정과 함께 어린 시절의 순수함과 상상력을 포착합니다.

카메라는 지붕에 검은색 수하물 선반이 있는 흰색 복고풍 오프로드 차량을 따라가고, 오프로드 차량은 소나무로 둘러싸인 가파른 흙길을 따라 가파른 언덕을 빠르게 주행하고, 타이어에는 먼지가 날리고, 태양은 오프로드 차량에 빛나다, 오프로드 차량 흙길을 빠르게 달리는 모습은 현장 전체에 따뜻한 빛을 발한다. 비포장 도로는 다른 차량이 전혀 보이지 않는 상태에서 천천히 먼 곳으로 구부러졌습니다. 길 양쪽의 나무는 삼나무이고 녹색 식물이 흩어져 있습니다. 뒤에서 보면 자동차가 마치 험난한 지형을 주행하는 것처럼 여유롭게 코너를 따라갑니다. 비포장도로 자체는 가파른 언덕과 산으로 둘러싸여 있으며, 맑고 푸른 하늘과 머리 위로 흰 구름이 뭉게뭉게 피어있습니다.

전쟁으로 피폐해진 도시, 그 폐허와 황폐함의 이야기를 전하는 폐허에서 가슴 아픈 배경을 배경으로 가슴 아픈 클로즈업이 어린 소녀를 포착합니다. 그녀의 얼굴은 재로 얼룩져 있었는데, 이는 그녀를 둘러싼 혼란에 대한 조용한 증거였습니다. 그녀의 눈빛은 슬픔과 회복력으로 빛나며 갈등으로 인해 순수함을 잃은 세상의 생생한 감정을 포착합니다.

추론은 아마도 이렇겠지만, 오픈소스에 있어서 제가 더 기대하는 것은 사실 미세조정과 플러그인의 생태학입니다.

예를 들어 지금 다들 쓰고 있는 AI 드로잉 SD 1.5 모델은 기본 모델은 사실 똥덩어리지만, 결국은 많은 고수들이 SD1을 기반으로 아주 멋진 모델을 만들어냈습니다. 5, Majic, DreamShaper, Anything 등.

그리고CogVideoX도 미세 조정할 수 있습니다.

WAIC에서 Stepping Stars and Shadows가 만든 AI 비디오 모델이 생각났습니다. 호리병박 인형 재료를 200분 사용하여 대형 호리병박 인형 모델을 만들었습니다.

제작하는 모든 것이 호리병박 베이비 스타일입니다. 캐릭터 일관성을 얻으려면 열심히 노력할 필요가 없습니다. Da Wa를 입력하면 Grandpa와 Snake Spirit이 나옵니다. 그들의.

그리고 지금,코그 비디오

왜냐하면 나는 항상 Wensheng의 비디오의 상한선과 성능 역학이 Tusheng의 비디오보다 훨씬 높다고 느꼈기 때문입니다. 그러나 가장 큰 두 가지 장애물은 스타일 일관성과 캐릭터 일관성입니다. 미세 조정할 수 있다면 갈 수 있는 방법은 많습니다. .해결되었습니다.

CogVideoX-2B의 미세 조정에는 46.2G의 비디오 메모리가 필요합니다. 일반 그래픽 카드로는 충분하지 않으므로 A6000과 같은 렌더링 카드가 필요합니다.

하지만 결국 영상 모델이라 일반 대중에게 이익이 된다는 뜻은 아니지만, 일부 스타트업이나 중소기업의 경우 그 기준이 거의 0에 가깝습니다.

이것은 오픈 소스이기 때문에 처음부터 자신만의 대형 모델을 구축하기 위해 수많은 자금을 지출할 필요가 없습니다. 이 함정을 극복하려면 수만 또는 수십만 개의 로컬 카드만 구입하면 됩니다. . 그런 다음 로컬에서 미세 조정을 수행할 수 있습니다.

저는 오픈소스의 미래가 클로즈드소스보다 더 나을 것이라고 늘 믿어왔습니다.

저커버그는 얼마 전 LLaMa3.1 405B를 출시하던 날 밤 페이스북에 1만 단어 분량의 공개 서한을 올렸습니다.

그 중 한 구절이 나에게 깊은 인상을 남겼다.

번역된 내용은 다음과 같습니다:

나는 긍정적인 AI 미래를 위해서는 오픈소스가 필수적이라고 굳게 믿습니다. AI는 인간의 생산성, 창의성, 삶의 질을 향상시키고, 경제 성장을 가속화하며, 의학 및 과학 연구의 발전을 촉진하는 데 있어서 현대 기술보다 더 큰 잠재력을 가지고 있습니다. 오픈소스는 AI가 가져오는 혜택과 기회를 전 세계 더 많은 사람들이 누릴 수 있도록 하고, 소수 기업에 권력이 집중되는 것을 방지하며, 이 기술이 보다 균형있고 안전하게 사회 전반에 확산될 수 있도록 해줄 것입니다.

소수 기업의 손에 권력이 집중되는 것을 방지하면 기술이 더욱 발전할 수 있습니다.균형 있고 안전하게 사회 전체에 홍보합니다.。

오픈소스가 최선의 방법입니다. 폐쇄소스는 기술적 평등을 가져오지 못하지만 오픈소스는 그렇게 할 것입니다. AI는 엔터테인먼트 도구가 아니라 생산성 도구이고, 주로 기업, 연구 기관 등에서 홍보되기 때문입니다.

모든 회사는 AI를 사용할 때 세 가지 큰 어려움을 겪습니다.

1. 자체 모델을 훈련하고, 미세 조정하고 개선해야 합니다.

2. 개인 데이터를 보호해야 합니다.

3. 그들은 AI를 장기적인 표준 생태계로 전환하기를 희망합니다.

이 모든 것이 한 문장으로 요약됩니다.

우리는 자신의 운명을 다른 사람에게 맡기지 않고 스스로 통제할 수 있어야 합니다.

중국에서 Zhipu는 매우 특별하다고 생각하는 회사입니다.오픈AI, 메타적인 기질을 가지고 있습니다.

Meta의 비즈니스 모델은 OpenAI와 같은 일부 대형 모델 회사의 비즈니스 모델과 완전히 다르다는 점을 알아야 합니다. 대형 모델 사용 권한을 판매하여 돈을 모으는 것이 아니기 때문에 오픈 소스는 Meta에 큰 영향을 미치지 않습니다.

하지만 Zhipu는 대형 모델 회사입니다.

하지만 그런 고려에도 불구하고 그들은 여전히 과감하게 오픈소스를 공개했습니다.

아마도 그들은 "이 기술이 사회 전체에서 보다 균형있고 안전한 방식으로 홍보될 수 있도록 한다"는 매우 고귀한 신념을 가지고 있는 Meta와 같을 것입니다.

와는 별개로CogVideoX 외에도 많은 것을 오픈 소스로 제공했습니다.

Github로 이동하여 검색해 보면 많은 놀라운 사실을 발견할 수 있습니다.

나는 소스를 오픈하려는 모든 회사를 사랑합니다.

앞으로 수많은 개발자들이 CogVideoX를 기반으로 다양한 플러그인과 미세 조정 모델을 개발할 날이 오기를 기대합니다. 수많은 모델과 다양한 비디오 생성 워크플로우를 보유하고 있습니다.

SD가 다양한 기업에서 성공하고 있는 것처럼 말이죠.

나는 지혜의 스펙트럼을 존경합니다.

이는 기술적인 결정일 뿐만 아니라 믿음의 전달이기도 합니다.

바다 건너편의 불빛이 점차 꺼졌다.

그리고 우리 편에는 새벽이 있습니다.

상승하고 있습니다.

이제 읽어보셨으니 괜찮다고 생각하시면 좋아요, 시청, 3번 리트윗 부탁드립니다. 빨리 알림 받고 싶으시다면 별점을 눌러주세요⭐ ~제 글을 읽어주셔서 감사합니다. 다음에 또 만나요.

>/ 작성자: 카지크

소식

Zhipu AI는 방금 Sora "Qingying"을 공식적으로 오픈 소스로 만들었습니다.

소개

내 연락처 정보