berita

Zhipu AI baru saja menjadikan Sora "Qingying" mereka secara resmi menjadi open source

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Di tengah malam, sisi lain lautan tidak bergulung-gulung, tapi perusahaan-perusahaan dalam negeri bergulung-gulung.

Aku sangat ingin tidur, sungguh.

Alasannya adalah sebelum saya tidur, ketika saya sedang melihat Github, saya tidak sengaja melihat akun THUKEG dan mengupdate sebuah proyek.

Video Gigi

THUKEG adalah gelar resmi Zhipu, danCogVideoX adalah model dasar kliring video AI generasi kedua Zhipu yang sangat populer dalam dua minggu terakhir.

Dalam istilah yang paling populer, CogVideoX sama dengan GPT4o, dan Qingying sama denganObrolanGPT, Anda cukup memahami bahwa yang satu adalah model dan yang lainnya adalah produk berdasarkan model tersebut, sehingga Anda dapat menggambar tanda sama dengan.

Dalam dua minggu terakhir, dalam pertarungan video AI generasi kedua, Pixverse meluncurkan versi V2 berdasarkan tiga dewa fantasi yang ada Runway, Ke Ling, dan Luma, dan model Vidu yang banyak diminta juga dirilis.

Sebagai perusahaan AI paling terkenal di bidang model besar, Zhipu juga bergabung dalam video melee AI ini dan merilis produk video DiT mereka, Qingying.

Produk ini dapat digunakan pada asisten AI mereka Zhipu Qingyan.

Tapi sejujurnya, saya tidak menulisnya karena menurut saya masih ada kesenjangan tertentu antara Keling dan Runway dalam hal efek pembangkitan.

Dan hari ini, dua minggu setelah melepaskan Qingying, mereka memutuskan untuk melakukannyaCogVideoX,Ini adalah sumber terbuka.

Ada baiknya untuk mencobanya.

Alamat pengunduhan model CogVideoX:

Saat ini, video AI mainstream semuanya open source, ada Open-Sora yang open source, tapi sejujurnya, efeknya kurang memuaskan.

Sedangkan untuk Qingying, meskipun efeknya masih jauh di belakang model sumber tertutup arus utama, setidaknya model ini dapat digunakan saat menjalankan beberapa konten.

Kali ini, saya menelusuri yang open source, dan menemukan bahwa yang open source adalah salah satunyaModel kecil CogVideoX-2B.

Inferensi memerlukan memori video 21,6GArtinya, bila Anda memiliki satu kartu 3090 atau 4090, Anda dapat langsung menjalankan video secara lokal tanpa menghabiskan uang. Namun, nilai puncaknya akan mencapai 36G, yang kemungkinan besar akan menghabiskan memori video.

Namun mereka sendiri mengatakan akan segera mengoptimalkannya.

Tapi saya hanya punya sebagian kecil sampah 4060 dengan memori video 8G saja. Bahkan setelah Anda mengoptimalkannya, saya tidak bisa menjalankannya. 4090, jujur ​​saya tidak punya uang untuk membelinya = =

Akan sangat bagus jika model video AI, seperti SD1.5, bermanfaat bagi semua makhluk hidup dan dapat digunakan oleh semua orang.

Model 2B ini,Durasi video 6 detik, kecepatan bingkai 8 bingkai/detik, dan resolusi video 720*480

Parameter ini memiliki perasaan yang sama dengan Dream generasi pertama.

Saya akan memposting beberapa kasus resmi mereka (sebenarnya, hampir sama jika Anda pergi ke Qingying dan menjalankan beberapa)

Perahu mainan kayu yang indah, dengan tiang dan layar berukir rumit, meluncur mulus di atas karpet biru mewah yang menyerupai gelombang laut. Lambungnya dicat coklat tua dan memiliki jendela kecil. Karpetnya yang lembut dan bertekstur memberikan backdrop yang sempurna, seperti lautan luas. Kapal dikelilingi oleh berbagai mainan dan barang-barang anak-anak, menunjukkan lingkungan yang kekanak-kanakan. Adegan ini menangkap kepolosan dan imajinasi masa kanak-kanak, dengan perjalanan perahu mainan yang melambangkan petualangan tanpa akhir dalam suasana interior yang unik.

Kamera mengikuti kendaraan off-road retro berwarna putih dengan rak bagasi hitam di atapnya, kendaraan off-road tersebut melaju dengan cepat di lereng bukit yang curam sepanjang jalan tanah terjal yang dikelilingi pepohonan pinus, debu beterbangan di ban, matahari bersinar pada kendaraan off-road, kendaraan off-road Mengemudi dengan cepat di jalan tanah memberikan cahaya hangat di seluruh pemandangan. Jalan tanah berkelok perlahan di kejauhan, tanpa ada kendaraan lain yang terlihat. Pepohonan di kedua sisi jalan adalah pohon sequoia, dan terdapat tumbuhan hijau yang tersebar. Dilihat dari belakang, mobil ini mengikuti tikungan dengan mudah, seolah melaju di medan yang berat. Jalan tanahnya sendiri dikelilingi perbukitan dan pegunungan terjal, dengan langit biru cerah dan awan putih tipis di atasnya.

Di kota yang dilanda perang, dengan reruntuhan dan reruntuhannya yang menceritakan kisah kehancuran, sebuah gambar close-up yang mengharukan menangkap seorang gadis muda dengan latar belakang yang memilukan ini. Wajahnya ternoda abu, sebuah bukti bisu akan kekacauan yang mengelilinginya. Matanya berbinar karena kesedihan dan ketangguhan, menangkap emosi mentah dari dunia yang kehilangan kepolosan akibat konflik.

Alasannya mungkin seperti ini, tetapi yang lebih saya nantikan terkait open source sebenarnya adalah ekologi fine-tuning dan plug-in.

Misalnya, gambar AI model SD 1.5 yang digunakan semua orang sekarang, model dasarnya sebenarnya seperti sampah, tetapi bagaimanapun juga ini adalah sumber terbuka. Banyak master telah membuat model yang sangat mengagumkan berdasarkan SD1. 5, seperti Majic, DreamShaper, Apa Saja dan banyak lagi.

DanCogVideoX juga dapat disesuaikan.

Saya teringat model video AI yang dibuat oleh Stepping Stars and Shadows di WAIC. Mereka menggunakan bahan boneka Calabash berdurasi 200 menit untuk membuat model boneka Calabash berukuran besar.

Semua yang dihasilkan ala Calabash Baby, tidak perlu kerja keras untuk mencapai konsistensi karakter. Kalau saya masukan Da Wa, yang keluar adalah Da Wa. Saya menulis Kakek dan Roh Ular bersama-sama dari mereka.

Dan sekarang,Video Roda Gigi

Karena saya selalu merasa bahwa batas atas dan dinamika performa video Wensheng jauh lebih tinggi dibandingkan video Tusheng, namun dua kendala terbesarnya adalah konsistensi gaya dan konsistensi karakter . terselesaikan.

Penyempurnaan CogVideoX-2B membutuhkan memori video 46,2G. Kartu grafis biasa saja tidak cukup, sehingga diperlukan kartu rendering seperti A6000.

Namun bagaimanapun juga, ini adalah model video. Bukan berarti akan bermanfaat bagi masyarakat umum, namun untuk beberapa start-up dan usaha kecil, ambang batasnya hampir sama dengan 0.

Karena ini open source, mereka tidak perlu mengeluarkan dana yang tak terhitung jumlahnya untuk membangun model besar mereka sendiri dari awal. Untuk melewati jebakan ini, mereka hanya perlu membeli beberapa kartu lokal, yang jumlahnya mencapai puluhan ribu atau ratusan ribu . , lalu penyesuaian dapat dilakukan secara lokal.

Saya selalu percaya bahwa masa depan open source akan lebih baik daripada close source.

Pada malam Zuckerberg merilis LLaMa3.1 405B beberapa waktu lalu, ia memposting surat terbuka berisi 10.000 kata di Facebook.

Salah satu bagiannya sangat mengesankan saya.

Diterjemahkan adalah:

Saya sangat yakin bahwa open source adalah suatu keharusan untuk masa depan AI yang positif. AI memiliki potensi lebih besar dibandingkan teknologi modern mana pun dalam meningkatkan produktivitas, kreativitas, dan kualitas hidup manusia, mempercepat pertumbuhan ekonomi, serta mendorong kemajuan dalam penelitian medis dan ilmiah. Open source akan memastikan lebih banyak orang di dunia dapat menikmati manfaat dan peluang yang dibawa oleh AI, mencegah pemusatan kekuasaan di tangan segelintir perusahaan, dan memungkinkan teknologi ini dipromosikan ke seluruh masyarakat dengan cara yang lebih seimbang dan aman.

Mencegah pemusatan kekuasaan di tangan segelintir perusahaan memungkinkan teknologi menjadi lebih banyakSosialisasikan kepada seluruh lapisan masyarakat secara seimbang dan aman

Open source adalah metode terbaik. Closed source tidak akan membawa kesetaraan teknologi, namun open source akan mewujudkannya, karena AI bukanlah alat hiburan, melainkan alat produktivitas, dan promosinya terutama berasal dari perusahaan, lembaga penelitian, dll.

Setiap perusahaan mengalami tiga kesulitan besar saat menggunakan AI:

1. Mereka perlu melatih, menyempurnakan, dan menyempurnakan model mereka sendiri.

2. Mereka perlu melindungi data pribadi mereka.

3. Mereka berharap dapat mengubah AI mereka menjadi ekosistem standar jangka panjang.
Semua ini, dirangkum dalam satu kalimat:

Kita harus mampu mengendalikan nasib kita sendiri dan tidak menyerahkannya kepada orang lain.

Di Tiongkok, Zhipu adalah perusahaan yang menurut saya sangat istimewaBuka AI, dan memiliki temperamen Meta.

Anda harus tahu bahwa model bisnis Meta sangat berbeda dengan beberapa perusahaan model besar seperti OpenAI, mereka tidak mengumpulkan uang dengan menjual hak untuk menggunakan model besar, sehingga open source tidak berdampak banyak pada Meta.

Tapi Zhipu berbeda.

Namun dengan pertimbangan seperti itu, mereka tetap menjadikannya sumber terbuka.

Mungkin mereka seperti Meta, karena keyakinannya yang sangat mulia: "Agar teknologi ini bisa dipromosikan ke seluruh masyarakat dengan cara yang lebih seimbang dan aman."

Selain dariSelain CogVideoX, mereka juga membuka banyak hal menjadi sumber terbuka.

Buka Github mereka dan jelajahi, Anda akan menemukan banyak kejutan:

Saya suka setiap perusahaan yang mau open source.

Saya menantikan hari di masa depan ketika banyak pengembang akan mengembangkan berbagai plug-in dan model penyesuaian berdasarkan CogVideoX. Setiap perusahaan di film dan televisi, drama pendek, periklanan, dan industri terkait video lainnya juga akan melakukannya memiliki banyak model dan berbagai alur kerja pembuatan video.

Sama seperti SD yang sedang booming di berbagai perusahaan.

Saya mengagumi spektrum kebijaksanaan.

Ini bukan hanya keputusan teknis, tapi juga transmisi keyakinan.

Lampu di seberang lautan berangsur-angsur padam.

Dan fajar di pihak kita.

terbit.

Sekarang setelah Anda membaca ini, jika menurut Anda bagus, silakan beri suka, tonton, dan retweet tiga kali. Jika Anda ingin menerima notifikasi sesegera mungkin, Anda juga dapat memberi saya bintang⭐ ~Terima kasih telah membaca artikel saya, Sampai jumpa lagi.
>/ Penulis: Kazik