Informasi kontak saya
Surat[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mesin Jantung Asli
Departemen Editorial Jantung Mesin
Kita menyaksikan babak baru inovasi teknologi. Kali ini, AIGC menyediakan alat bagi individu untuk mengekspresikan diri mereka, menjadikan kreasi lebih mudah dan lebih populer, namun kekuatan pendorong di baliknya bukanlah model "besar".
Dalam dua tahun terakhir, teknologi AIGC telah berkembang lebih cepat dari yang dibayangkan siapa pun, mencakup segala bidang mulai dari teks, gambar, hingga video. Diskusi mengenai jalur komersialisasi AIGC tidak pernah berhenti, di antaranya terdapat konsensus dan perbedaan jalur.
Di satu sisi, kemampuan hebat model umum sungguh luar biasa dan menunjukkan potensi penerapan di berbagai industri. Secara khusus, pengenalan arsitektur seperti DiT dan VAR telah memungkinkan Scaling Law melompat dari generasi teks ke generasi visual. Di bawah panduan aturan ini, banyak produsen model besar terus bergerak maju ke arah peningkatan data pelatihan, investasi daya komputasi, dan akumulasi parameter.
Di sisi lain, kita juga telah melihat bahwa model universal tidak berarti "membunuh semua". Dalam menghadapi banyak tugas jalur yang terbagi, model vertikal yang "terlatih" dapat mencapai hasil yang lebih baik.
Ketika teknologi model besar memasuki periode penerapan yang dipercepat, jalur komersialisasi yang terakhir telah mendapat perhatian yang meningkat pesat.
Selama evolusi ini, FancyTech, sebuah perusahaan startup dari Tiongkok, menonjol:Perusahaan ini telah dengan cepat memperluas pasar dengan produk-produk standar untuk pembuatan konten visual komersial, dan telah memverifikasi keunggulan "model vertikal" pada tingkat penerapan industri lebih awal dibandingkan perusahaan sejenisnya.
Melihat lingkaran wirausaha model besar dalam negeri, rekam jejak komersialisasi FancyTech terlihat jelas bagi semua orang. Namun yang kurang diketahui adalah model vertikal dan keunggulan teknologi yang dimiliki perusahaan yang baru lahir beberapa tahun lalu ini menjadi yang terdepan di lintasannya.
Dalam wawancara eksklusif, Machine Heart berbincang dengan FancyTech tentang eksplorasi teknologi yang mereka lakukan.
FancyTech merilis model vertikal video DeepVideo
Bagaimana cara mendobrak hambatan industri?
Secara umum, setelah kemampuan generalisasi zero-shot dari model umum mencapai tingkat tertentu, model tersebut dapat digunakan untuk tugas-tugas hilir dengan menyempurnakannya. Ini juga merupakan cara banyak produk model besar diluncurkan saat ini. Namun dari efek sebenarnya, "penyempurnaan" saja tidak dapat memenuhi kebutuhan aplikasi industri, karena tugas pembuatan konten di setiap industri memiliki serangkaian standarnya sendiri yang spesifik dan kompleks.
Model umum mungkin mampu menyelesaikan 70% tugas rutin, namun yang sebenarnya dibutuhkan pelanggan adalah "model vertikal" yang dapat memenuhi 100% kebutuhan mereka. Ambil contoh desain visual komersial. Di masa lalu, pekerjaan terkait diselesaikan oleh para profesional dengan akumulasi jangka panjang, dan perlu dirancang dan disesuaikan sesuai dengan kebutuhan spesifik merek, yang melibatkan banyak pengalaman manual. Dibandingkan dengan indikator seperti estetika dan kepatuhan instruksi, "restorasi produk" adalah poin yang lebih diperhatikan oleh merek dalam tugas ini, dan juga merupakan faktor penentu apakah merek bersedia membayar.
Dalam proses mengembangkan sendiri model vertikal untuk gambar/video komersial, FancyTech membongkar tantangan inti: bagaimana membuat produk cukup dipulihkan dan diintegrasikan ke latar belakang, terutama dalam video yang dihasilkan, untuk mencapai pergerakan produk yang terkendali tanpa deformasi .
Alamat:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0 ef4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Dengan berkembangnya teknologi model besar saat ini, untuk lapisan aplikasi, mengambil jalur open source atau close source tidak lagi menjadi isu inti. Model vertikal FancyTech didasarkan pada kerangka algoritme dasar sumber terbuka, ditumpangkan dengan anotasi datanya sendiri dan dilatih ulang, dan hanya memerlukan beberapa ratus GPU untuk iterasi pelatihan berkelanjutan guna mencapai hasil generasi yang baik. Sebaliknya, dua faktor yaitu "data produk" dan "metode pelatihan" lebih penting terhadap efek implementasi akhir.
Dengan tujuan mengumpulkan data pelatihan 3D dalam jumlah besar, FancyTech memperkenalkan gagasan kecerdasan spasial untuk memandu pembuatan konten 2D dari model tersebut.Khususnya, untuk pembuatan konten gambar, tim mengusulkan "perangkat fitur multi-modal" untuk memastikan pemulihan produk, dan menggunakan pengumpulan data khusus untuk memastikan integrasi alami produk dan latar belakang untuk pembuatan konten video, tim merekonstruksi pembuatan video tautan yang mendasarinya, kerangka desain terarah, dan rekayasa data untuk mencapai pembuatan video yang berpusat pada produk.
Serangan Pengurangan Dimensi Sejati: Bagaimana "kecerdasan spasial" memandu pembuatan konten 2D?
Alasan utama mengapa efek dari banyak produk generasi visual tidak memuaskan adalah karena model pembuatan gambar dan video saat ini sering kali belajar berdasarkan data pelatihan 2D dan tidak memahami dunia fisik nyata.
Hal ini telah mencapai konsensus di lapangan, dan beberapa peneliti bahkan percaya bahwa dalam paradigma pembelajaran autoregresif, pemahaman model tentang dunia selalu dangkal.
Namun, dalam tugas subdivisi generasi visual komersial, meningkatkan pemahaman dunia fisik 3D model dan menghasilkan konten 2D dengan lebih baik bukanlah hal yang tidak dapat diselesaikan sepenuhnya.
FancyTech telah memigrasikan ide penelitian di bidang "kecerdasan spasial" ke konstruksi model visual generatif. Berbeda dengan model generatif pada umumnya, ide kecerdasan spasial adalah mempelajari sinyal asli yang diperoleh oleh sejumlah besar sensor dan secara akurat mengkalibrasi sinyal asli yang diperoleh sensor untuk memberikan model kemampuan dalam memahami dan memahami. dunia nyata.
Oleh karena itu, FancyTech menggunakan pemindaian lidar alih-alih pengambilan gambar studio tradisional, dan telah mengumpulkan sejumlah besar pasangan data 3D berkualitas tinggi yang mencerminkan perbedaan sebelum dan sesudah produk diintegrasikan. Ini menggabungkan data point cloud 3D dengan data 2D sebagai data pelatihan model untuk meningkatkan pemahaman model tentang realitas.
Kita tahu bahwa dalam pembuatan konten visual apa pun, pembentukan efek cahaya dan bayangan adalah tugas yang sangat menantang. Elemen seperti pencahayaan, benda bercahaya, cahaya latar, dan titik cahaya dapat memperkuat lapisan spasial gambar, namun ini adalah "titik pengetahuan" yang sulit dipahami untuk model generatif.
Untuk mengumpulkan data cahaya dan bayangan alami sebanyak mungkin, FancyTech membuat lusinan lampu dengan kecerahan dan suhu warna yang dapat disesuaikan di setiap lingkungan, yang berarti bahwa setiap pasangan dalam data besar dapat ditumpangkan dengan banyak lampu dan kecerahan serta suhu warna yang berbeda. .
Pengumpulan data berintensitas tinggi ini mensimulasikan pencahayaan adegan pengambilan gambar sebenarnya, sehingga lebih sesuai dengan karakteristik adegan e-commerce.
Menggabungkan akumulasi data 3D berkualitas tinggi, FancyTech telah membuat serangkaian inovasi dalam kerangka algoritme, menggabungkan algoritme spasial secara organik dengan algoritme gambar dan video, memungkinkan model untuk lebih memahami interaksi antara objek inti dan lingkungan.
Selama proses pelatihan, model dapat "muncul" pemahaman tentang dunia fisik sampai batas tertentu, dan memiliki pemahaman yang lebih dalam tentang ruang tiga dimensi, kedalaman, pemantulan dan pembiasan cahaya, serta hasil cahaya yang beroperasi di media yang berbeda. dan bahan yang berbeda. Mengetahui hal ini, kami akhirnya mencapai "pengurangan kuat" dan "hiperfusi" produk pada hasil yang dihasilkan.
Apa inovasi algoritme di balik “reduksi kuat” dan “hiperfusi”?
Untuk tugas umum pembuatan gambar adegan produk, metode arus utama saat ini terutama menggunakan tekstur untuk memastikan pemulihan bagian produk, dan kemudian menerapkan pengeditan adegan gambar berdasarkan teknologi Inpainting. Pengguna memilih area yang perlu diubah, masuk ke Prompt atau memberikan gambar referensi untuk memandu pembuatan adegan produk. Efek fusi dari metode ini lebih baik, tetapi kelemahannya adalah pengendalian hasil pembuatan adegan tidak tinggi, misalnya tidak cukup jelas atau terlalu sederhana, dan tidak dapat menjamin tingkat ketersediaan keluaran tunggal yang tinggi.
Menanggapi masalah yang tidak dapat diselesaikan dengan metode saat ini, FancyTech mengusulkan "generator fitur multi-modal" untuk mengekstrak fitur produk dalam berbagai dimensi, dan kemudian menggunakan fitur ini untuk menghasilkan grafik pemandangan terintegrasi.
Pekerjaan mengekstraksi fitur dapat dibagi menjadi "fitur global" dan "fitur lokal". Fitur global mencakup garis besar, warna, dan elemen lain dari produk, yang diekstraksi menggunakan pembuat enkode VAE; menggunakan jaringan saraf grafik. Salah satu manfaat besar jaringan saraf grafik adalah dapat mengekstrak informasi setiap piksel kunci dalam produk dan hubungan antara piksel utama, serta meningkatkan pemulihan detail di dalam produk.
Dalam pembuatan konten produk material fleksibel, efek yang diperoleh dengan metode ini meningkat secara signifikan:
Alamat:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0 ef4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Dibandingkan dengan gambar, pembuatan video juga melibatkan kontrol pergerakan produk itu sendiri serta perubahan cahaya dan bayangan yang ditimbulkannya. Untuk model pembuatan video umum, kesulitannya terletak pada ketidakmampuan melindungi bagian tertentu dari video secara mandiri. Untuk mengatasi masalah ini, FancyTech membagi tugas menjadi dua cabang: "generasi pergerakan produk" dan "integrasi adegan video".
Pada tingkat data, selain menggunakan sumber daya data produk unik FancyTech untuk memberikan pelatihan kontrol dan perlindungan produk, beberapa kumpulan data sumber terbuka juga ditambahkan untuk memastikan kemampuan generalisasi adegan. Rencana pelatihan menggabungkan pembelajaran komparatif dan pembelajaran kursus, dan pada akhirnya mencapai efek perlindungan barang.
Biarkan keuntungan dari era AIGC
Mulai dari model vertikal hingga masyarakat yang lebih awam
Baik itu "universal" atau "vertikal", titik akhir dari kedua rute tersebut adalah komersialisasi.
Penerima manfaat paling langsung dari model vertikal FancyTech adalah merek. Di masa lalu, siklus produksi video iklan dapat berlangsung beberapa minggu mulai dari perencanaan, pengambilan gambar, dan pengeditan. Namun di era AIGC, pembuatan video iklan semacam itu hanya membutuhkan waktu sepuluh menit, dan biayanya hanya seperlima dari biaya aslinya.
Dengan keunggulan data unik yang sangat besar dan pengetahuan industri, FancyTech telah mendapatkan pengakuan luas di dalam dan luar negeri melalui keunggulan model vertikal. FancyTech telah menandatangani kontrak dengan Samsung dan LG dengan mitra Korea; platform e-commerce terkenal di Asia Tenggara; di Amerika, telah disukai oleh merek lokal seperti Kate Sommerville dan Solawave; di Eropa, telah memenangkan LVMH Innovation Award dan menjalin kerja sama yang mendalam dengan pelanggan Eropa.
Selain model vertikal inti, FancyTech juga menyediakan penerbitan otomatis tautan penuh dan kemampuan umpan balik data untuk video pendek AI, sehingga mendorong pertumbuhan penjualan produk yang berkelanjutan.
Lebih penting lagi,Model vertikal memvisualisasikan jalur bagi masyarakat umum untuk menggunakan teknologi AIGC guna meningkatkan produktivitas.Misalnya, studio foto jalanan tradisional dapat menyelesaikan transformasi bisnis dari pemotretan potret sederhana menjadi produksi materi visual komersial tingkat profesional tanpa menambahkan peralatan profesional dan profesional dengan bantuan produk FancyTech.
Alamat:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0 ef4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Kini, hanya dengan mengangkat ponsel, hampir semua orang bisa merekam video, merekam musik, dan membagikan kreasinya kepada dunia. Bayangkan masa depan di mana AIGC sekali lagi mengeluarkan kreativitas individu—
Memungkinkan masyarakat awam untuk melewati batas profesional dan lebih mudah mewujudkan ide menjadi kenyataan, sehingga memungkinkan produktivitas masing-masing industri melonjak dan menghasilkan lebih banyak industri baru. Mulai saat ini, keuntungan zaman yang dibawa oleh teknologi AIGC akan menjadi hal yang lumrah. rakyat.