Informasi kontak saya
Surat[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Dengan peluncuran model besar dan menekan tombol akselerator, diagram Vinsensian tidak diragukan lagi menjadi salah satu petunjuk penerapan terpanas.
Sejak lahirnya Difusi Stabil, banyak sekali model tokoh Vinsensian yang beredar di dalam dan luar negeri, dan untuk sementara rasanya seperti "pertarungan antar dewa". Hanya dalam beberapa bulan, gelar "Artis AI Terkuat" telah berpindah tangan beberapa kali. Setiap iterasi teknologi terus mendorong batas atas kualitas dan kecepatan pembuatan gambar AI.
Jadi sekarang, kita bisa mendapatkan gambar apapun yang kita inginkan dengan memasukkan beberapa kata. Baik itu poster komersial tingkat profesional atau foto yang sangat realistis, keakuratan pemetaan AI telah membuat kami takjub. AI bahkan memenangkan Sony World Photography Awards 2023. Sebelum hadiah utama diumumkan, "foto" ini telah dipamerkan di Somerset House di London - jika penulis tidak mengungkapkannya secara publik, tidak akan ada yang mengetahui bahwa foto tersebut sebenarnya dibuat oleh AI.
Eldagse dan karyanya yang dihasilkan AI, "Electrician"
Cara membuat gambar yang digambar oleh AI menjadi lebih indah tidak lepas dari upaya gigih para teknisi AI.Edisi keenam "AIGC Experience School" mengundang pakar teknis Doubao Vincent Chart Li Liang dan arsitek solusi NVIDIA Zhao Yijia untuk memberi kami analisis mendalam tentang teknologi di balik model Vincent Chart untuk menghasilkan pemahaman yang lebih indah, lebih cepat, dan lebih baik tautan pikiran pengguna.
Pada awal siaran langsung, Li Liang pertama kali membedah secara rinci peningkatan teknis model diagram Vincent dari model besar domestik "tingkat atas" terbaru - model besar ByteDance Doubao.
Li Liang mengatakan bahwa masalah yang ingin dipecahkan oleh tim Doubao terutama mencakup tiga aspek: pertama, bagaimana mencapai pencocokan gambar dan teks yang lebih kuat untuk memenuhi desain ide pengguna, kedua, bagaimana menghasilkan gambar yang lebih indah untuk memberikan pengalaman pengguna yang lebih baik; yang ketiga adalah bagaimana menghasilkan grafik dengan lebih cepat untuk memenuhi panggilan layanan berskala sangat besar.
Dalam hal pencocokan gambar dan teks, tim Doubao memulai dengan data, menyempurnakan dan memfilter data gambar dan teks dalam jumlah besar, dan akhirnya menyimpan ratusan miliar gambar berkualitas tinggi ke dalam database. Selain itu, tim juga secara khusus melatih model bahasa besar multi-modal untuk tugas rekap. Model ini akan mendeskripsikan hubungan fisik gambar dalam gambar secara lebih komprehensif dan obyektif.
Setelah memiliki data gambar dan teks berkualitas tinggi dan detail tinggi, jika ingin memanfaatkan kekuatan model dengan lebih baik, Anda perlu meningkatkan kemampuan modul pemahaman teks. Tim menggunakan model bahasa besar bilingual asli sebagai pembuat enkode teks, yang secara signifikan meningkatkan kemampuan model untuk memahami bahasa Mandarin. Oleh karena itu, dalam menghadapi elemen nasional seperti "Dinasti Tang" dan "Festival Lentera", model diagram Doubao dan Vincent. juga menunjukkan pemahaman yang lebih mendalam.
Untuk arsitektur model Diffsuion, tim Doubao juga memasukkan rahasia unik. Mereka menggunakan UNet untuk penskalaan yang efektif. Dengan meningkatkan jumlah parameter, model grafik Doubao-Vensen semakin meningkatkan pemahaman pasangan gambar-teks dan kemampuan menghasilkan fidelitas tinggi. .
Untuk gaya estetika paling nyata yang dirasakan pengguna secara intuitif, tim Doubao telah memperkenalkan panduan estetika profesional dan selalu memperhatikan preferensi estetika pengguna dan masyarakat. Pada saat yang sama, tim juga bekerja keras pada arsitektur data dan model. Seringkali, perbandingan antara gambar yang diperoleh pengguna dan tampilan demo seperti "pertunjukan pembeli" dan "pertunjukan penjual". Faktanya, petunjuk yang diberikan tidak cukup detail dan jelas untuk model, dan diagram Doubao Vincent model memperkenalkan "Rephraser", sambil mengikuti niat awal pengguna, menambahkan deskripsi yang lebih detail ke kata-kata cepat, sehingga semua pengguna akan merasakan efek pembuatan yang lebih sempurna.
Untuk membuat model menghasilkan gambar lebih cepat dan menghabiskan lebih sedikit uang per gambar, tim Doubao juga memberikan ide pemecahan masalah baru dalam metode distilasi model tersebut. Prestasi yang representatif adalah Hyber-SD, yang merupakan distilasi model difusi baru kerangka kerja yang mempertahankan kinerja hampir tanpa kerugian sambil mengompresi jumlah langkah denoising.
Selanjutnya, Arsitek Solusi NVIDIA Zhao Yijia memulai dari teknologi yang mendasarinya dan menjelaskan dua arsitektur model SD dan DIT berbasis Unet yang paling umum dari Vincent Graph dan karakteristik terkaitnya, serta memperkenalkan alat Tensorrt, Tensorrt-LLM, Triton, How dari NVIDIA seperti Nemo Megatron memberikan dukungan untuk penerapan model dan membantu model besar berpikir lebih efisien.
Zhao Yijia pertama kali membagikan penjelasan mendetail tentang prinsip model di balik Difusi Stabil, dan menguraikan prinsip kerja komponen utama seperti Clip, VAE, dan Unet. Ketika Sora menjadi populer, ia juga menjadi populer dengan arsitektur DiT (Diffusion Transformer) di belakangnya. Zhao Yijia selanjutnya membuat perbandingan komprehensif keunggulan SD dan DiT dari tiga aspek: struktur model, karakteristik, dan konsumsi daya komputasi.
Saat menggunakan Difusi stabil untuk menghasilkan gambar, Anda sering merasa bahwa konten kata-kata cepat disajikan dalam hasil yang dihasilkan, tetapi gambarnya tidak sesuai dengan yang Anda inginkan. Hal ini karena Difusi stabil berdasarkan rendering teks tidak bagus dalam mengontrol detail gambar, seperti komposisi, gerakan, fitur wajah, hubungan spasial, dll. Oleh karena itu, berdasarkan prinsip kerja difusi stabil, para peneliti telah merancang banyak modul kontrol untuk menutupi kekurangan difusi stabil. Zhao Yijia menambahkan perwakilan adaptor IP dan ControlNet.
Untuk mempercepat inferensi model grafik Vinsensian yang intensif secara komputasi, dukungan teknis NVIDIA memainkan peran penting. Zhao Yijia memperkenalkan alat Nvidia TensorRT dan TensorRT-LLM, yang mengoptimalkan proses inferensi model pembuatan gambar dan teks melalui konvolusi performa tinggi, penjadwalan yang efisien, dan teknologi penerapan terdistribusi. Pada saat yang sama, Ada, Hopper dari NVIDIA, dan arsitektur perangkat keras BlackWell yang akan datang sudah mendukung pelatihan dan inferensi FP8, yang akan menghadirkan pengalaman pelatihan model yang lebih lancar.
Setelah enam siaran langsung yang luar biasa, "AIGC Experience Party" yang diluncurkan bersama oleh Volcano Engine, NVIDIA, dan CMO CLUB berakhir dengan sukses. Melalui enam program ini, saya yakin setiap orang memiliki pemahaman yang lebih mendalam tentang bagaimana AIGC berubah dari “menarik” menjadi “berguna”. Kami juga menantikan "AIGC Experience School" tidak hanya menjadi pembahasan program, tetapi juga mempercepat proses peningkatan cerdas di bidang pemasaran dalam praktiknya.
Tinjau alamat keenam edisi "AIGC Experience School":https://vtizr.xetlk.com/s/7CjTy