berita

Proses pengecatan dapat dikembalikan hanya dengan satu gambar. Makalah ini diterapkan lebih awal dari Paints-UNDO.

2024-07-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Perkenalan penulis: Song Yiren: Kandidat PhD di ShowLab, Universitas Nasional Singapura. Arahan penelitian utamanya meliputi pembuatan gambar dan video, serta keamanan AI.

Huang Shijie: Mahasiswa master tahun kedua di National University of Singapore. Saat ini bekerja sebagai insinyur algoritma magang di Tiamat AI. Arah penelitian utamanya adalah generasi visual. Saat ini sedang mencari peluang penerimaan doktoral untuk musim gugur 2025.

Baru-baru ini lvmin menghadirkan model terbaru Paints-UNDO. Alat generasi AI ini dapat memulihkan seluruh proses pengecatan berdasarkan gambar, dan seluruh komunitas AIGC terkejut.



Demo Cat-UNDO.

Sejak 1 bulan yang lalu, NUS, SJTU, Tiamat dan institusi lain bersama-sama merilis karya dengan tugas serupa: ProcessPainter: Pelajari Proses Melukis dari Data Urutan. Laporan teknis Paints-UNDO belum dirilis, mari kita lihat bagaimana ProcessPainter mengimplementasikannya!



  • Judul Makalah: ProcessPainter: Mempelajari Proses Melukis dari Data Urutan
  • Tautan makalah: https://arxiv.org/pdf/2406.06062
  • Tautan kode: https://github.com/nicolaus-huang/ProcessPainter

Buka buku instruksi melukis apa pun dan Anda akan melihat petunjuk langkah demi langkah tentang cara menggambar. Namun di era AI generatif, pembangkitan gambar melalui proses denoising sama sekali berbeda dengan proses melukis yang dilakukan pelukis manusia.

Untuk mengatasi masalah ini, ProcessPainter mengaktifkan model difusi untuk menghasilkan proses pengecatan untuk pertama kalinya dengan melatih model temporal pada data sintetis dan video lukisan manusia. Selain itu, proses pengecatan berbagai tema dan pelukis sangat bervariasi, dan gayanya pun sangat berbeda. Namun saat ini masih sedikit penelitian yang menjadikan proses pengecatan sebagai objek kajiannya. Berdasarkan Model Gerak yang telah dilatih sebelumnya, penulis makalah mempelajari teknik melukis seniman dengan melatih Motion LoRA pada sejumlah kecil rangkaian lukisan seniman tertentu.



Interpretasi mendalam tentang teknologi inti ProcessPainter



1. Mekanisme Perhatian Temporal

Menggunakan perhatian sementara untuk belajar menghasilkan proses melukis adalah inovasi inti ProcessPainter. Kunci untuk menghasilkan suatu rangkaian lukisan adalah bahwa keseluruhan rangkaian tersebut merupakan proses perubahan gambar yang sama dari abstrak menjadi konkret, dan bingkai-bingkai sebelumnya dan selanjutnya konsisten dan relevan baik isi maupun komposisinya. Untuk mencapai tujuan ini, penulis memperkenalkan modul perhatian waktu dari AnimateDiff ke Unet. Modul ini terletak setelah setiap lapisan difusi dan menyerap informasi dari bingkai yang berbeda melalui mekanisme perhatian mandiri antar bingkai untuk memastikan kelancaran transisi dan kesinambungan seluruh rangkaian.

Eksperimen menunjukkan bahwa strategi pelatihan ini dapat mempertahankan efek lukisan yang konsisten antar bingkai. Perbedaan antara tugas pembuatan proses pengecatan dan pembuatan video adalah perubahan sebelum dan sesudah proses pengecatan lebih drastis. Bingkai pertama berupa gambar blok warna atau garis dengan tingkat penyelesaian yang rendah, sedangkan bingkai terakhir berupa lukisan lengkap , yang menimbulkan tantangan untuk pelatihan model. Untuk mencapai tujuan ini, penulis makalah ini pertama-tama melatih modul pengaturan waktu pada sejumlah besar kumpulan data sintetik, sehingga model dapat mempelajari proses pengecatan langkah demi langkah dari berbagai metode SBR (Render berbasis stroke), dan kemudian menggunakan data proses melukis puluhan seniman untuk melatih Model Lukisan LoRA.

2. Jaringan Replikasi Karya Seni

Dalam praktik melukis, kita lebih ingin mengetahui bagaimana suatu karya dilukis, dan bagaimana terus menyempurnakannya dari lukisan setengah jadi hingga mencapai efek akhir yang diinginkan. Hal ini mengarah pada dua tugas: rekonstruksi dan penyelesaian proses pengecatan. Mengingat kedua tugas tersebut memiliki masukan gambar, penulis makalah mengusulkan Jaringan Replikasi Karya Seni.

Desain jaringan ini dapat menangani masukan gambar dari bingkai apa pun dan secara fleksibel mengontrol pembuatan proses pengecatan. Mirip dengan metode pembangkitan terkontrol sebelumnya, penulis makalah ini memperkenalkan varian ControlNet untuk mengontrol frame tertentu dalam hasil yang dihasilkan agar konsisten dengan gambar referensi.

3. Kumpulan data sintetis dan strategi pelatihan

Karena data proses pengecatan yang sebenarnya sulit diperoleh, jumlahnya tidak mencukupi untuk mendukung pelatihan skala besar. Untuk tujuan ini, penulis makalah membuat kumpulan data sintetis untuk pra-pelatihan.

Secara khusus, tiga metode data sintetik digunakan:

1. Gunakan Learn to Paint untuk menghasilkan rangkaian lukisan guratan kurva Bezier yang tembus cahaya;

2. Gunakan lukisan gaya Neural untuk menghasilkan rangkaian lukisan gaya lukisan cat minyak dan lukisan gaya Tiongkok dengan menyesuaikan guratan.

3. Cara SBR (Stroke base painting) tersebut di atas adalah menyesuaikan gambar target dari kasar ke halus, artinya bagian yang sudah dicat boleh ditimpa dan dimodifikasi. Namun banyak jenis lukisan, seperti lukisan Cina dan patung, karena keterbatasan bahan, bagian yang telah selesai tidak dapat dimodifikasi secara signifikan, dan proses pengecatan diselesaikan di area terpisah. Untuk tujuan ini, penulis makalah menggunakan SAM (segmen apa pun) dan metode deteksi arti-penting untuk menambahkan konten dari kanvas kosong ke sub-wilayah satu per satu, pertama-tama gambar objek yang menonjol, lalu sebarkan secara bertahap ke latar belakang untuk disintesis. video proses pengecatan.

Dalam fase pelatihan, penulis makalah terlebih dahulu melatih Model Gerak pada kumpulan data sintetik, kemudian membekukan parameter Model Gerak, dan melatih Jaringan Replikasi Karya Seni. Saat menyempurnakan model lukisan LoRA, langkah pertama adalah hanya menggunakan bingkai akhir untuk menyempurnakan perhatian spasial LoRA guna mencegah set pelatihan pengecatan setengah jadi merusak kualitas pembuatan model.

Setelah itu, penulis makalah membekukan parameter LoRA perhatian spasial dan menyempurnakan LoRA perhatian temporal menggunakan urutan pengecatan lengkap. Selama fase inferensi, saat membuat rangkaian lukisan dari teks, ProcessPainter tidak menggunakan jaringan replikasi karya seni. Dalam tugas rekonstruksi dan penyelesaian proses pengecatan, ProcessPainter menggunakan jaringan replikasi karya seni untuk menerima masukan referensi khusus bingkai. Untuk memastikan bahwa frame dalam urutan lukisan yang dihasilkan sedekat mungkin dengan gambar input, ProcessPainter menggunakan teknik inversi DDIM untuk mendapatkan noise awal dari gambar referensi dan menggantikan noise awal dari frame tertentu di UNet.

Tampilan efek ProcessPainter

Model dasar ProcessPainter yang dilatih pada kumpulan data sintetis dapat menghasilkan urutan pengecatan dengan gaya prosedural.



Dengan melatih Motion Lora secara terpisah tentang rangkaian lukisan sejumlah kecil pelukis manusia, ProcessPainter dapat mempelajari proses dan gaya melukis seniman tertentu.



Tentukan gambar referensi dan ProcessPainter dapat mendekonstruksi ulang karya seni yang sudah jadi menjadi langkah-langkah pengecatan, atau menyimpulkan lukisan lengkap dari produk setengah jadi.



Kombinasi komponen teknis ini memungkinkan ProcessPainter tidak hanya menghasilkan proses pengecatan dari teks, tetapi juga mengubah gambar referensi menjadi rangkaian pengecatan atau menyelesaikan lukisan yang belum selesai. Hal ini tidak diragukan lagi memberikan alat baru untuk pendidikan seni, dan juga membuka jalur baru bagi komunitas AIGC. Mungkin dalam waktu dekat akan ada berbagai Lora di Civitai yang meniru proses melukis manusia pelukis.

Untuk lebih jelasnya, silakan baca makalah asli atau kunjungi beranda proyek Github.