berita

Penyempurnaan Flux telah menggemparkan seluruh internet, dengan orang-orang asing membentuk tim pahlawan Marvel!

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Departemen Editorial

[Pengantar Kebijaksanaan Baru]Raja pemetaan AI yang menggemparkan dunia open source telah lahir! Setengah bulan setelah dirilis, Flux telah menjadi alternatif favorit selain Midjourney. Pengembang dari semua lapisan masyarakat mulai menyempurnakan LoRA dengan foto mereka sendiri, memungkinkan satu orang menguasai berbagai gaya.

Setelah Midjourney, saya belum pernah melihat orang begitu tergila-gila dengan aplikasi pencitraan AI.

Munculnya Flux berarti pembuatan gambar AI telah memasuki tahap baru.

Musk sendiri mengatakan bahwa dia tidak bisa lagi membedakan antara kebenaran dan kebohongan.

Pertama, foto realistis seorang pembicara TED menghebohkan internet. Belakangan, Grok 2 yang mengintegrasikan model Flux menerobos batasan pagar pembatas dan menjadi heboh di kalangan netizen.

Baru-baru ini, pengembang Flux juga mulai menyempurnakan model LoRA mereka sendiri.

HuggingFace Lianchuang berseru bahwa Flux telah benar-benar menggemparkan dunia AI open source. Dia belum pernah melihat model dengan begitu banyak model turunan/platform online/demo yang menempati daftar teratas pada saat yang bersamaan.



Pengembang yang menyempurnakannya mengatakan, "Flux+LoRA akan menumbangkan pasar AI generatif. Anda bisa berada di mana saja, mengenakan apa saja, mengenakan pakaian apa pun yang Anda suka, dan menghasilkan versi berbeda dari diri Anda."


Misalnya, ubah diri Anda menjadi Superman.


Ambil pedang cahaya dan bayangan yang bisa ditarik dan bertransformasi menjadi Ksatria Jedi.


Tak hanya itu, foto patung es, memegang konsol game switch, telinga elf, fashion show, dan lain-lain semuanya hanya sekedar kata-kata.






Geser ke kiri atau kanan untuk melihat

Menyempurnakan LoRA Anda sendiri kini telah menjadi mainan baru bagi banyak pengembang.

Tidak, seluruh jaringan dibanjiri oleh Flux+LoRA.

Satu orang bisa membentuk "Avengers"

Rowan Cheung, pendiri Rundown AI, menggunakan fotonya sendiri sebagai data, menggunakan Flux untuk melatih model LoRA, lalu menghubungkannya dengan Runway untuk membuatnya bergerak.


Seperti ditunjukkan di bawah, gambar yang mirip dengan pembicara TED dihasilkan.


Setelah dibuat videonya, orang yang ada di foto tersebut benar-benar menjadi hidup dan terlihat seperti seorang pembicara. Kekurangannya hanya 2-3 jari saja dari tangan kanan sampai ke belakang.


Yang lainnya menghasilkan dirinya menyelamatkan dunia sebagai Superman.


Dengan animasi, saya akhirnya menjadi pahlawan di Marvel.


Regenerasi menjadi foto mengenakan pakaian modis dan berjalan di atas catwalk.


Penonton di kedua sisi bertepuk tangan dengan antusias, dan ini dianggap sebagai pengalaman catwalk panggung T.


Selain itu, Rowan Cheung juga memunculkan gaya berbeda dalam dirinya, sesuai dengan adegannya dan tidak memiliki rasa pembangkangan.





Geser ke kiri atau kanan untuk melihat

Ia percaya bahwa meskipun grafis yang dihasilkan AI masih belum bisa menggantikan film/iklan secara keseluruhan, namun grafis tersebut sudah memiliki banyak kegunaan penting, terutama bagi pembuat konten.

Misalnya, gambar AI ini digunakan untuk menghasilkan preview dan gambar pendamping berita, serta materi pelengkap (B-roll) dalam film pendek.

Setelah membacanya, netizen Min Choi mengatakan bahwa dia bisa membentuk "Avengers".


Mantan CTO Intel juga menyempurnakan model LoRA miliknya pada A100, yang menghabiskan biaya US$7 (sekitar 50 yuan) dalam 75 menit.





Geser ke kiri atau kanan untuk melihat

Ada juga developer yang baru menyulap dirinya menjadi film horor.






Geser ke kiri atau kanan untuk melihat

Tidak bisa membedakan antara AI dan kenyataan

Yang paling populer adalah versi "surrealisme" yang disempurnakan - semakin sulit membedakan batas antara imajinasi dan kenyataan.



Apakah itu foto asli atau orang yang digambar oleh AI?



Setelah pelatihan dengan LoRA di Flux-Dev, kemajuan luar biasa telah dicapai dalam hal kompleksitas pemandangan dan realisme.


Gaya apa pun bisa disesuaikan

Selain itu, berbagai gaya fine-tuning juga bermunculan.

gaya piksel

Pengembang menggunakan gaya dalam ZX Spectrum yang legendaris sebagai contoh untuk menyempurnakan LoRA generasi gambar seperti piksel.


Pada gambar yang dihasilkan di bawah ini, terdapat gambar seperti Dragon Ball Sun Wukong, Marvel Iron Man, Chuan Jianguo (tampaknya), dll.












Geser ke kiri atau kanan untuk melihat

coretan animasi

Desainer produk AI generatif PS, Davis Brown, menyempurnakan model half_illustration berdasarkan Flux.

Gambar yang dihasilkannya sebagian bergaya foto asli dan sebagian lagi bergaya grafiti animasi.


Sebelum setiap gambar, Anda hanya perlu menambahkan - Dengan gaya TOK di awal prompt.

Kemudian, jelaskan efek yang diinginkan secara detail, dan film dapat segera diproduksi.

Kedepannya saya merasa tidak harus menggunakan PS, saya cukup menggunakan AI untuk menghasilkan gambar.


prompt:Dalam gaya TOK, pose aksi dramatis avant-garde editorial foto seorang wanita berambut biru pendek mengenakan kacamata hitam bundar tahun 70-an yang aneh sambil menurunkan kacamatanya dan melihat ke depan, di Tokyo dengan struktur marmer besar dan pohon bonsai saat matahari terbenam dengan jaket bergambar yang semarak dikelilingi oleh ilustrasi bunga, asap, api, es krim, kilauan, rock and roll


prompt:Dalam gaya TOK, pose aksi dramatis editorial foto seseorang dengan mata tajam, tato di wajah, dengan topi ember kreatif, berdiri di Tokyo dengan struktur marmer besar dan pohon-pohon ungu putih di lapangan Basket, dengan jaket vintage tebal bergaya jalanan yang diilustrasikan dengan cerah, kemeja hitam, gunung berapi di latar belakang, dikelilingi oleh ilustrasi asap, api, dan bunga, kabut, tanda seru, garis-garis yang melesat keluar, karakter minion, kupu-kupu

Ada foto gaya grafiti lainnya.






Geser ke kiri atau kanan untuk melihat

Jiugongge

Platform kumpulan data sumber terbuka LAION menggunakan model Flux untuk melatih model yang dapat menghasilkan foto kotak sembilan persegi berukuran 3x3 dari sudut yang berbeda.


Mulai sekarang, selfie saja sudah cukup.




Geser ke kiri atau kanan untuk melihat

usia yang berbeda

Penampakan kehidupan seseorang dapat dilihat melalui Flux+LoRA.






Geser ke kiri atau kanan untuk melihat

Contoh lain:






Geser ke kiri atau kanan untuk melihat

Kemampuan bermain super

Protagonis masa kini, FLUX.1, menggunakan teknologi “pencocokan aliran” baru.

Meskipun model difusi sebelumnya membuat gambar dengan menghilangkan noise secara progresif mulai dari titik awal acak, pencocokan aliran menggunakan pendekatan yang lebih langsung, mempelajari perubahan tepat yang diperlukan untuk mengubah noise menjadi gambar nyata.

Perbedaan pendekatan ini menghasilkan estetika yang unik dan keunggulan besar dalam hal kecepatan dan kontrol.

Teks: Sebagian besar dapat diperoleh

Salah satu tantangan pembuatan teks-ke-gambar adalah mengubah teks menjadi representasi visual secara akurat. FLUX.1 menangani hal ini dengan cukup baik, bahkan dalam adegan kompleks seperti meme.

mengingatkan:

Ini adalah meme anjing yang bagus di bawah air. Teks: 'Perubahan iklim baik-baik saja' Ini adalah meme "anjing yang baik-baik saja" di bawah air. Teks: “Perubahan iklim bukanlah masalah besar”


mengingatkan:

Meme seorang aktor terkenal membuat wajah lucu dengan teks 'Ketika Anda lupa dialog Anda' dalam font yang unik Meme seorang aktor terkenal membuat wajah lucu dengan teks 'Ketika Anda lupa dialog Anda' dalam font yang unik


Cahaya dan teksturnya bagus

FLUX.1 memiliki pemahaman yang tajam tentang cahaya, bayangan, dan tekstur untuk secara konsisten menghasilkan gambar berkualitas tinggi.

mengingatkan:

Gambar detail taman yang bunganya terbuat dari kaca halus, memantulkan sinar matahari dengan indah Gambar detail taman yang bunganya terbuat dari kaca halus, memantulkan sinar matahari dengan indah


Dalam gambar ini, fokusnya tidak hanya pada tekstur kaca, namun juga pada bagaimana cahaya dibiaskan dan ditransmisikan melalui kelopak bunga, sehingga menciptakan efek bercahaya.

mengingatkan:

Bulu burung hantu menyatu dengan dedaunan musim gugur yang tertiup angin Bulu burung hantu menyatu dengan dedaunan musim gugur yang tertiup angin


Gaya seni: lebih dari sekedar imitasi

FLUX.1 tampaknya telah menguasai prinsip di balik berbagai gaya artistik, sehingga memungkinkan penafsiran ulang yang kreatif.

mengingatkan:

cat air dari lukisan gelombang terkenal cat air dari lukisan gelombang terkenal


Versi "cat air" dari "The Great Wave off Kanagawa" ini tidak hanya menyiratkan bahwa gelombang ikonik adalah bagian dari data pelatihan model, namun juga menyoroti bagaimana teknik "aliran" mendekati pergerakan cat melalui air, kertas, dan tinta.

Komposisi: Jadikan adegan itu bermakna

FLUX.1 unggul dalam membangun adegan kompleks, menempatkan objek dan karakter dengan cara yang realistis dan menarik secara visual.

mengingatkan:

Gambaran realistis dari perpustakaan ajaib yang buku-bukunya melayang di udara dan rak-raknya terbuat dari akar-akar kuno yang terpelintir Gambaran realistis dari perpustakaan ajaib yang buku-bukunya melayang di udara dan rak-raknya terbuat dari akar-akar kuno yang terpelintir


"Aliran": bahasa visual baru

Teknologi pencocokan aliran yang digunakan dalam FLUX.1 memberi gambar kesan unik tentang gerakan organik dan fluiditas, seolah-olah pikselnya sendiri mengalir.

mengingatkan:

Anjing dengan pola bulu berputar-putar bergaya Van Gogh


Selalu ada alat yang dapat membantu Anda melakukannya

Kita dapat meringkas proses pembuatan gambar sebagai berikut: ambil beberapa piksel masukan, gerakkan sedikit menjauhi noise, menuju pola yang dibuat oleh masukan teks Anda, dan ulangi proses ini hingga Anda mencapai sejumlah langkah tertentu.

Proses penyesuaian mengambil setiap pasangan gambar/anotasi dari kumpulan data dan sedikit memperbarui pemetaan internalnya.

Anda dapat mengajarkan model apa pun dengan cara ini asalkan dapat diwakili oleh pasangan gambar-judul: karakter, latar, medium, gaya, genre.


Kiri: dihasilkan menggunakan model FLUX.1 asli; kanan: dihasilkan pada model makanan fofr/flux-bad-70s menggunakan petunjuk dan benih yang sama

Selama pelatihan, model akan mempelajari cara mengaitkan konsep ini dengan string teks tertentu. Di prompt, Anda perlu menambahkan string ini untuk mengaktifkan asosiasi ini.

Misalnya, Anda ingin menyempurnakan model "pahlawan super bergaya komik".

Pertama, sejumlah besar gambar tentang karakter perlu dikumpulkan sebagai kumpulan data, termasuk namun tidak terbatas pada: adegan yang berbeda, kostum, pencahayaan, dan bahkan mungkin gaya seni yang berbeda.

Kemudian, pilih kata atau frasa yang pendek dan tidak umum untuk dijadikan sebagai pemicu: sesuatu yang unik yang tidak akan bertentangan dengan konsep atau perubahan lain. Anda dapat memilih istilah seperti "makanan buruk tahun 70an" atau "JELLOMOLD".

Setelah pelatihan, Anda cukup memberikan perintah yang berisi kata pemicu, seperti "Pemandangan makanan buruk tahun 1970-an di sebuah pesta di San Francisco", dan model akan memunculkan konsep spesifik yang Anda tambahkan selama penyesuaian.

Sesederhana itu.

Setelah memahami prinsipnya, kita dapat memilih alat apa pun untuk menyempurnakan model.


Kiri: dihasilkan menggunakan model FLUX.1 asli; kanan: dihasilkan pada model makanan fofr/flux-bad-70s menggunakan petunjuk dan benih yang sama

Misalnya saja seorang pria bernama Matt Wolfe, setelah melihat generasi keren di atas, penasaran dan mencobanya.

Akibatnya, dia terbalik...

Gambar AI yang dibuat dapat disebut sebagai pembeda antara tampilan pembeli dan tampilan penjual.

Inilah yang dia hasilkan——


Ini milik orang lain -


Kedua gambar tersebut sebanding. Perbedaannya terletak pada apakah fine-tuning LoRA digunakan atau tidak.

Adik yang terstimulasi segera melakukan penelitian. Ia terkejut menemukan bahwa model LoRA berukuran sangat kecil, hanya 2 hingga 500 MB, dan dapat dengan mudah digabungkan dengan model yang sudah ada.


Yang lebih mengejutkan lagi adalah model AI dapat meningkatkan kualitas gambar, menghasilkan gaya yang unik, atau menghasilkan karakter khusus, seperti Mario atau Spongebob, tanpa memerlukan daya komputasi tambahan atau pelatihan ulang yang komprehensif.


Sayangnya di Glif yang saya gunakan dengan mudah, LoRA tidak bisa digunakan di Flux.


Ia menemukan bahwa salah satu cara menggunakan Flux adalah dengan menggunakan ComfyUI.


Saya yakin banyak orang yang familiar dengan gambar ini.

Alternatifnya, Anda dapat menggunakan platform seperti Replikasi, HuggingFace Spaces, atau Fal AI.


Setelah mencobanya di platform Fal, saya menemukan bahwa biayanya US$0,035 per megapiksel. Oleh karena itu, Anda dapat menjalankan model ini 29 kali hanya dengan US$1, yang cukup hemat biaya.


Di sini FLUX.1 dev, Flux Realism LoRA, FLUX.1 pro, dll. semuanya tersedia.

Tanpa berkata apa-apa, sang adik memilih Flux Realism LoRA.

Setelah melakukan debug dengan hati-hati, saya mengatur ukuran langkah inferensi ke 28 dan CFG ke 2.


Gambar yang dihasilkan sungguh luar biasa!

Kalaupun ada kekurangannya, pencahayaan kerutan di dahi masih kurang natural.


Selanjutnya, sang adik dengan bersemangat mengimpor gambar tersebut ke Gen-3 Alpha. Berdasarkan perintah yang dia masukkan, Gen-3 Alpha membuat sebuah video.

Kecuali pada saat tertentu, mikrofon di tangan saya tiba-tiba "melayang", dan tidak ada yang salah dengan sisa videonya.


Pria itu mencobanya lagi dan membuat video kedua.


Kali ini, mikrofon tampak terlalu diam, seolah membeku di tempatnya.


Selain itu, sang adik juga mengikuti tren mengubah dirinya di internet hingga menghasilkan sederet foto kocak.











Geser ke kiri atau kanan untuk melihat

Terakhir, saya menggunakan Gen-3 Alpha untuk mengubahnya menjadi video, sehingga saya dan Deadpool berjalan dalam adegan film yang sama.


Referensi:

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://replikat.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM