Model grafik Wensheng open source paling kuat berpindah tangan dalam semalam! Dibuat oleh tim asli SD, model pembuatan video SOTA akan dirilis

2024-08-02

Hal-hal cerdas (akun publik:zhidxcom）
pengarangvanila
suntingLi Shuiqing

Model grafik Wensheng open source paling kuat berpindah tangan dalam semalam!

Zhidongxi melaporkan pada 2 Agustus kemarin malam, penguasa model grafik Wensheng open sourceDifusi StabilTim asli mengumumkan peluncuran model pembuatan gambar baruFLUKS.1。

FLUX.1 berisiEdisi Profesional, Edisi Pengembang, Edisi EkspresDari ketiga model tersebut, dua model pertama mengalahkan model mainstream seperti SD3-Ultra, dan FLUX.1 [schnell] yang lebih kecil juga melampaui model yang lebih besar seperti Midjourney v6.0 dan DALL·E 3.

▲Skor ELO FLUX.1 dibandingkan dengan model mainstream

FLUX.1 masukPembuatan teks, mengikuti instruksi yang rumitDanDihasilkan dengan tangan memiliki kelebihan. Berikut ini adalah contoh gambar yang dihasilkan oleh model versi profesional terkuatnya FLUX.1[pro]. Anda dapat melihat bahwa meskipun sebagian besar teks dan banyak karakter dihasilkan, tidak ada kesalahan dalam detail seperti karakter dan tangan manusia .

▲FLUX.1[pro] contoh gambar yang dihasilkan

FLUX.1 sekarang tersedia di platform open source Replikasi, berikut tips saya untuk menggunakannya “Kue Black Forest terkecil di dunia, seukuran jari, dikelilingi pepohonan Black Forest”, gambar yang dihasilkan pada ketiga model diambil masing-masing17,5 detik、12,2 detik、1,5 detik。

▲Perbandingan tiga generasi model

FLUX.1 juga membuka API (Application Programming Interface) dan diberi harga berdasarkan jumlah gambar secara bergantian.Rp 0,055, Rp 0,03, Rp 0,003(Sekitar RMB 0,4, 0,22, dan 0,022 yuan).

Perusahaan di balik FLUX.1 disebutLaboratorium Hutan Hitam (Black Forest Laboratory), didirikan oleh tim asli Stable Diffusion dan beberapa mantan peneliti Stability AI.Mirip dengan Stability AI, Black Forest berkomitmen untuk mengembangkan model multi-modal berkualitas tinggi dan menjadikannya sumber terbuka$31 juta(sekitar RMB 225 juta) dalam pendanaan putaran awal.

Black Forest juga memberikan bocoran bahwa akan segera dirilisModel video SOTA (No. 1 dalam indikator teknis saat ini). . Dilihat dari demo yang dirilisnya, baik kelancaran, stabilitas maupun simulasi fisik sudah mencapai level eselon satu. Perusahaan bisa saja menjadi kuda hitam di bidang pembuatan video.

▲ Pratinjau model pembuatan video

Alamat uji coba tiga model:

https://replikasi.com/black-forest-labs/flux-pro

https://replikasi.com/black-forest-labs/flux-dev

https://replikasi.com/black-forest-labs/flux-schnell

1. Pandai menghasilkan teks dan tangan manusia, tiga model dapat dihasilkan dalam skala detik

FLUX.1 memiliki kinerja unggul dalam hal kualitas visual, detail gambar, dan keragaman keluaran.Pembuatan teks, komposisi kompleks, gambar tangan manusia。

Pembuatan teks sangat penting dalam pembuatan gambar dan video, dan banyak model yang cenderung mengacaukan huruf-huruf yang terlihat serupa. FLUX.1 dapat menangani kata-kata rumit dengan huruf berulang, seperti menghasilkan aKue Schnell Fluks Hutan Hitam：

▲ Kue Black Forest Flux Schnell

Dalam hal komposisi, FLUX.1 unggul dalam mengikuti instruksi rumit seperti di mana seharusnya benda-benda berada dalam gambar. Misalnya, FLUX.1 menafsirkan perintah ini dengan sempurna: Tiga penyihir ajaib berdiri di atas meja kuning, masing-masing memegang sebuah tanda. Di sebelah kiri, penyihir berjubah hitam memegang tanda bertuliskan "AI"; di tengah, penyihir berjubah merah memegang tanda bertuliskan "IS"; di sebelah kanan, penyihir berjubah biru memegang tanda bertuliskan "AI" Sebuah tanda yang bertuliskan "keren".

▲ Komposisi yang kompleks

Tangan manusia selalu menjadi area yang paling terkena dampak model generatif multimodal. Meskipun gambar tangan manusia yang dihasilkan oleh FLUX.1 belum sempurna, namun telah mencapai kemajuan besar.

▲ Tenaga Kerja

FLUX.1 jumlahEdisi Profesional, Edisi Pengembang, Edisi EkspresTiga versi.

di dalam,FLUKS.1[pro]Ini adalah versi paling canggih dengan pelacakan instan tingkat atas, kualitas visual, detail gambar, dan keragaman keluaran, memberikan solusi perusahaan yang disesuaikan untuk pengguna profesional.

▲FLUX.1[pro] contoh gambar yang dihasilkan

FLUX.1[pengembangan]Ditujukan untuk aplikasi non-komersial, produk ini disempurnakan dari FLUX.1[pro] dan menawarkan kualitas dan kemampuan serupa namun lebih efisien dibandingkan model standar dengan ukuran yang sama.

▲FLUX.1[dev] contoh gambar yang dihasilkan

FLUX.1[cepat]Yang tercepat dari ketiga model, ini disesuaikan untuk pengembangan lokal dan penggunaan pribadi dan tersedia untuk umum di bawah Lisensi Standar Apache 2.0.

▲FLUX.1[schnell] contoh gambar yang dihasilkan

FLUX.1 kini tersedia di platform sumber terbuka Replikasi dan dapat dijalankan di cloud hanya dengan satu baris kode, atau pengguna dapat mengunduh bobot model dan menjalankannya secara terprogram. API FLUX.1 juga dibuka secara bersamaan, dan harga ketiga model tersebut adalah sebagai berikut:Rp 0,055, Rp 0,03, Rp 0,003(Sekitar RMB 0,4, 0,22, dan 0,022 yuan).

2. KekalahanMJV6 (Mesin Pembuat Mobil)DALLE 3, laporan teknis akan segera dirilis

Dalam hal kinerja, FLUX.1 telah disempurnakan secara khusus untuk mempertahankan seluruh keragaman keluaran dalam pra-pelatihan, menetapkan standar baru dalam banyak aspek seperti kepatuhan instruksi, kualitas visual, perubahan ukuran/panjang dan lebar, dll.

Diantaranya, dua model, FLUX.1 [pro] dan [dev], melampaui model populer seperti Midjourney v6.0, DALL·E 3 dan SD3-Ultra dalam lima kriteria evaluasi.

Sebagai model yang ringan, FLUX.1[schnell] tidak hanya lebih baik dari pesaing serupa, tetapi juga lebih baik dari model non-distilasi yang kuat seperti Midjourney v6.0 dan DALL·E 3.

▲ Perbandingan kinerja FLUX.1 dengan model mainstream

Selain itu, semua model FLUX.1 mendukung berbagai rasio aspek dan resolusi 0,1 dan 2,0 megapiksel.

▲ Perubahan rasio aspek/resolusi

Bagaimana kinerja luar biasa ini bisa dicapai?

Dalam hal arsitektur model, FLUX.1 mengadopsi arsitektur hybrid berdasarkan modul Transformer difusi multi-modal dan paralel, dan memperluasnya ke parameter 12B.

Tim ini meningkatkan model difusi canggih dengan membangun Pencocokan Aliran, dan meningkatkan kinerja model serta efisiensi perangkat keras dengan menggabungkan Penyematan Posisi Putar dan lapisan perhatian paralel. Laporan teknis yang lebih rinci akan segera dirilis.

tiga,SDKru asli,2.25100 jutaBijinya bulat, ingin mengirimSOTAmodel video

Black Forest Lab didirikan oleh tim pendiri Stable Diffusion. Pekerjaan tim sebelumnya juga mencakup model pembuatan gambar berkualitas tinggi VQGAN, model pembuatan video Stable Video Diffusion, dll.

Di antara 5 penulis asli Difusi Stabil,4Anggota yang telah bergabung dengan Stability AI dan terus mengembangkan versi SD berikutnya, termasuk Robin Rombach, Andreas Blattmann, Dominik Lorenz, dan Patrick Esser, semuanya merupakan anggota tim pendiri Black Forest Labs.

▲ Penulis Stable Diffusion dan tim pendiri Black Forest Lab

Tim tersebut mengatakan keyakinan utamanya adalah mengembangkan model yang dapat diakses secara luas, mendorong inovasi dan kolaborasi dalam komunitas penelitian dan akademis, serta meningkatkan transparansi model.

Black Forest Labs mengumumkan penyelesaiannya$31 juta(sekitar RMB 225 juta)Pembiayaan putaran awal, dipimpin oleh lembaga modal ventura ternama a16z (Andreessen Horowitz), Brendan Iribe, CEO produsen VR Oculus, Garry Tan, CEO inkubator startup YC, peneliti NVIDIA Timo Aila dan pakar serta perusahaan AI lainnya juga berpartisipasi dalam investasi tersebut, dan juga menerima Ada investasi lanjutan dari dana tingkat pertama seperti General Catalyst.

Dewan penasihat tim ini terdiri dari mantan presiden Disney Michael Ovitz, yang memiliki pengalaman luas dalam industri pembuatan konten, dan Profesor Matthias Bethge, pionir dalam transfer gaya saraf.

Master AI yang baru saja memulai bisnisnyaAndrey Kapasi(Andrej Karpathy) mengirimkan restunya kepada tim Black Forest dan mengatakan bahwa "model pembuatan gambar open source FLUX.1 terlihat sangat kuat."

▲ Komentar Kapasi

Mantan pemimpin tim pendiri - mantan CEO Stability AIEmad Mostak(Emad Mostaque) juga mengirimkan pesan ucapan selamat dan berkata, "Merupakan suatu kehormatan untuk bekerja dengan mereka sebelumnya, dan saya yakin mereka akan terus mendobrak batasan dalam perjalanan menghasilkan setiap piksel."

▲ Komentar terbanyak

Pada tahap pengerjaan selanjutnya, Trailer Black Forest akan merilis aModel video SOTA Vincent , "Memungkinkan semua orang mengonversi teks menjadi video." Model ini akan dibangun di atas FLUX.1, "memungkinkan pembuatan dan pengeditan presisi dalam definisi tinggi dan kecepatan yang belum pernah terjadi sebelumnya."

▲ Pratinjau model pembuatan video

Kesimpulan: Kuda hitam muncul di bidang model multimoda besar

Sementara banyak produsen besar dan start-up tergila-gila dengan video Vincent, bidang gambar Vincent tiba-tiba mengantarkan pada kuda hitam. FLUX.1 yang "lahir tiba-tiba" tidak hanya menunjukkan kinerja luar biasa, mengatasi kesulitan dalam pembuatan teks, komposisi rumit, dan gambar manual, tetapi juga memenuhi kebutuhan pengguna yang berbeda dengan versi yang beragam.

Mengandalkan kekuatan yang kuat dari tim asli Difusi Stabil, Laboratorium Black Forest telah memperoleh pendanaan putaran awal yang besar dan menarik perhatian serta dukungan dari banyak pemimpin industri. Model video yang akan dirilis di masa depan akan memberikan vitalitas baru ke dalam bidang video Vincent.

berita

Model grafik Wensheng open source paling kuat berpindah tangan dalam semalam! Dibuat oleh tim asli SD, model pembuatan video SOTA akan dirilis

Perkenalan

informasi kontak saya