ニュース

Meta Company が Imagine Yourself をリリース: 特定のオブジェクトに合わせて微調整する必要のないパーソナライズされた画像生成 AI モデル

2024-08-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

8 月 23 日の IT House News では、ソーシャル メディアから仮想現実に至るまで、パーソナライズされた画像生成は、さまざまな用途での可能性によりますます注目を集めています。従来の方法では通常、ユーザーごとに多くの調整が必要となるため、効率と拡張性が制限されていました。このため、Meta Company は「Imagine Yourself」AI モデルを革新的に提案しました。

従来のパーソナライズされた画像生成方法の課題

現在のパーソナライズされた画像生成方法は、多くの場合、各ユーザーにモデルを適応させることに依存していますが、これは非効率的であり、汎用性に欠けています。新しい方法では、調整を行わずにパーソナライゼーションを実現しようとしますが、多くの場合、過度に適合し、コピー アンド ペーストの影響が生じます。

自分自身を想像してみてください。

Imagine Yourself モデルは、特定のユーザーに合わせて微調整する必要がなく、単一のモデルでさまざまなユーザーのニーズを満たすことができます。

このモデルは、参照イメージを変更せずにコピーする傾向など、既存の方法の欠点に対処し、より多用途でユーザーフレンドリーなイメージ生成プロセスへの道を開きます。

Imagine Yourself は、アイデンティティの維持、ビジュアル品質、タイムリーな調整などの重要な領域で優れており、以前のモデルを大幅に上回っています。

モデルの主なコンポーネントは次のとおりです。

合成ペアデータを生成して多様性を促進します。

3 つのテキスト エンコーダーとトレーニング可能なビジュアル エンコーダーを統合した完全並列アテンション アーキテクチャ。

粗いものから細かいものまでの多段階の微調整プロセス

これらの革新的な技術により、モデルは強力な個人情報保護とテキスト配置機能を維持しながら、高品質で多様な画像を生成することができます。

Imagine Yourself は、トレーニング可能な CLIP パッチ エンコーダーを使用してアイデンティティ情報を抽出し、並列クロスアテンション モジュールを通じてそれをテキスト プロンプトと統合し、アイデンティティ情報を正確に保存し、複雑なプロンプトに反応します。

このモデルは、低次アダプター (LoRA) を使用してアーキテクチャの特定の部分のみを微調整するため、高いビジュアル品質が維持されます。

Imagine Yourself の際立った機能は、SynPairs データの生成です。表情、ポーズ、照明の変化を含む高品質のペアデータを作成することで、モデルはより効率的に学習し、多様な出力を生成できます。

特に、複雑な手がかり単語の処理において、最先端のモデルと比較してテキストの配置において +27.8% という大幅な改善を達成しています。

研究者らは、51 の異なるアイデンティティと 65 の手がかりのセットを使用して Imagine Yourself を定量的に評価し、人間による評価用に 3,315 枚の画像を生成しました。

このモデルは、視覚的な魅力、アイデンティティの保持、キューの位置合わせなどの指標に焦点を当てて、最先端 (SOTA) アダプター ベースのモデルおよびコントロール ベースのモデルと比較されます。

ヒューマン アノテーターは、アイデンティティの類似性、タイムリーな調整、視覚的な魅力に基づいて、生成された画像にスコアを付けます。 Imagine Yourself は、アダプターベースのモデルと比較してキューアライメントで 45.1%、コントロールベースのモデルと比較して 30.8% の大幅な向上を達成し、その優位性を改めて証明しました。

Imagine Yourself モデルは、パーソナライズされた画像生成における大きな進歩です。このモデルは、被験者固有の調整の必要性を排除し、合成ペアデータ生成や並列アテンションアーキテクチャなどの革新的なコンポーネントを導入することで、これまでのアプローチが直面していた主要な課題に対処します。