ai写真レビューが物議を醸す：ミッキーマウスは喫煙、トランプ大統領はキス、スポンジボブはナチスの制服を着ている

ai写真レビューが物議を醸す：ミッキーマウスはタバコを吸い、トランプ大統領はキスし、スポンジ・ボブはナチスの制服を着ている

2024-09-04

zhidixi (パブリックアカウント: zhidxcom)

コンパイル | 徐裕

編集者 | 莫英

ウォール・ストリート・ジャーナルの9月2日の報道によると、最近ソーシャルメディアプラットフォーム上で「銃を構えるミッキー」などの冗談や政治的に誤解を招くai画像が出回っており、その内容はユーザーに混乱や不快感を与えているとのこと。

これらの ai イメージは、grok-2 や gemini などの大規模 ai モデルによって生成されます。 grok-2はマスク氏が設立したアメリカのai大型モデルユニコーンであるxaiによって開発され、geminiはアメリカのテクノロジー大手グーグルから来たものである。

最近、google は、ai 画像によって生成されたコンテンツのレビューメカニズムを改善し、偏見、曖昧さ、間違った、人種差別的、歴史的事実に反する ai 出力を回避しようとしています。

同様の問題に対応して、米国の大手 ai モデルユニコーンである openai は、ai 画像生成のコンテンツレビューを強化するために、明確な方向性を持つ文字を生成する ai の使用を禁止しました。

1. xaiの新世代大型モデルgrok-2、政治家へのいたずらを黙認

ソーシャルメディアプラットフォームを開き、カマラ・ハリスがキスします。

これらの不可解で不快な画像は、xai と google の新しい生成 ai モデルまたはソフトウェアを使用して生成されました。

▲ai技術を使って生成された画像では、トランプ大統領がハリス氏を「お姫様抱っこ」しており、鮮明な肖像画が描かれている（出典：「ウォール・ストリート・ジャーナル」）

8 月 14 日、xai は次世代の大規模言語モデル grok-2 を発表しました。モデルのリリースから数日以内に、grok-2 を使用して生成されたと言われる画像が x プラットフォームに殺到しました。これらのシーンでは、“ライバル”のトランプ氏とハリス氏が親密な様子を見せている一方、おとぎ話の世界ではミッキーが銃を持ってタバコを吸っている。生成 ai 技術を使用して生成されたこれらの画像は、政治家のイメージを損なうだけでなく、著作権で保護されたキャラクターに攻撃的な行動を引き起こす可能性があります。「ディズニーが見たら、おそらく笑わないでしょう。」

grok-2 大型言語モデルは、ドイツの ai 画像およびビデオ生成スタートアップである black forest labs によって提供されており、現在は x プラットフォームの有料加入者のみが利用できます。

x プラットフォームのポリシーによれば、ユーザーは、事実を混乱させたり誤解を与えたり、意図的に改ざんしたり、最終的には個人や財産に危害を及ぼす可能性のあるコンテンツを共有することを禁止されています。 grok-2 がリリースされた日の後半、一部の違法な ai 画像は x プラットフォームで取得できなくなりましたが、ユーザーは依然として grok-2 を使用して「悪趣味」に満ちた新しい作品を生成することができました。

しかし、xプラットフォームの実際の管理者であるマスク氏は、この種の政治的なりすましを気にしていないようだ。 7月には、ハリス氏が自身を「究極の多様性採用者」と称する偽のディープフェイク動画をリツイートした。

コンテンツ管理の専門家らは、同様の生成aiツールが米国の選挙期間中に何らかの誤った情報を生成し、さらには社会に拡散する可能性があると述べた。

2024年民主党全国大会開幕前日の8月19日、トランプ大統領はaiが生成したと思われる画像を公開した。当時、現アメリカ大統領バイデンが再選を断念していたため、党内投票を経て、このai画像の主人公であるハリス氏が事前に民主党大統領候補を確定させていた。

画像には「シカゴで演説するハリス氏」の場面が描かれており、背景に鎌とハンマーの模様が描かれた赤旗が掲げられているが、これはハリス氏が共産主義者であることを暗示しているようで、政治的論争を引き起こしているようだ。

2. google の gemini 大型モデルは何度も覆されており、機密要素に関しては白か黒かの区別がありません。

google の gemini チャットボットは、その名を冠した大規模言語モデル gemini を搭載しています。

今年 2 月に新しいバージョンの gemini チャットボットをリリースする前に、google は gemini モデルをデバッグして、文字の生成を伴う命令に遭遇したときに、より曖昧な属性を持つより多様な文字に応答できるようにしました。

たとえば、医師の画像を生成する場合、ai は通常、白人男性の画像を生成する傾向があります。 googleは「多様化」を通じてai画像生成モデルの「偏り」を軽減したいと考えている。

しかし、1 か月以内に、ジェミニモデルは大きな間違いを犯しました。このモデルが「人種的に多様な」画像を生成すると、宗教、人種、性別などが一致せず、歴史的事実と一致しない人物の画像が複数生成されてしまいました。多くのネチズンから批判を受けた後、googleはgeminiモデルの画像生成機能を一時停止することを決定し、ai画像生成の潜在的なリスクに「急ブレーキ」をかけた。

googleの副社長でgeminiチャットボットの責任者であるシシー・シャオ氏は最近のインタビューで、aiモデルがユーザーの指示に確実に従うことがgoogleが遵守する原則であると述べた。「これはユーザーのジェミニであり、私たちはユーザーに奉仕します。」

それにもかかわらず、gemini チャットボットを使用して生成された画像の一部は依然として歴史的事実と矛盾しています。多くの x プラットフォームユーザーが、google モデルのコンテンツモデレーション機能に疑問を呈するスクリーンショットを撮りました。

攻撃的で人種的に偏見のあるコンテンツを出力するジェミニモデルについて、グーグルのサンダー・ピチャイ最高経営責任者（ceo）は「これは容認できない」とし、同社は「この問題に包括的に対処する」と応じた。

しかし、googleは最近、ai技術を使って生成した画像の内容がずさんだったとして、再びユーザーの怒りを買っている。

8月中旬、googleの最新世代スマートフォンであるpixel 9シリーズが発売されました。 pixel 9 シリーズには「reimagine」と呼ばれる ai 写真編集ツールが導入されており、ユーザーはテキストプロンプトを入力することで ai を呼び出して写真の内容を変更できます。

しかし、一部のユーザーは、reimagine を使用すると、スポンジ・ボブにナチスのシンボルを「着用」するなど、いくつかの違法な要素を追加できることに気づきました。このコンテンツのセキュリティ上の欠陥は、ユーザーの間で嫌悪感を引き起こしました。

googleの広報担当者は、同社は「aiモデルに対する既存のセキュリティ保護を継続的に強化、改善している」と述べた。

googleは今年8月末、同社のaiチャットボット「gemini」がキャラクター画像生成機能を再開することを明らかにしたが、この機能は当初は有料サブスクリプションを持つ英語ユーザーのみが利用できる予定だった。同時に、googleはai画像の生成とレビューにおいて「大幅な進歩」を遂げたが、「geminiによって生成されたすべての画像が正確であることは不可能」である。

3. ai 生成画像の倫理的および法的境界を業界のベンチマークとして確立する必要がある

現在、ai 画像生成ソフトウェアはソーシャルメディアプラットフォームポリシーの収益性をテストし続けています。この現象は、テクノロジー企業が最先端の ai 画像生成ソフトウェアによって出力されるコンテンツを管理すべきかどうか、またどのように監査すべきかなどの議論と考察を引き起こしました。

生成ai技術がネチズンに自由に作成できるよう公開される前に、ai画像生成ソフトウェアには、aiによって生成された作品が規制や倫理原則に違反しないことを保証するための効果的な安全保護手段が装備されています。これは、テクノロジー企業が ai コンテンツをモデレートする際に直面するプレッシャーです。

倫理的なジレンマに加えて、ai モデルやソフトウェアの開発者は多くの潜在的な法的責任にも直面しています。 aiモデルやソフトウェアを学習させる際に使用する学習データには、知的財産権などの権利侵害が含まれるためだ。

権利侵害の申し立てにより、アーティストらは2023年にai画像スタートアップのstability aiとmidjourneyに対して集団訴訟を起こした。この集団訴訟では、deviantartやrunwayといったai画像生成モデルを保有する一連の企業も対象となっている。

なお、stability aiはアーティスト側からの集団訴訟に加え、アメリカの映像メディア会社ゲッティイメージズからも訴訟を受けている。後者は、stability ai がモデルをトレーニングする権利を侵害していると非難した。これに対し、ゲッティイメージズの広報担当者は、同社が独自のai画像生成モデルを立ち上げたと述べた。

openaiは2022年にai画像生成モデルdall-eを発売した。昨年アーティストから集団訴訟を受けた後、openaiはdall-eモデルのインターフェースに新しいオプションを追加し、クリエイターがdall-e次世代モデルのトレーニングに使用しない画像を個人的にアップロードするオプションをチェックできるようにした。

ウォール・ストリート・ジャーナルの親会社であるニューズ・コープは、openaiとコンテンツライセンス契約を締結した。このおかげで、openai は一定の制限内で news corp の既存のメディアリソースに自由にアクセスして収集することができます。

知的財産保護を専門とする弁護士のジェフリー・ロッテンバーグ氏は、aiの知的財産の著作権を巡るこの種の法的紛争は、aiの法的境界線を定める前例となる可能性があると述べた。そうすれば、他の ai 企業も自社のモデルやチャットロボットをトレーニングする際にどのような写真、ビデオ、その他のデータを使用できるかについての参照標準を持つことになります。

結論: google と openai はエラーを積極的に修正しますが、xai はその逆を行います。

ai 画像生成ソフトウェアが特定のよく知られた人物の画像を生成できるかどうかは、今回の ai コンテンツレビュー論争における主な対立点の 1 つです。

googleやopenaiを含む多くのテクノロジー企業は、特定のキャラクターを含み、キャラクターが容易に識別できるai作品を作成するためにai画像生成ソフトウェアを使用することを禁止している。

xai 創設者マスク氏の言論の自由の主張により、xai の grok-2 大型モデルは特定の人物や役割の画像生成機能を保持することを選択しました。しかし、この動きはxaiをテクノロジー業界の監視機関から批判される結果となった。

カリフォルニア大学ロサンゼルス校のサラ t. ロバーツ教授は、コンテンツモデレーションの研究に熱心に取り組んでいます。彼女は、ユーザーが最先端のai技術を利用してビデオ、音声、写真などをディープフェイクし、虚偽の情報を拡散すると考えている。

ロバーツ氏は、従来のソーシャルメディアに存在するすべての問題には依然として生成aiが対処する必要があり、検出はより困難であると付け加えた。特に、ai技術を利用して生成された画像などのビジュアルコンテンツのほうが説得力がある場合があります。

ペンシルベニア大学のピナール・ユルディリム教授は、プラットフォームはai技術の悪用を防ぐために、キーワードの禁止などのルールを設けようとしていると述べた。しかし同時に、ユーザーはセキュリティホールを見つけて、これらのルールを回避して必要なコンテンツを取得することもできます。「ユーザーはより賢くなり、最終的には抜け穴を悪用して違法なコンテンツを作成できるようになるだろう」とユルディリム氏は語った。

出典：「ウォール・ストリート・ジャーナル」

ニュース

ai写真レビューが物議を醸す：ミッキーマウスはタバコを吸い、トランプ大統領はキスし、スポンジ・ボブはナチスの制服を着ている

1. xaiの新世代大型モデルgrok-2、政治家へのいたずらを黙認

2. google の gemini 大型モデルは何度も覆されており、機密要素に関しては白か黒かの区別がありません。

3. ai 生成画像の倫理的および法的境界を業界のベンチマークとして確立する必要がある

結論: google と openai はエラーを積極的に修正しますが、xai はその逆を行います。

導入

私の連絡先情報