aiの「モデル崩壊」のリスクに警戒する必要がある
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
画像出典:米国『theweek』
【今日の視点】
◎張佳新記者
顧客サービスからコンテンツ作成に至るまで、人工知能 (ai) は多くの分野の進歩に影響を与えています。しかし、「モデルの崩壊」として知られる問題が増大すると、ai の成果がすべて台無しになる可能性があります。
「モデル崩壊」は、今年7月に英科学誌ネイチャー誌に掲載された研究論文で指摘された問題。これは、ai によって生成されたデータセットを使用して将来世代の機械学習モデルをトレーニングすることを指し、潜在的にその出力を深刻に「汚染」します。
複数の海外メディアは、これはデータサイエンティストが懸念すべき技術的な問題だけではなく、放置しておくと「モデルの崩壊」が企業、テクノロジー、デジタルエコシステム全体に重大な影響を与える可能性があると報じた。天津大学自然言語処理研究室長のxiong deyi教授は、科技日報の記者とのインタビューで専門的な観点から「モデル崩壊」について説明した。
「モデル崩壊」で何が起こっているのでしょうか?
gpt-4 などのほとんどの ai モデルは、大部分がインターネットから得られる大量のデータに基づいてトレーニングされます。当初、このデータは人間によって生成され、人間の言語、行動、文化の多様性と複雑さを反映しています。 ai はこのデータから学習し、それを使用して新しいコンテンツを生成します。
ただし、ai が次世代モデルをトレーニングするために web で新しいデータを検索すると、ai が生成するコンテンツの一部が吸収される可能性があり、1 つの ai の出力が別の ai の入力になるフィードバック ループが作成されます。別の。生成 ai が独自のコンテンツでトレーニングされる場合、その出力も現実から逸脱する可能性があります。これは、ドキュメントのコピーを複数作成するようなもので、バージョンごとに元の詳細の一部が失われ、最終的には不鮮明で精度の低い結果が得られます。
ニューヨーク・タイムズは、aiが人間の入力コンテンツから分離されると、その出力の品質と多様性が低下すると報告しました。
xiong deyi 氏は次のように説明しました。「実際の人間の言語データの分布は通常、zipf の法則に準拠します。つまり、単語の頻度は単語の順序に反比例します。zipf の法則は、人間の言語データにはロングテール現象があることを明らかにしています。 、低周波で多様なコンテンツが多数あります。」
さらに、xiong deyi 氏は、近似サンプリングなどの誤差により、モデルによって生成されたデータでは実際の分布のロングテール現象が徐々に消え、モデルによって生成されたデータの分布は徐々に収束していき、実際の分布とは一致しないと説明しました。実際の分布が変化し、多様性が減少し、その結果「モデルの崩壊」が発生します。
aiが「共食い」すること自体は悪いことなのでしょうか?
「モデル崩壊」に関して、アメリカの「theweek」誌は最近、これはai自体が「共食い」していることを意味するとコメントする記事を掲載した。
xiong deyi 氏は、この現象の出現により、後続のモデルの反復トレーニングでモデル生成データの割合が高くなるほど、後続のモデルが実際のデータに関して失う情報が多くなり、モデルのトレーニングがより困難になると考えています。
一見すると、「モデルの崩壊」は、現時点では研究室で ai 研究者だけが心配する必要があるニッチな問題のように見えますが、その影響は広範囲に及び長期にわたるものとなります。
アメリカの「atlantic monthly」の記事は、より高度なai製品を開発するために、テクノロジー大手は合成データ、つまりaiシステムによって生成されたシミュレートされたデータをプログラムに提供する必要があるかもしれないと指摘した。ただし、一部の生成 ai の出力には偏見、偽情報、不条理なコンテンツが含まれているため、これらは ai モデルの次のバージョンに引き継がれます。
米『フォーブス』誌は、「モデルの崩壊」もaiにおける偏見や不平等の問題を悪化させる可能性があると報じた。
ただし、すべての合成データが悪いというわけではありません。ニューヨーク・タイムズ紙は、場合によっては合成データがaiの学習に役立つ可能性があると述べた。たとえば、大規模な ai モデルの出力を使用して小規模なモデルをトレーニングする場合、または数学の問題の解決策やチェスや囲碁などのゲームの最適な戦略などの正解が検証できる場合です。
aiがインターネットを乗っ取るのか?
新しい ai モデルのトレーニングの問題は、より大きな課題を浮き彫りにする可能性があります。 「サイエンティフィック アメリカン」誌は、ai コンテンツがインターネットを席巻し、大規模な言語モデルによって生成されたテキストが何百もの web サイトに溢れていると述べました。人間が作成するコンテンツと比較して、ai コンテンツはより速く、より大量に作成できます。
openaiの最高経営責任者(ceo)サム・アルトマン氏は今年2月、同社は毎日約1000億語の単語を生成しており、これは小説100万冊のテキストに相当し、その大部分がインターネットに流れ込んでいると述べた。
ボットツイート、ばかばかしい画像、偽のコメントなど、インターネット上に大量の ai コンテンツが存在することで、否定的な認識がさらに強まっています。 「フォーブス」誌は、「死んだインターネット理論」では、インターネット上のトラフィック、投稿、ユーザーのほとんどがロボットやaiが生成するコンテンツに取って代わられ、人間はもはやインターネットの方向性を決定できなくなっていると考えていると述べた。このアイデアは当初オンライン フォーラムでのみ広まっていましたが、最近ではさらに注目を集めています。
幸いなことに、専門家は「死んだインターネット理論」はまだ現実化していないと述べている。 「フォーブス」誌は、深遠な意見、鋭い言葉遣い、鋭い観察、新しい文脈における新しいものの定義など、広く流通している投稿の大部分はaiによって生成されたものではないと指摘した。
しかし、xiong deyi 氏は依然として次のように強調しました。「大規模モデルの広範な適用に伴い、インターネット データに占める ai 合成データの割合はますます高くなる可能性があります。大量の低品質の ai 合成データは、その後のインターネット データの利用に役立つだけでなく、学習モデルにはある程度の「モデルの崩壊」が発生し、一部の人々を誤解させる誤った情報が生成されるなど、社会に悪影響を及ぼす可能性もあります。そのため、ai が生成するコンテンツは技術的な問題だけでなく、 ai技術を活用して二重の視点から効果的に対応する必要がある社会問題でもあります。」
(出典:科学技術日報)