ニュース

研究: ai をトレーニングするために ai で生成されたコンテンツを繰り返し使用すると、「モデルの崩壊」が発生する可能性があります

2024-09-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

9 月 5 日の it ハウス ニュース。現地時間 9 月 4 日、forbes によると、オックスフォード大学のイリヤ シュメロフ博士と彼のチームは、生成 ai ソフトウェアがコンテンツのみに依存すると、回答の品質が低下し始めることを発見しました。研究はnature誌に掲載された。

最初の 2 つのクエリの後、回答は徐々に精度から遠ざかり、5 回目のクエリまでに品質が大幅に低下し、9 回連続のクエリまでに応答は完全に無意味な意味のないものになってしまいました。研究者らは、生成型 ai コンテンツのこの周期的な過剰使用を「モデル崩壊」と呼んでいます。これは、ai の出力が現実から徐々に逸脱し、自身のトレーニング セットを汚染し続けた結果、最終的には無価値になってしまうことです。

シュメロフ氏は、「モデルの崩壊がいかに早く、そして気づかれないうちに起こるかは驚くべきことだ。最初は、少数のデータ、つまり過小評価されているデータに影響を与える。その後、出力の多様性に影響を及ぼし、変動性の低下につながることがある。」と述べた。大部分のデータでは小さな改善が見られますが、この改善により、少数のデータではモデルのパフォーマンスの低下が隠蔽されます。」

研究者らは、事前にトレーニングされた ai を活用した wikipedia を使用し、生成されたコンテンツに基づいて ai モデルを更新させることで、「モデルの崩壊」の存在を特定しました。汚染されたデータの影響により、元のトレーニング セットは徐々に侵食され、出力される情報が理解しにくくなります。たとえば、9回目のクエリサイクルの後、調査対象のwikipediaのエントリは、14世紀のイギリスの教会の尖塔に関するものから、さまざまな色のボブテイルウサギに関する論文へとコミカルに変化した。

報道によると、アマゾン ウェブ サービス チームが 6 月に発表した別の調査によると、オンライン テキストの約 57% が ai アルゴリズムによって翻訳されています。インターネット上で人間が生成したデータが ai でフィルタリングされたコンテンツによってすぐに上書きされ、シュメイロフの研究結果が真実であれば、ai は「自己破壊」し、同時にインターネットを破壊する可能性があります。

この研究では、ai の長期的な持続可能な開発を達成する唯一の方法は、ai が既存の非 ai 生成コンテンツに確実にアクセスできるようにし、人間が生成した新しいコンテンツを導入し続けることであると結論付けています。