ニュース

「2028年までにインターネット上のすべての高品質テキストデータが使用されるようになる」

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

調査会社エポックAIは、インターネット上のすべての高品質テキストデータは2028年までに使用され、機械学習データセットは2026年までにすべての「高品質言語データ」を使い果たす可能性があると予測している。

研究者らは、人工知能(AI)によって生成されたデータセットで将来世代の機械学習モデルをトレーニングすると、「モデルの崩壊」が起こる可能性があると指摘している。 大規模な AI モデルの学習データが不足しているのではないかという話題が、最近再びメディアで話題になっています。

最近、エコノミスト誌は「AI企業は間もなくインターネットのデータのほとんどを使い果たすだろう」というタイトルの記事を掲載し、インターネットの高品質データが枯渇するにつれて、AI企業は間もなくインターネットのデータのほとんどを使い果たすだろうと指摘した。 「データウォール」。 AI の大手モデル企業にとって、現在の課題は、新しいデータ ソースまたは持続可能な代替データを見つけることです。

記事では、インターネット上のすべての高品質テキストデータは2028年までに使用され、機械学習データセットは2026年までにすべての「高品質言語データ」を使い果たす可能性があるという調査会社エポックAIの予測を引用している。この現象は、業界では「データ ウォール」として知られています。 「データの壁」にどう対処するかは、今日 AI 企業が直面している主要な問題の 1 つであり、AI のトレーニングの進捗を最も遅らせる可能性が最も高い問題でもあるかもしれません。この記事では、インターネット上のトレーニング前のデータが枯渇するにつれて、トレーニング後のデータがより重要になると指摘しています。 Scale AI や Surge AI などのラベル会社は、トレーニング後のデータを収集して毎年数億ドルを稼いでいます。


エコノミスト誌がエポック AI の図を引用

実際、業界では以前から「データ枯渇」についての声があった。同紙は、カリフォルニア大学バークレー校のコンピューターサイエンス教授であり『人工知能 - 現代のアプローチ』の著者であるスチュアート・ラッセル氏が、2023年7月初旬に、ChatGPTのような人工知能駆動のロボットが間もなく「人間の能力を使い果たす可能性がある」と警告したことに注目した。 「宇宙のテキスト」という、大量のテキストを収集してロボットを訓練する技術が「困難に直面し始めている」。

しかし、業界内には異なる声もあります。 2024年5月、ブルームバーグのテクノロジー記者エミリー・チャンとのインタビューで、有名なコンピュータ科学者であり、スタンフォード大学人工知能研究所の共同所長であり、スタンフォード大学の教授であるリー・フェイフェイは、「私たちの意見に同意しない」と明らかにした。 「AI モデルはトレーニング用のデータが不足しつつある」というのは、より悲観的な見方です。リー・フェイフェイ氏は、この見方は狭すぎると考えている。言語モデルだけの観点から見ると、さらにカスタマイズされたモデルを構築するためにマイニングされるのを待っている大量の差別化されたデータがまだ存在します。

現在、トレーニング データが限られているという問題に対する解決策の 1 つは、機械で作成されるため無制限の合成データを使用することです。しかし、7月24日に国際学術誌ネイチャーに掲載されたコンピューターサイエンス論文では、人工知能(AI)が生成したデータセットを使って将来世代の機械学習モデルを訓練すると、そのデータが汚染される可能性があると指摘した。出力、この概念は「モデル崩壊」と呼ばれます。モデルは汚染されたデータでトレーニングされるため、現実を誤解してしまうことになります。

研究チームは、大規模な言語モデルの学習タスクでは、基礎となる分布の末尾が重要であり、インターネット上でコンテンツを公開するために大規模な言語モデルを大規模に使用すると、後継者をトレーニングするためのデータ収集の取り組みが汚染される可能性があることを研究チームは示した。将来的には、大規模な言語モデルの対話に関する実際のデータの価値がますます高まるでしょう。ただし、研究チームは、AIが生成したデータが完全に望ましくないわけではないが、データは厳密にフィルタリングする必要があるとも述べています。たとえば、各世代モデルの学習データには、元のデータの 10% または 20% を残し、人間が生成したデータなどの多様なデータを使用したり、より堅牢な学習アルゴリズムを検討したりすることもできます。