人間がデータを使い果たしたらどうすればよいでしょうか?復丹大学の蕭陽華教授が2つの解決策を提案

人間がデータを使い果たしたらどうすればよいでしょうか?復丹大学教授のxiao yanghua氏は、2つの解決策を提案した。

2024-09-07

red star capital bureau は 9 月 7 日、ビッグデータの時代においてデータの価値がまだ十分に探求されていないと報告しました。ai 時代が到来すると、データは急速に消費され、合成されるという課題に直面します。データテクノロジーは注目の分野です。研究機関であるエポックaiが6月に発表した報告書によると、2026年以降、人間が生成する新たなデータの量が、モデルが学習する新たなデータの量よりも少なくなり、大規模な言語モデルが枯渇すると予測されています。 2028 年までのデータ。

データはインテリジェンスの上限をある程度決定します。そのため、大規模モデル技術のブレークスルーが増えるほど、より多くのデータ技術をそれに「合わせる」必要があります。

2024年の外灘会議中、復丹大学教授で上海データサイエンス重点研究所所長の蕭陽華氏はレッドスター首都局や他のメディアとのインタビューで、データ枯渇の問題を解決するには2つの道があるかもしれないと述べた。将来。 1 つ目は合成データで、もう 1 つはプライベートドメインに送られます。

シャオ・ヤンファ

「多くの人が四書五経に注釈を付けています。注釈のプロセスはデータ合成のプロセスに似ています。元のデータを継続的に考え、関連付け、統合して、より多くのデータを生成できます。これが合成データです。」と蕭陽華氏は指摘しました。 , 合成データは非常に重要な考え方です。データ枯渇の問題を軽減するだけでなく、非常に重要な意味もあります。

「合成データのほとんどは、私たちの思考プロセスのデータです。合成データを通じて、暗黙的、未記録、未表現の、思考に焦点を当てた大量のデータが表現されます。この種のデータは、iq や理性を刺激するために重要です。大型モデルの能力。

xiao yanghua氏は、現在の大型モデルには「知性だけがあり、合理性はない」と述べましたが、それはより多くの事実を記憶しているだけで、より「賢い」という意味ではなく、その合理性が向上しているわけではありません。合成データは合理的能力を向上させるための非常に重要なアイデアです。

「思考プロセスをシミュレートする合成データを使用して大規模モデルをトレーニングし、問題についてどのように考えるかを知ることができます。したがって、合成データはデータの「飢餓」を緩和するだけでなく、大規模モデルの合理的能力を向上させることにもなります。。」

xiao yanghua 氏が言及したもう 1 つの非常に重要なアイデアは、プライベート領域に踏み込むことです。「より高品質で価値の高いデータがプライベートドメイン、垂直産業、数千の業界に存在し、さらにその先には個人データがあります。したがって、プライベートドメインと個人には、貴重で非常に独創的で貴重なデータが依然としてたくさんあります。しかし、このデータはまだアクティブ化されておらず、大規模モデルはこの知識をまだ学習していないため、大規模モデルの可能性を刺激する方法も非常に重要です。将来のこと。」

xiao yanghua 氏は、プライベートドメインデータはすべてデータベースシステム内にあり、これらのデータベースにはさまざまな形式の高品質のプライベートドメインデータと業界データが含まれており、それらを大規模なモデルトレーニングコーパスに変換する方法が重要な問題であると述べました。プライベートドメインデータを使用して大規模モデルをトレーニングできれば、大規模モデルを業界の専門家に変えることができます。

「今日の大規模モデルは一般的な知識しか持たず、専門的な作業には適していません。これを達成するには、プライベートドメインのデータをうまく活用することが鍵となる可能性があり、データが盗用される可能性は依然として非常に大きいです。」

xiao yanghua 氏はまた、「個人データ」にも期待を寄せており、大規模なモデルをトレーニングするための個人データの使用はまだ始まったばかりであると指摘しました。同氏は、将来的には個人データと大規模モデルを組み合わせて、個人にサービスを提供する「パーソナライズされた大規模モデル」を実現する方法に大きな可能性があると考えています。まだまだ大きな可能性を秘めています。

レッドスターニュースの記者、王天

編集者鄧玲耀

(red star news をダウンロードしてレポートを提出して賞品を獲得しましょう!)

レポート/フィードバック

ニュース

人間がデータを使い果たしたらどうすればよいでしょうか?復丹大学教授のxiao yanghua氏は、2つの解決策を提案した。

導入

私の連絡先情報