ニュース

AIデータが不十分な場合、紙を使って「補う」ことはできるでしょうか?

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

8月14日
Natureの公式サイトに次のような記事が掲載されました。
いくつかの学術出版社がテクノロジー企業に投資している
研究論文の使用権の販売
AI モデルのトレーニングに使用される
多くの場合、これらの取引は
著者には相談がなかった
これは一部の研究者の間で強い不満を引き起こした。
「裏切られた」論文
自然のスケール
英国の学術出版社
テイラー・フランシス
すでにマイクロソフトと契約を結んでいる
1,000万ドル相当の契約
Microsoft がそのデータにアクセスできるようにする
AIシステムを改善するために
6月にこんなニュースがありました
アメリカの出版社ワイリー
企業が自社のコンテンツを使用してモデルをトレーニングできるようにする
したがって、2,300万ドルを稼ぎます
自然のスケール
これらの論文の内容は、
自然科学、社会科学、その他の分野
AI モデルのトレーニングのための重要なコーパスとなっています。
2024年にスイスのジュネーブで開催された「人類のための人工知能グローバルサミット」で、絵画ロボットが絵画のデモンストレーションを行った。
出典: 新華社通信
Natureの記事はこう思う
現在の学術論文著者
著作権で保護された作品を販売する出版社と対峙する場合
介入する権利はほとんどない
公開記事については
これらの内容を確認する既存のメカニズムはありません
AIの学習データとして利用するかどうか
大規模な言語モデルの使用において
より公平な仕組みをどう確立するか
クリエイターの権利を守る
学界および著作権界で広範な議論を行う価値がある
AIデータが足りない
「補う」ための書類
人工知能大型モデル開発の 3 つの主要要素
それはデータ、アルゴリズム、コンピューティング能力です
AI技術の急速な発展により、
トレーニング データの需要の増大
一部メディアが言ってた
2021年末
OpenAI トレーニング GPT-4
難しい問題に遭遇した
そのトレーニングはインターネット上で網羅されています
信頼できる英語テキストリソース
それから
この問題に対処するために
OpenAI は Youtube プラットフォームからのビデオとオーディオを使用します
大量の会話テキストを文字に起こす
その後のトレーニング
7月2日、スタッフは2024年世界デジタル経済会議のデジタル経済没入型体験エリアでデジタル担当者とコミュニケーションをとった。
写真提供:新華社記者レン・チャオ
ハイテク大手は焦点を次のことに移す
学術出版社
学術論文として
科学研究分野における英知の結晶
人々が殺到する「ホットケーキ」になる。
自然言語処理を例に挙げます
多数の論文でのトレーニングを通じて
AI モデルはより深く理解できるようになります
学術分野の知識
精度を向上させる
GoogleやMicrosoftなどのテクノロジー大手
コーパスの購入に多額の投資を行っている
AI分野で競争優位性を獲得するために
フィナンシャル・タイムズは独自のコンテンツを掲載しています
手頃な価格で
OpenAIに売却
ソーシャルニュースサイトReddit
Googleとも同様の合意に達した
これらの取引は
出版社が法的に許可しようとしている
AI モデルによるコンテンツのクロールを無料で回避できます
トレーニングデータのジレンマ
ゲームを壊す方法
出版社と協力する
それを解決するのはテクノロジー企業だけです
トレーニングデータ不足の問題の典型
最近
エコノミスト誌が記事を掲載
「AI企業はまもなくインターネットデータのほとんどを使い果たすだろう」
インターネット上で何が利用できるかを予測する
人間のテキストデータは4年以内に枯渇する
4月23日、ドイツのハノーバー産業見本市では、来場者が知能ロボットと「じゃんけん」ゲームを行った。
写真提供:新華社記者任鵬飛
このような問題に直面して
OpenAIの創設者兼CEOのサム・アルトマン
回避策が提案されています。
OpenAIのような企業
最終的には AI が生成したデータの使用に移行するでしょう
AI をトレーニングするための (合成データとも呼ばれます)
開発者はますます強力なテクノロジーを開発していますが、
著作権で保護されたデータへの依存も軽減されるでしょう
確かに
この技術的なパスは実現可能ですか?
まだ論争があります
『ネイ​​チャー』誌の表紙記事は次のように主張した。
大きなモデルが許可されている場合
自動生成されたデータを使用してトレーニングする
AI自体が劣化する可能性もある
わずか数世代で、オリジナルのコンテンツが
取り返しのつかないナンセンスへと繰り返される
合成データ手法に加えて
公共データのさらなるオープンな共有
も有効な手段と考えられます
産業証券報告書は次のように指摘した。
公共データのオープンな開発を強化する
データ分散に対する現在のソリューションです
学習データの品質を向上させるための重要な対策
作者:リー・フェイ、マー・ジンユアン 組版:李文健 コーディネーター:李正偉
参考丨ネイチャー、ザ・ペーパー、Financial AP通信、21世紀ビジネス・ヘラルド
光明.com が制作
出典: 世界インターネット会議
レポート/フィードバック