ニュース

aiデータは不足、大手メーカーは安価な若者に注目

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

新しいデータを取得し、大規模な ai モデルをトレーニングするために、bytedance などの大手インターネット企業は独自に問題を解決し、コーパスをカスタマイズするための「ai レコーダー」を 1 回あたり 300 元からの価格で募集しています。

北京の大鐘寺にあるbyteのオフィスビルには、byteのdouyinビジネスチームとvolcano engineビジネスチームの本拠地があり、今年初めからdoubaoモデルを記録するアマチュアを募集している。 2人でチームを作り、1回の時間は3時間で、80分間のフリーチャットと即席の会話を含む60グループの会話が含まれ、1回の決済額は300元である。

3 時間の録音には、プロセス全体を通じて少なくとも 2 人の name 従業員が同行しました。 「会話は長すぎてはいけません。内容と情報がなければなりません。質が低すぎる場合は、適切に減額されます。」 「即時の言葉は変更できず、大きなモデルはそれを理解できません。」午後 6 時から午後 9 時まで、録音プロセス中に byte 従業員が行った指示からは、録音の品質に対する彼らの懸念がさらに明らかになりました。

キャプション: 大中寺レコーディングスタジオの内観

実際、成都、太原、貴州などの二線都市はすでにバイトダンス、百度、アリババなどの大手企業のaiデータアウトソーシング都市となっている。 「昨年、短大生はデータの注釈付けと方言の読み取りを行うことができました。現在、アウトソーシングを主導するインターンを 211 と 985 から募集しています。」と、ある大型モデルのプロダクト マネージャーは述べました。

minimaxは9月に大規模なビデオモデルを発表したばかりで、その創設者yan junjie氏はalphabetに対し、上海ではコーパス企業からの高品質データに加えて、minimaxはプラットフォームベースのデータも購入する予定であると語った。

データ、アルゴリズム、コンピューティング能力は大規模 ai モデルの 3 つの柱であり、その中でもデータは大規模モデルをトレーニングするための基盤です。しかし、インターネット データはさまざまなプラットフォームに分散し、障壁に囲まれているため、大規模な ai モデルのトレーニングに使用できる公開データが枯渇しつつあります。

6月、研究機関のepoch aiは、ai言語モデルの公的トレーニングに利用できるデータが2026年から2032年の間にテクノロジー企業によって枯渇すると予測する新たな調査結果を発表した。早くも2023年5月、openaiのceoアルトマン氏は、ai企業が近い将来、インターネット上のすべてのデータを使い果たすだろうと公に認めた。

大規模なモデルに「フィード」するための高品質の新しいデータをどのように見つけるかは、すべての大規模な ai モデル チームにとって共通の問題となっています。

一部の大企業は第三者データの不正使用の疑いで紛争を繰り返している。 openaiは8月、大規模モデルをトレーニングするために数百万本のyoutubeビデオを違法に転写したとして、100人以上のyoutubeアンカーから訴訟を起こされた。 nvidia、apple、anthropic などの大手企業も参加しています。

大規模メーカーの場合、独自のクローズドソースの高品質データを保有することによってのみ、大規模モデルへのデータフィードの適時性と品質を確保できます。品質管理が不安定なサードパーティプラットフォームを避けて、aiの「スクリプト」を個人的に書こうとするのは、大手模型メーカーにとっては新しいアプローチかもしれない。

今年の初め、1回300元のアルバイトを記録するaiが小紅書などのプラットフォームにひっそりと現れた。

boss direct employment などのプラットフォームでの ai レコーディングのアルバイトが時給 30 ~ 55 元であるのに比べ、時給 300 元のいわゆる「トップスタジオのレコーディングスタジオのアルバイト」と、北京の大鐘寺で録音された曲は非常に魅力的です。

8月に私がwechat経由で録音グループに参加したとき、アルファベットリスト(id:wjicaijing)を見ると、グループ内にはすでに200人以上が録音を待っていることがわかった。 2人のグループは最大3時間まで会話を録音できると規定されているため、グループに参加すると「パートナーを探しています」「誰か一緒に録音できますか?」などのwechatメッセージが最も多く表示されます。

実際、1回300元でaiレコーダーになって「aiのスクリプトを書く」のは簡単ではありません。

まず、録音する前に、全員が 2 ~ 3 分間の会話録音を「サンプル」としてアップロードする必要があり、byte の審査担当者はサンプルの効果に基づいてパートタイム録音ユーザーに通知するかどうかを決定します。そしてこのプロセスは 3 人の従業員によって審査され、そのうち 2 名が審査に合格した場合のみ、録画時間を直接予約できます。そうでない場合は、クロスレビューが行われます。

サンプルの 2 回目のレビューの後、zhang xue はサンプルを提出してから 2 週間後の午後 6 時から午後 9 時までの録音時間を予約しました。グループチャットでは、「レビューの先生はチャットができる人、チャットが好きな人が好きです。」という感情的な会話とテーマに沿った内容により、多くの人が選考プロセスに引っかかりました。

注: dazhong temple recording group 出典: アルファベットリストのスクリーンショット

録音の夜、張学さんは録音スタジオの透明なガラス越しに椅子に座り、音声がクリアに録音できる最適な位置に調整し、ヘッドフォンでバイト従業員の指示を聞いた。

最初のセッションは、話題のない2人のフリートーク80分間でした。 byte スタッフの要件は、チャットが「雑談」であってはならず、同時に、各トピックが 10 分を超えてはならず、比較的平坦な会話であってはなりません。

チャン・シュエさんとパートナーさんは、録音室で巨大なヘッドセットを通して、80分間休まずに会話を続けた。同時に、体が動き回ったり、咳や笑い声、その他の録音品質を損なう音を発したりしないように努める必要もあります。

音声の品質を確保するために、バイト担当者は時々ヘッドフォンを接続し、ノイズがある場合、またはチャットが「不自然でガイダンス マークが多すぎる」場合には再録音するよう促します。 -録音されました。高品質の音声の基準は、チャットが自然で、話題が継続的で、雰囲気は前向きだが急いで話さないこと、内容があり冗長ではないことです。再調整を繰り返した結果、最初のセッションには2時間近くかかった。

第 2 段階では、即発的な言葉を含む 60 セットの対話が録音されました。参考用のスクリプトはありますが、ai レコーダーとして、zhang xue は状況に応じて会話を編集するだけでなく、会話の最後のセットが a で終わり、次のセットが続くという厳密な会話パターンを保証する必要があります。のダイアログは b で始まる必要があります。

同時に、大規模なモデルのデバッグ ニーズを満たすために、各命令には「もっと詳細にできますか? もっと詳細にできますか?」というプロンプトをヘッドセットに明確に記述する必要があります。 byte スタッフも、スクリプトは変更できるが、プロンプトの言葉だけは変更できないことを明らかにしました。つまり、aiが認識するのは難しいかもしれません。

録音の品質を確保するため、録音が明瞭でない場合、言葉が飲み込まれている場合、または雰囲気が不十分な場合は、録音を再録音します。録音が終わるまでに、張雪は大中寺を出ました。もう夕方10時近くでした。 3 時間の録音セッションの場合、byte スタッフは 1 日に 3 回録音する必要があり、週のスケジュールはほぼいっぱいです。

byteは北京に加えて、すでに上海、杭州、重慶、南京、成都、天津などの都市で記録員を採用している。

新しいデータに飢えている大手模型メーカーにとって、「データを取得するためにお金を費やす」という行為は新しいものではありません。

2023年、ai大型モデルが新たなトレンドとなる中、大手メーカーはサードパーティ企業を通じてデータを直接購入するだけでなく、「ビッグデータアノテーター」や「aiエディター」などのアウトソーシング職も創設する。

2023年、マイナー言語を専攻していたアーリーンさんは、大学院入試中にbossダイレクト・リクルーティングなどのウェブサイトを通じて大型モデルの「仕事」を始めた。

アリンは、「x data」という会社を通じて、大きなモデル画像によって認識されたテキスト内容の受入検査、つまり、大きなモデル画像認識後の小さな言語テキストが画像と一致しているかどうかをチェックします。 「単語や文は 1 つの計算ボックスとしてカウントされ、各ボックスは 1 セントとしてカウントされる」という価格に従って、a 林さんは数百の項目を計算することで一度に数十元を稼ぐことができます。

今年、阿林はサードパーティデータ会社を通じて翻訳関連のaiデータアノテーションの注文も受け、価格は1個あたり1元以上に上昇した。ただし、大規模なモデルによって翻訳されたフランス語などの小規模な言語が正確であるかどうかを手動で判断するには、アノテーターは間違いを見つけるだけでなく、5〜6 つの大きなモデルの翻訳内容に異なる色を使用して注釈を付ける必要があります。モデル。 「1つの作品を見るのに10〜15分かかることもあります。」

ai で働いた後、アリンは、これらの大規模なモデルが小さな言語の元の教科書コーパスから分離されると、ソーシャル プラットフォームで使用される新しい単語や小さなグループの慣用的な単語が独自のデータベースに含まれないことにも気づき始めました。これについては、「著作権の制限により、新しいテキスト内容を学ぶことができず、翻訳効果にも影響が出ました。」

サードパーティのアウトソーシング会社に加えて、大手メーカーも独自のデータベースを構築しています。

たとえば、baidu のデータベースは、南昌、陽泉、太原、貴州などの非一線都市に分散されており、これらの都市のデータ注釈、方言読み、その他のデータの収集を完了するには、次のことを行うだけで済みます。 「コンピューターを操作できる地元の大学生を募集します。月給は通常 3,000 ~ 5,000 元です。」「美団はすでに工場に独自の ai トレーナーを置いています。」

しかし、お金を惜しまない大手メーカーに比べて、大手モデルタイガーが高品質のデータを入手するのははるかに困難です。

「コアとなるクローズドソースの高品質データは、多くの場合、大企業によって独占されてきました。ai スタートアップ企業は、たとえ ai の 4 社のタイガーであっても、限界的なデータしかアクセスできない可能性があります。」大手模型メーカーのアルゴリズムスタッフであるレオ氏はアルファベットに語った。

オープンソースの公開データに加えて、高品質のデータによってモデルのパフォーマンスが大幅に向上する可能性があるため、大規模なモデル製造業者は、テクノロジーの反復を達成するためにトレーニングを完了するための高品質のデータを必要としています。しかし、これらのデータは大企業が管理していることが多く、例えば国内のニュースデータはtencentやbyteなどの大手企業が管理していますが、海外ではcommon crawl、gdelt、the pileなどが管理しています。

海外ではユーチューブも6月末、著作権で保護された音楽をトレーニングに使用する代わりに一流レコード会社にライセンス契約を結ぶと発表した。 openai は、politico、the atlantic、time、financial times などのニュース出版社と、ニュース素材を使用および引用するための有料契約を締結しています。

主要なデータが主に tencent、byte、meta などの企業内で管理されている場合、主要なユーザー データはモバイル インターネット時代にはすでに 4 つに分割されていました。 aiタイガーはまず少額の「データ料」を支払わなければなりません。

メーカーにとって、ビッグモデル起業の後半において、「ビッグデータ幻想」は、ビッグモデルが集合的に9.11と9.9のどちらが大きいかを判断できない理由の1つでもある。

alphabet が「ラグドールの猫を腕に抱く少女」を minimax の conch ai に入力したところ、6 秒のビデオが生成されるのに 2 分かかりました。猫を抱いている少女の指は詳細が豊富でしたが、彼女は猫を抱いていました。彼女の腕の中にいるのはラグドール猫ではありません。

生成された結果を前に、minimax のビデオ モデルの従業員は、「これは、大規模モデルのトレーニングに使用されたデータに、猫を束ねる写真にラグドールの猫が含まれていないためです」と説明しました。

モデルによって生成されたコンテンツが現実世界の事実やユーザー入力と一致しない場合、つまり、大規模なモデルが幻覚を起こし、「無意味なことを話し」始めます。新規ユーザーを獲得したい大手模型メーカーにとって、その製品がサークルから抜け出すチャンスがあるかどうかは、世代効果によって明らかに決まります。

「入力されたコマンドは、8月のすべてのエンターテイメント ニュースを抽出するものでした。その結果、aiは2019年8月のエンターテイメント ニュース コンテンツを生成しました。ラージヘッドモデルの製品を使用しているときに、忠実なユーザーであるkong fangがaiを捕らえました。」 「スピーチ」の瞬間に、彼はまったく存在しない引用を編集したか、過去2年間新しい概念を理解できなかったため、コン・ファンは大きなモデルに対する信頼の危機を引き起こしました。 。

さて、kong fang は、異なるメーカーの 2 ~ 3 台の大型モデルを使用して同じ問題を同時に「実行」し、時間、数量、文書などの重要な情報を相互比較し、さらに 2 回確認します。検索エンジンを通じて、「現在、aiはカードを引くようなものを生成しており、その効果は制御できず、精神薄弱になりやすいです」とコン・ファンさんは力なく語った。

高品質のデータは徐々に枯渇する可能性があります。「大規模モデルの錯覚」の問題を解決するには、どのデータを使用して大規模モデルに「フィード」するかが明らかに重要です。

baidu に近い関係者は alphabet に対し、大手模型メーカーはサードパーティ企業を通じてデータを直接購入することになるため、時間と労力は節約できるが「簡単」ではない、と語った。完璧にコントロールされています。

bエンド顧客向けの大型ヘッドモデルを積極的に開発している企業にとって、特定の顧客向けに大型モデルをよりパーソナライズしてカスタマイズすることは、今日の大手メーカーのaiビジネスの主な収入源となっています。しかし、そのようなパーソナライズされたモデルをトレーニングしたい場合は、高い基準に従ってフィルタリングされたデータをモデルに「フィード」し、さらにはさまざまな段階で大規模なモデルの学習効果に応じてデータ需要を調整する必要があります。大量の音声を購入すれば、大きなモデルで学習できます。」

サードパーティ データ会社で ai 翻訳者として働いていた a lin 氏も、「データを提供する側として、彼女の会社は大規模モデルによって生成される音声の品質をあまり気にしていないようだ」と感じました。

フランス語、スペイン語、その他のマイナー言語を専門とするアリンの場合、当事者 a のマイナー言語の音声をテキストに翻訳するための 5 ~ 6 つの大きなモデルの生成効果を同時に比較する必要がありますが、必要なのは大まかなスコアだけです。生成された 5 ~ 6 個のテキストについて、言語の詳細な違いとその改善方法は何ですか? サードパーティ企業は質問せず、「無関心」です。

高品質なデータの欠如は、多くのユーザーが「どの大手モデルでも生成されるコンテンツはほぼ同じ」と言う理由である可能性があり、ユーザーが「一度課金したらすぐに別の大手モデルに乗り換える」根本的な理由でもあります。それ" 。

ユーザーにとって、openai に追いつき、技術的に反復を続けていると主張する国内の大型モデルは、実質的な違いを持たない可能性があり、また、製品化に熱心な大手モデルのメーカーにとっても混乱の影を落とします。 。

したがって、たとえ「ai用のスクリプトを直接書く」のは時間と労力と費用がかかるとしても、byteも新たな道を歩むことになった。製品化とユーザー獲得という重要な課題を解決するためには、多額の資金を投じて「データを買う」ことが、大手模型メーカーにとって新たな競争ポイントとなるのではないかと予想される。

(記事中のアリン、コンファン、チャン・シュエは仮名)