2024-09-30
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
ソース丨chuangyebang (id: ichuangyebang)
著者丨ジュニー
編集者 | ハイヤオ
画像ソース丨bloomberg
サンフランシスコのショープレイス・プラザでは、かつてairbnbが所有していた商業ビルが最近新しい所有者を迎えた。ほとんどのテクノロジー企業が事業を縮小している中、1995 年以降に生まれた中国人によって設立された人工知能データ アノテーション会社 scale ai は、サンフランシスコのダウンタウンにある約 180,000 平方フィートのオフィスを無償で借りました。
少し前に、scale ai は最新の 10 億米ドルの資金調達ラウンドを完了し、評価額は 138 億米ドルとなり、前回のラウンドの 73 億米ドルから 2 倍になりました。シリコンバレーのトップファンド、accel が率いるこの f 資金調達ラウンドでは、yc や nvidia などの既存の投資家に加えて、amazon、meta、amd、qualcomm、cisco、intel、クアルコムなど、最大 22 機関が参加。
これらの大手企業の scale ai への投資の出発点はほとんど似ており、基本的には scale ai の顧客です。 ai の急速な発展に伴い、一見単純で退屈、労働集約的で敷居の低いビジネスであるデータ ラベリングが、scale ai によって段階的に大きなビジネスに変わってきました。
ai「ブルーカラーファクトリー」
過去一定期間において、「ai がシャベルを売る」ということになると、間違いなく nvidia が最もよく取り上げられる企業です。しかし、多くの人が知らないのは、scale ai も同じ役割を果たしているということです。周知のとおり、人工知能の 3 つの柱は、コンピューティング能力、アルゴリズム、データであり、nvidia は ai コンピューティング能力の頂点を占めており、scale ai は現在、ai のデータ サポートを提供する主要なサービス プロバイダーです。
scale ai は 2016 年に設立されました。その創設者は 1997 年生まれの中国人アレクサンドル ワンです。彼は会社を設立したときわずか 19 歳で、mit の 1 年生を終えたばかりでした。 scale は設立当時、主に人工知能データのアノテーションに焦点を当てていました。その中核となるビジネスは、企業が機械学習モデルをトレーニングして最適化するために、大規模な高品質データの収集、クリーニング、注釈付け、管理を支援することです。
実際、scale ai が台頭するまで、データ アノテーションは ai の分野で長い間「周辺的」な位置にありました。いわゆるデータ アノテーションとは、機械学習モデルがこれらのデータを理解して学習できるように、画像、テキスト、ビデオ、オーディオなどの生データに構造化情報を追加するプロセスを指します。複雑そうですか?しかし、実際には、これは小学生でもできることです。たとえば、写真を渡して、写真の中の歩行者、車両、建物などにマークを付けてもらい、テキストを渡します。どの感嘆符とどの質問が質問であるかをマークするように求めます。あなたの声の一部には、感情や話者の身元などをタグ付けできます。
出典: シャイプ
原理は単純ですが、これらのアノテーション付きデータは人工知能の開発には欠かせません。 aiモデルが認識・分類・予測などの機能を持たせるためには、学習用に大量のアノテーション付きデータが必要になります。
しかし、多くの ai 企業にとって頭の痛い問題は、一部の自動化ツールによって注釈プロセスの一部を高速化できるものの、高品質で高精度の注釈データを取得するには、処理、ラベル付け、および注釈の作成に依然として大量の手作業が必要であることです。データを検証します。特に、医療画像処理、自動運転、軍事用途など、高精度が要求される分野では、誤ったラベル付けが重大な結果につながる可能性があります。このため、データの注釈付けは労働集約的なビジネスとみなされており、多くの企業はそれを自社で管理することに消極的であり、そのためのエネルギーも持たず、その結果、注釈付きデータを取得するプロセスに時間と費用がかかります。
スケール ai はこの「大変な作業」を引き継ぎました。 scale ai の初期の位置づけは、自動化テクノロジーと人間によるレビューを組み合わせて効率的かつ正確なラベル付けプラットフォームを作成し、企業が大規模なデータセットを迅速に処理してラベル付けできるようにすることです。そのビジネス モデルは非常にシンプルです。ラベル付けのニーズがある企業に連絡し、データの簡単な前処理とクリーニングを行った後、データのラベル付けをアフリカや東南アジアなどの労働者に委託します。
2017 年、scale ai は社内アウトソーシング代理店として remotasks を設立し、ケニア、フィリピン、ベネズエラなどに数十の機関を設立し、世界中で数千人のデータ アノテーターの仕事のほとんどを訓練しました。契約社員の多くは時給 1 ドルにも満たない。このような「グローバル工場」モデルの下では、scale aiの粗利益率は長期間にわたって65%を超える可能性がある。
あらゆるチャンスを狙う
データアノテーションは敷居が低いビジネスのように見えますが、2016年頃の「aiサイレント期間」では市場ではほぼ空白の状態でした。独自のデータアノテーション部門を持っていたのはgoogleやamazonなど一部の大企業のみでした。 scale ai の成功は主に、この機会に対する正確な洞察と、過去 10 年間の人工知能業界の発展におけるいくつかのトレンドを捉える能力によるものです。
一つ目は自動運転です。 scale ai の設立から数か月後、彼らは自動運転の分野におけるデータ アノテーションに対する大規模かつ厳格な需要を発見しました。自動運転技術の開発は、道路風景、歩行者、その他の物体の画像データなど、大量の高精度のアノテーション データに依存しています。自動車会社は、アルゴリズムのトレーニングと検証のために、アノテーション用に数万時間のビデオ データを必要とします。自動運転全体について 業界の観点から見ると、当時のデータ アノテーションの 90% 以上は主に手動でした。 scale ai は、効率的なデータ アノテーション プラットフォームを使用し、モデル支援アノテーションとデータ前処理を使用してデータ処理プロセスを高速化することで、アノテーションのコストと時間を大幅に削減し、当時脚光を浴びていた waymo や cruise などの企業を魅了しました。が顧客となり、徐々に自動運転データアノテーションの分野での足がかりを獲得していきます。
画像出典:スケールai
スケール ai は、当初自動運転の分野で成功を収めた後、aiaas (サービスとしての ai) 市場に本格的に参入し始めています。単純なデータのラベル付けからデータ サービスまでを拡張し、データのラベル付けと管理、モデルのトレーニングと評価から ai アプリケーションの開発と展開に至るフルプロセス ソリューションを提供します。
さらに、一部の業界におけるデータ不足の課題に対処するために、scale ai は下流の合成データの生成にも拡張し、既存のデータから新しいデータセットを作成することでモデルのトレーニングを支援します。そのため、その後の数年間で、scale ai はデータ分野で急速に台頭し、その顧客は医療、国防、電子商取引、政府サービスなどの分野に拡大しました。設立から 2 年以上が経過し、scale ai の収益は 5,000 万ドルに近づいています。
スケール ai も、生成 ai の爆発的な普及の機会を正確に捉えました。 gpt-2 の早い段階で、scale は openai を使用して人間のフィードバックによる強化学習に関する最初の共同実験を実施し、その後、これらのテクノロジーを instructgpt やその他の分野に拡張しました。生成 ai モデルは、生成されるコンテンツの精度と多様性を向上させるために大量のトレーニング データを必要とするため、大規模な言語モデルの爆発的な成長により、データ アノテーション、データ合成などを統合した高品質のアノテーション付きデータに対する業界の需要が大幅に促進されました。サービスは、生成 ai に必要なデータ サポートを提供します。さらに、scale ai は、企業がカスタマイズされた api を迅速に生成して、モデルを独自にトレーニングする複雑さとコストを軽減するのにも役立ちます。
画像出典:スケールai
生成 ai に関して、scale は、開発者ツール プラットフォーム scale spellbook、合成データ製品 scale synthetic、エンタープライズ レベルの genai プラットフォームなどを含むフルプロセス プラットフォーム サービスを開始しました。目標は、企業があらゆるシナリオで十分なデータを保持できるようにすることです。データ分野での独自の利点を備えた scale ai は、openai、meta、aws、nvidia などの大手企業だけでなく、cohere や adept などの新興ユニコーン企業も含め、過去 2 年間で顧客が急増しました。そして彼らの多くは、今回の資金調達ラウンドで scale ai への投資家にもなりました。
scale ai がブレイクスルーしている理由
スケール ai の台頭に関して、多くの人は、このような上流の労働集約型産業において、中国にはなぜ同様の企業が存在しないのか疑問に思っています。一般的に、この背景には 2 つの主な要因があります。1 つは業界、もう 1 つは資金調達です。
生成aiブームの前、国内の人工知能開発はかつてシーンアプリケーションで先行していましたが、実際にはデータアノテーションビジネスは非常に早くから開発され始めましたが、大規模なものにはなりませんでした。多くの大手企業はデータ アノテーション部門を設立していますが、データをさまざまな業界のリソースと照合することを目指すのではなく、主に自社のビジネスに貢献しています。同時に、まさに国内の人口ボーナスのおかげで、ラベル付きデータを取得するコストは低く、企業にはテクノロジープラットフォームを採用するインセンティブがありません。長い間、国内のデータ アノテーション業界の価格は非常に透明であり、時給は一般に 10 ~ 25 人民元程度であり、そのほとんどが学歴を必要としないことが知られています。
出典:上司直属
それに比べて、米国の人件費は高く、linkedin、indeed、その他のプラットフォームでは、データによって示されるほとんどのパートタイムの時給は 30 ドルから 200 ドルの間です。このため、企業は客観的に技術的な観点から解決策を考える必要があります。データ作成の問題、または関連サービスの調達の観点。
資金調達環境の観点から見ると、国内のデータアノテーション市場はai分野における資金調達において常に最先端にあります。調査によると、2021 年頃には中国のデータ アノテーション市場全体の規模はわずか 43 億元に過ぎず、2022 年には 51 億元までしか成長しないと予想されています。この数字は、ai 市場全体の数兆規模に比べれば特筆すべきものではないことは間違いなく、データ アノテーション企業の資金調達困難も引き起こしています。 2021年にscale aiが3億2,500万米ドルのシリーズe資金調達を完了し、その評価額が73億米ドルに達したとき、中国の同様のスタートアップのほとんどはまだシリーズaラウンドに残っている。
これまで国内規模が小さかったのは、単純に表示面だけを考えていたからです。実際、データ管理、データ評価、データ注釈から派生したデータ合成などのフルプロセス データ サービスが、この業界の付加価値部分です。
大規模な言語モデルの開発におけるデータの重要性について、scale aiの創設者であるalex wang氏は最近のインタビューで、人々はインターネット上のすべてのデータを使い果たしており、gpt-4.5よりも強力な人工知能を開発したいと考えていると述べました。その場合、最先端のデータを構築する必要があります。いわゆる「最先端のデータ」とは、アプリケーションのシナリオに密接に関連し、最新の傾向や変化をタイムリーに反映できるデータを指します。これには、多くの場合、ロングテールまたはまれなシナリオが含まれており、これは、アプリケーションのシナリオに役立ちます。非典型的な状況における ai のパフォーマンスを向上させ、人工知能を促進する。インテリジェント機能の境界は、複雑な推論やマルチモダリティなどの方向に発展しています。
ai が深く発展するにつれて、将来のデータ トレーニングは特定のタスクや特定のアプリケーション シナリオにさらに適合する必要があります。そのため、より多くの新しい差別化されたデータをマイニングして生成することも必要です。これが、scale ai の現在のラウンド数が 10 億の理由です。米ドル資金調達後の取り組みの焦点は、データ アノテーションの想像力の限界をさらに広げました。