大手模型業界には「本物の」オープンソースがまったく存在しないのでしょうか？

2024-08-01

著者｜月曜日の笑顔
メール｜ [email protected]

オープンソースの大型モデル市場は最近非常に活発で、まず Apple が 70 億パラメータの小型モデル DCLM をオープンソース化し、その後、重量級の Meta の Llama 3.1 と Mistral Large 2 が次々とオープンソース化され、多くのベンチマークテストが行われました。クローズドソースのSOTAモデルを上回りました。

しかし、オープンソース派とクローズドソース派の間の議論は止まる気配がありません。

一方では、メタ氏はLlama 3.1のリリース後、「今、私たちはオープンソース主導の新時代を迎えている」と述べ、他方ではサム・アルトマン氏が「ワシントン・ポスト」に記事を書き、この矛盾を直接提起した。国と意識レベルに対するオープンソースとクローズドソースの間。

少し前の世界人工知能会議で、ロビン・リーは、クローズドソースモデルの方が明らかに強力で推論コストが低いため、「オープンソースは実際には一種のIQ税である」と率直に述べ、これが再び議論を引き起こした。

その後、Fu Sheng 氏も、オープンソースとクローズドソースの 2 つの陣営が互いに競争し、共に発展すると考えているとの意見を表明しました。同氏はまた、「オープンソースは実際には一種のIQ税である」という見方に反論し、「オープンソースの大規模言語モデルは無料だが、どうやってIQ税を手に入れたのか、誰が徴収しているのか?」、「もし今日の企業がIQ税を使っているとしたら、「IQ税」と呼ばれる有料のクローズドソースの大きな言語モデル、特に非常に高額なモデルライセンス料とAPI料は年間数億ドルかかり、最終的には飾りとして買い戻され、従業員ですら使用できなくなった全然（モデルたちに）。」

この議論の核心は、さまざまな利害関係者の見解や立場を反映した技術開発の方向性とモデルに関係します。大規模な言語モデルのオープンソースとクローズドソースについて話す前に、「オープンソース」という用語を明確にする必要があります。クローズドソース」。2 つの基本概念。

「オープンソース」という用語はソフトウェア分野に由来しており、ソフトウェア開発プロセス中にソースコードを公開し、誰でも閲覧、変更、配布できるようにすることを指します。オープンソースソフトウェアソフトウェアの開発は通常、相互協力とピアプロダクションの原則に従い、プロダクションモジュール、通信パイプライン、インタラクティブコミュニティの改善を促進します。代表的なものとしては、Linux や Mozilla Firefox があります。

クローズドソースソフトウェア（独自ソフトウェア）商業的またはその他の理由により、ソースコードは公開されず、コンピュータ可読プログラム (バイナリ形式など) のみが提供されます。ソースコードは開発者のみが所有および管理します。代表的なものとしてはWindowsやAndroidなどが挙げられます。

オープンソースは、オープン性、共有、コラボレーションに基づいたソフトウェア開発モデルであり、誰もがソフトウェアの開発と改善に参加することを奨励し、テクノロジーの継続的な進歩と広範な適用を促進します。

クローズドソースで開発されたソフトウェアは、安定した焦点を絞った製品である可能性が高くなりますが、クローズドソースソフトウェアには通常、コストがかかり、バグや不足している機能がある場合は、開発者が問題を修正するまで待たなければなりません。

オープンソースのビッグモデルとは何かについては、オープンソースソフトウェアのように業界で明確な合意に達していません。

大規模言語モデルのオープンソースとソフトウェアのオープンソースはコンセプトが似ており、どちらもオープン性、共有、コラボレーションに基づいており、開発と改善へのコミュニティの参加を奨励し、技術の進歩を促進し、透明性を向上させます。

ただし、実装と要件には大きな違いがあります。

ソフトウェアオープンソースは主にアプリケーションとツールを対象としており、オープンソースの方がリソース要件は低くなりますが、大規模な言語モデルのオープンソースには大量のコンピューティングリソースと高品質のデータが含まれるため、使用上の制限が増える場合があります。したがって、どちらのオープンソースもイノベーションとテクノロジーの普及を促進することを目的としていますが、大規模言語モデルのオープンソースはより複雑な問題に直面しており、コミュニティへの貢献の形式も異なります。

ロビン・リー氏はまた、オープンソース・モデルはオープンソース・コードを意味するものではないと強調し、「オープンソース・モデルは大量のパラメータしか取得できず、SFT（教師あり微調整）とセキュリティ調整を行う必要がある。「対応するソースコードを入手しても、それを入手することはできません。」これらのパラメータをトレーニングするためにどれだけのデータがどのくらいの割合で使用されたかを知っていても、誰もが火に油を注ぐことができるわけではありません。巨人の肩の上に立ち、反復的に発展すること。」

大規模な言語モデルのフルプロセスのオープンソースには、データ収集、モデル設計、トレーニングからデプロイメントまで、モデル開発のプロセス全体がオープンかつ透過的に行われることが含まれます。このアプローチには、データセットとモデルアーキテクチャの開示が含まれるだけでなく、トレーニングプロセスのコード共有と事前トレーニングされたモデルの重みのリリースも含まれます。

過去 1 年間で大規模な言語モデルの数が大幅に増加し、その多くがオープンソースであると主張していますが、実際にはどの程度オープンなのでしょうか?

オランダのラドボウド大学の人工知能研究者であるアンドレアス・リーゼンフェルド氏と計算言語学者のマーク・ディンゲマンセ氏も、「オープンソース」という用語は広く使用されているものの、多くのモデルはせいぜい「オープンウェイト」にすぎず、その他のほとんどのことはオープンソースであることを発見しました。システム構築すべての側面が隠蔽されます。

たとえば、Meta や Microsoft などのテクノロジーは、大規模な言語モデルを「オープンソース」として販売していますが、基礎となるテクノロジーに関連する重要な情報を開示していません。彼らが驚いたのは、リソースが少ない AI 企業や機関のパフォーマンスがさらに賞賛に値するということでした。

研究チームは、一連の人気のある「オープンソース」大規模言語モデルプロジェクトを分析し、コード、データ、重み、API、ドキュメントなどの複数の側面から実際のオープン性を評価しました。この調査では、OpenAI の ChatGPT をクローズドソースの参照点として使用し、「オープンソース」プロジェクトの本当の状態を浮き彫りにしました。

✔ は開いていること、~ は部分的に開いていること、X は閉じていることを意味します

このランキングによると、Allen Institute for AI の OLMo が最もオープンソースモデルであり、次に BigScience の BloomZ が続き、どちらも非営利団体によって開発されています。

論文では、MetaのLlamaとGoogle DeepMindのGemmaはオープンソースまたはオープンであると主張しているが、実際には単なるオープンウェイトにすぎず、外部の研究者は事前トレーニングされたモデルにアクセスして使用することはできるが、モデルを検査したりカスタマイズしたりすることはできず、その方法も分からないと述べている。モデルは特定のタスクを対象としており、微調整を行います。

最近リリースされた LLaMA 3 と Mistral Large 2 は多くの注目を集めています。モデルのオープン性の観点から、LLaMA 3 はモデルの重みを公開しており、ユーザーはこれらの事前トレーニングおよび命令の微調整されたモデルの重みにアクセスして使用できます。さらに、Meta はモデルの事前トレーニングと命令の微調整のためのいくつかの基本コードも提供します。ただし、完全なトレーニングコードは提供されておらず、LLaMA 3 のトレーニングデータは公開されていません。しかし今回、LMeta は LLaMA 3.1 405B に関する 93 ページの技術レポートを提出しました。

Mistral Large 2 も同様の状況で、モデルの重みと API に関しては高度なオープン性を維持していますが、完全なコードとトレーニングデータに関してはオープン性が低く、商業的利益とオープン性のバランスをとる戦略を採用しています。商用利用を制限した上で研究利用を許可します。

Googleは、同社がモデルを説明する際に「非常に正確な言葉遣い」をしており、Gemmaをオープンソースではなくオープンと呼んでいると述べた。「既存のオープンソースの概念が必ずしも AI システムに直接適用できるわけではありません。」

この研究の重要な背景は EU の人工知能法です。この法が発効すると、オープンとして分類されるモデルに対してより緩やかな規制が課されるため、オープンソースに関する定義がより重要になる可能性があります。

研究者らによると、革新する唯一の方法はモデルを微調整することだが、そのためには独自のバージョンを構築するのに十分な情報が必要だという。それだけでなく、モデルを精査する必要があります。たとえば、モデルが多数のテストサンプルでトレーニングされている場合、特定のテストに合格することは成果ではない可能性があります。

また、非常に多くのオープンソース代替手段の出現にも彼らは喜んでおり、ChatGPT は非常に人気があるため、そのトレーニングデータやその他の舞台裏のトリックについて何も忘れてしまいがちです。これは、オープンソースの代替手段によって重要な基礎研究が可能になる一方で、モデルをより深く理解したい、またはモデルに基づいてアプリケーションを構築したいと考えている人にとっては落とし穴です。

Silicon Star は、いくつかの国内オープンソース大規模言語モデルのオープンソース状況に関する統計も作成しました。

この表から、海外の状況と同様に、より徹底したオープンソースモデルは基本的に研究機関が主導していることがわかります。これは主に、研究機関の目的が科学研究の進歩と産業の発展を促進することであり、それよりも重要であるためです。研究結果を公開する傾向があります。

営利企業はリソースの優位性を利用して、より強力なモデルを開発し、適切なオープンソース戦略を通じて競争で優位性を獲得します。

GPT-3 から BERT に至るまで、オープンソースは大規模モデルのエコシステムに重要な推進力をもたらしました。

そのアーキテクチャとトレーニング方法を公開することで、研究者や開発者はこれらの基盤をさらに探索および改善し、より最先端のテクノロジーやアプリケーションにつながることができます。

オープンソースの大規模モデルの出現により、開発者や中小企業はモデルをゼロから構築することなく、これらの高度な AI テクノロジーを利用できるようになり、時間とリソースを大幅に節約できます。これにより、より革新的なプロジェクトや製品を迅速に実装できるようになり、業界全体の発展が促進されます。開発者はオープンソースプラットフォーム上で最適化手法や適用事例を積極的に共有しており、これにより技術の成熟と応用も促進されます。

教育と科学研究にとって、オープンソースの大規模言語モデルは貴重なリソースを提供します。これらのモデルを学習して使用することで、学生や初心者の開発者は高度な AI テクノロジを迅速に習得し、学習曲線を短縮し、業界に新しい血液をもたらすことができます。

ただし、大規模な言語モデルのオープン性は、単純な二値特性ではありません。 Transformer ベースのシステムアーキテクチャとそのトレーニングプロセスは非常に複雑で、オープンまたはクローズとして単純に分類するのは困難です。オープンソースのビッグモデルは単純なラベルではなく、完全なオープンソースから部分的なオープンソースまで、程度はさまざまですが、スペクトルのようなものです。

大規模な言語モデルのオープンソースは複雑で細心の注意を要する作業であり、すべてのモデルをオープンソースにする必要はありません。

また、「道徳的誘拐」の形で完全なオープンソースを要求すべきではありません。これには多くのテクノロジー、リソース、セキュリティに関する考慮事項が含まれ、オープン性とセキュリティ、イノベーションと責任の間のバランスが必要となるからです。テクノロジーの他の側面と同様に、多様な貢献方法により、より豊かなテクノロジーエコシステムが構築されます。

オープンソースモデルとクローズドソースモデルの関係は、ソフトウェア業界におけるオープンソースソフトウェアとクローズドソースソフトウェアの共存に例えることができます。

オープンソースモデルは技術の広範な普及と革新を促進し、研究者や企業により多くの可能性を提供します。一方、クローズドソースモデルは業界全体の標準の向上を促進します。両者の健全な競争は継続的な改善を促し、ユーザーに多様な選択肢を提供します。

オープンソースとプロプライエタリソフトウェアが共同して今日のソフトウェアエコシステムを形成したのと同じように、オープンソースとクローズドソースの大規模モデルの間には二項対立はありません。この 2 つの共存は、AI テクノロジーを継続的に進歩させ、さまざまなアプリケーションシナリオのニーズを満たすための重要な原動力となります。最終的には、ユーザーと市場が自分に合った選択をすることになります。

ニュース

大手模型業界には「本物の」オープンソースがまったく存在しないのでしょうか？

導入

私の連絡先情報