ニュース

aiを使って科学を変えるにはどうすればよいでしょうか?

2024-09-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

テキスト | 白い鳩

編集者|王逸秀

「科学のための ai の基礎となるロジックは、大規模な言語モデルの現在のトレーニング ロジックとは異なります。」と、shenzhen technology のテクニカル ディレクターである lu jintan 氏は、科学研究および大規模言語モデルの応用分野における人工知能の現在のロジックとは異なると率直に述べました。他の業界の言語モデルは同じではありません。

大規模な言語モデルのトレーニングは、高品質のデータを「フィード」することに依存していることは、業界ではよく知られています。データが多ければ多いほど、大規模な言語モデルの能力は強化されます。ただし、科学研究の一部の特定の分野では、データの量が比較的不足しています。たとえば、特定の種類のタンパク質構造では、数百の高品質な実験データを取得するのに数年かかる場合があります。

これは、科学研究の分野で ai を適用すると、より良いモデル効果を達成するために比較的少ないデータしか必要としないことも意味します。

では、ai は正確に科学をどのように変えるのでしょうか?そして、ビジネスモデルをどのように実行するか? shenzhen technology は、ai for science の代表的な企業の 1 つとして、独自の考え方とソリューションを提供してきました。

従来の科学計算では、構造情報を通じて分子や原子の物理的特性を予測したい場合、通常、実際的な問題と組み合わせて微視的な計算を実行する必要があります。現在、業界はこのクロススケール コンピューティング機能の実現がまだ不足しており、経験的な判断と実験による検証に依存しています。

同時に、コンピューティング システムの規模の拡大に伴い、従来の科学計算の計算量は指数関数的に増加し、計算が従来の物理学に完全に依存している場合、原子スケール システムの数万、さらには数億に達することもあります。モデルを使用すると、全体の計算時間が長くなり、サイクルが非常に長くなる可能性があります。

「shenzhen technology は、物理モデルの精度に近い計算結果をモデルに生成させることができると同時に、計算​​パフォーマンスを大幅に向上させることができます。」と lu jintan 氏は述べています。以前は大量の計算が必要でしたが、処理が高速化されます。」

画像認識を例にとると、その中心となるのは、畳み込みニューラル ネットワークを導入することで画像のピクセル情報を分析し、画像内の局所的な特徴を抽出し、元の画像をさまざまな特徴マップに分解し、特徴による近似解を実行することです。これは実際には次元削減分析です。

実際、ai は科学分野における次元削減アプリケーションでもあり、特にクロススケール計算を含む初期段階では、強力なモデリング機能を通じて計算の複雑さを軽減します。同時に、マルチモーダル大規模モデル機能に基づいて、分子構造、物性、実験データなどのさまざまな種類のデータの多次元解析と予測も実現できます。

例えば、創薬プロセスでは、通常、まずタンパク質の構造と標的点を解析し、次に標的点に対して親和性の高い候補化合物を数十万、さらには数百万の化合物ライブラリーからスクリーニングする必要があります。通常、親和性分析、医薬品の化学的特性 (毒性、吸収、代謝など) の予測および評価を含む多次元評価が実行されます。

「科学用 ai の分野では、クロススケール計算をサポートする大規模モデルの鍵は、その巨大なパラメーター スケールと強力な一般化機能にあります。モデルの膨大な数のパラメーターにより、複雑な物理的、化学的、生物学的現象を捉えることができます。 「基本モデルは、その微細構造に基づいて薬剤の関連する特性を予測でき、モデルを転送することで材料の分野にも適用でき、材料の微細構造を分析することで予測することができます。」さまざまな温度と圧力下での材料の安定性とその他の物理的状態。」

したがって、shenzhen technology が科学用 ai における基本的な一般モデルを理解しているのは、このモデルをさまざまな産業分野に適用して微調整を通じて問題を解決できる一連の基本的な事前トレーニング モデルを持っていることにあります。

shenzhen technology が現在研究しているいくつかの基本モデルは、限られたデータ トレーニングでも良好な結果を得ることができ、得られた高品質のデータに基づいてさらに最適化および修正することができます。このモデル システムでは、ai 自体が基本的な科学原理を学習し、少量のドメイン データを使用した追加トレーニングを通じてすでに良好な結果を達成できますが、これは大規模な言語モデルとは若干異なります。

lu jintan 氏は light cone intelligence に次のように語りました。小規模なデータセットに基づいてより効果的です。」

過去 2 年間で、深センテクノロジーは、dpa 分子シミュレーション モデル、uni-mol 3d 分子構造モデル、uni-fold タンパク質折り畳みモデル、uni-rna 核酸構造モデル、uni-fold などの一連の大規模産業モデルの立ち上げにも成功しました。 -高性能薬物分子ドッキングエンジン、uni-smart科学文献マルチモーダル大規模言語モデルなどをドッキング。

lu jintan 氏によると、shenzhen technology は現在、材料と医薬品の分野で数百のモデルを保有しており、これらのモデルは shenzhen technology の製品プラットフォームにもうまく統合されています。同時に、深センテクノロジーは業界の大手製薬会社数十社と戦略的提携に達し、2023年には商業化のブレークスルーを達成し、収益は1億を超える予定です。

現在、shenzhen technology の事業は大学でのスマート教育、生物医学の研究開発、新しい電池材料をカバーしています。

ただし、科学向け ai の現在のアルゴリズム分類によると、全体的な開発はまだ実験精度に近い l2 段階にあり、モデル計算を使用して人間を支援し、ストレスを軽減します。

l3 段階では、ai が直接結果を与えることができ、シナリオによっては人体実験を直接置き換えることもできます。

l2 から l3 に移行したい場合、「主な困難は、各リンクの精度が一定の高さに達する必要があることです。同時に、各リンクのアルゴリズムをどのように統合するかも大きな課題です。」言った。

未来に向けて、lu jintan 氏は、教育や科学研究、生物医学、電池材料のいずれであっても、科学向け ai の市場空間は十分に大きく、少なくとも実験レベルでは、ai の追加によって実際に多くの根本的な問題を解決できると考えています。 、産業、フロンティア探索などにより、より多くのアイデアとエントリーポイントが提供されます。

以下は、guangcone intelligence と shenzhen technology のテクニカル ディレクターである lu jintan との詳細な会話です (guangcone intelligence によって削除および編集されています)。

深センのテクノロジーはaiを活用しています

科学研究開発の品質と効率の向上

q: 大規模モデルは自然言語処理、ビデオ、画像生成を変えましたが、科学はどのように変化しましたか?

a:大規模言語モデルは、文献情報、特許情報などの分野で使用され始めており、この分野では、より専門的な複合情報をマイニングするために使用することもできます。画像やチャートの解釈など、いくつかのマルチモーダル アプリケーションも実行します。

従来の科学技術コンピューティングでは、ミクロ スケールからマクロ スケールまでの問題が頻繁に発生しますが、問題を解決するためにさまざまな物理モデルが使用されますが、一部のクロススケール コンピューティング シナリオではその機能がまだ不足しています。たとえば、原子の構造情報を通じて分子の巨視的特性を予測したい場合は、さまざまなスケールでモデル化する能力が必要です。

人工知能には大規模なモデルが含まれており、これらの物理モデルを学習して特定の問題に適用することで、クロススケール モデリングを実現できます。

通常、数万、さらには数億の原子を含むシステムで大規模なスループットの計算を実行する必要があります。計算が物理モデルに基づいている場合、時間が比較的長くなります。 shenshi technology がここで行っているのは、モデルが物理モデルの精度に近い計算結果を生成できるようにすると同時に、コンピューティングのパフォーマンスを大幅に向上させることです。

q: 数億個の原子のシステム規模の計算を大規模モデルの計算に変換するにはどうすればよいですか? 計算量の目安はどれくらいですか?

a:顕微鏡スケールでは、古典力学や量子力学の方程式などの物理モデルを通じて 2 つの原子間の相互作用を解析し、原子間の相互作用力や運動軌跡を計算できます。このとき、計算は2つの原子の相互影響を考慮するだけでよく、問題は比較的簡単です。ただし、系内の原子の数が増加すると、状況はさらに複雑になります。たとえば、3 番目の原子を導入する場合、各原子間のペア相互作用を考慮することに加えて、3 つの間の多体効果も解析する必要があります。このとき、原子間の相互作用や軌道は2つの原子に依存するだけでなく、系全体の状態によって共同で決定され、計算量は非線形に増加します。科学者は、さまざまなスケールでの計算を効率的に処理するために、密度汎関数理論や分子動力学シミュレーションなどの近似アルゴリズムを導入することがよくあります。

私たちの ai が初期に行っていたことは、実際には ai を使用してこれらの物理方程式を当てはめ、コンピューティングのパフォーマンスを向上させることでした。画像認識と比較することができます。その核心は、畳み込みニューラル ネットワークを追加した後、画像を特徴画像に分割し、実際には次元削減手法を実行することです。科学技術コンピューティングの分野における人工知能の初期に私たちが行ったことは、次元削減アクション、つまり、以前は大量の計算が必要だったものを高速化するアクションとみなすこともできます。

q: 従来の ai の計算方法と大規模モデルの出現の違いは何ですか?

a:大規模モデルの定義は比較的曖昧であり、パラメータの数が多いほど計算量が増加することが一般的に指標として使用されます。私たちにとっては、マルチスケールの計算を提供することが重要です。当社の現在の事前トレーニング モデルである uni-mol は、分子と原子の 3 次元構造に基づいており、関連する物理的特性を予測し、構造と活性の関係を確立し、それらを直接解決します。これまでは、予測は実験に依存することが多かったです。経験。この手法は、異なるスケールでの計算を組み合わせ、材料科学などの分野に新しい計算手法を提供します。

大規模なモデルを扱うときは、通常、モデルの汎化機能に重点を置きます。科学のための ai の分野では、これは比較的一般的です。たとえば、基本モデルは微細構造に基づいていくつかの薬物関連の特性を予測できますが、このモデルを移行すると、懸念される特性は薬効ではなく、その特性である可能性があります。したがって、ai for science における基本的な一般モデルについての私たちの理解は、基本的な事前トレーニング モデルのセットであり、微調整を通じて問題を解決するためにさまざまな産業分野に適用できます。

q: マルチモダリティの主な役割は何ですか?

a:分子構造、物性、実験データなどのさまざまなデータを組み合わせて総合的に解析します。例えば、創薬プロセスでは、通常、まずタンパク質の構造と標的点を解析し、次にスクリーニングプロセス中に数十万、さらには数百万の化合物ライブラリーから標的点との親和性が高い化合物を選別する必要があります。 , このプロセスには、親和性分析、薬効分析、毒性があるかどうか、人体への吸収に有益であるかどうかなどが含まれる場合があり、多次元の分析となる場合があります。したがって、より優れたスクリーニング効果を得たい場合は、複数の角度と特性から分析する必要があります。

写真やビデオなどの一般的なマルチモーダル問題は、文書データ マイニングにおけるマルチモーダル アプリケーションに近いかもしれません。たとえば、論文では、論文内のテキスト情報だけでなく、画像情報も読み取る必要があります。 、画像情報は詳細なマイニングを実行し、テキスト情報と統合して、最終的に結果を出力する必要があります。文献では、この一般的なマルチモーダル機能も適用しています。

q: 科学用 ai の分野におけるモデル データの需要はどのくらいですか?

a:もちろん分野が違えば多ければ多いほど良いという問題もあります。例えば、バイオ医療分野と電池分野の細分化されたアプリケーションでは、データ取得の難易度が異なりますが、研究開発や検証サイクルが長い業界では、データ出力が相対的に小さくなり、データの絶対量が制限されます。 。たとえば、特定の種類のタンパク質構造については、数年間で数百件しかレコードが存在しない可能性がありますが、他の分野ではデータは間違いなくそれを超えています。

ただし、基本的な物理モデルでは、より多くのデータを生成できます。現在研究中のいくつかの基本モデルは、限られたデータ トレーニングでも良好な結果を得ることができ、将来的には取得されるより高品質なデータに基づいて最適化および修正することができます。私たちのモデル システムでは、ai 自体に基本的な科学原理を学習させ、少量のドメイン データを使用した追加トレーニングを通じてすでに良好な結果を達成できますが、これは大規模な言語モデルとは若干異なります。

q: ai に基本的な科学ロジックを学習させて、特定の応用問題を解決させるにはどうすればよいですか?

a:一般に、一部の物理モデルは計算を直接実行するために使用され、その後、結果のデータがトレーニングされてから、物理モデルがシミュレーションされます。

q:基本大型モデルと各縦型大型モデルの関係は何ですか?基本的な大規模モデルを自分でトレーニングする必要がありますか、それともサードパーティのオープンソースの大規模モデルを使用する必要がありますか?

a:シナリオが異なれば、大規模な言語モデルを参照する場合は、論文解釈などの文書解釈でよく使用されます。基本的なアプリケーションは単一の論文を解釈することです。コストを考慮して、論文の解釈を支援するためにいくつかの一般的な大きなモデルが使用されます。複数の論文を解釈したい場合、または特許検索や分析を含む大規模な論文ライブラリ内の全体的な検索を実行したい場合は、独自に開発した文​​献モデルを使用して論文のより詳細な解釈を行います。

したがって、どのモデルが当社の製品に適しているかは、今後も検討中です。また、コストを考慮して選択することもあります。

現在、私たちは多くのモデルを事前トレーニング モデルと呼んでいます。たとえば、私たちが昨年リリースした dpa は、異なる元素の原子間のポテンシャル関数を計算するための一連の事前トレーニング モデルです。また、いくつかの openlam 大原子モデル プロジェクトも立ち上げました。オープンソースの力を結集するために、私たちは貢献してデータを共有し、モデルをより成熟させるようにトレーニングすることができます。

q: shenzhen technology には現在何種類のモデルがありますか?

a:現在、材料と医療の分野を合わせた数百のモデルがあります。

数十の製薬会社と提携し、収益は1億を超えた

深センテクノロジーのビジネスモデル

q: ai医療分野におけるshenzhen technologyの最新の研究開発の進捗状況を教えてください。

a:実際、医療分野では、現在、前臨床研究に注力しており、早期の標的発見やタンパク質構造解析から、標的解析、分子スクリーニング、親和性解析、特性予測など、ほぼすべての前臨床コンピューティングシナリオをカバーしています。この一連のリンクにはそのような計算方法が多数含まれており、アルゴリズムを実装しました。

医療シナリオと組み合わせて、これらすべてのアルゴリズムを 1 つの製品にパッケージ化したものが当社の医薬品設計プラットフォーム hermite です。現在、主に 3 つの側面を含む国内の上位 50 の製薬会社と協力しています。 、1つはcro(臨床研究機関)、もう1つはファーマ(製薬会社)であり、それぞれ代表会社が存在します。

先週、当社はインフルエンザ治療薬オセルタミビルを製造する国内上場企業イースタン・サンシャイン社と協力協定を締結したばかりであり、米国で3つの第一級認証を取得したばかりである。今後も目標に向けて協力していく。関連事業に協力します。

東光陽光のような生物医学分野の代表的な企業に加えて、実際には西中国医科学大学、襄雅病院、医科大学など、医薬品の研究開発に従事する多くの科学研究機関や大学とも協力しています。

q: 現在の製品は実際にブラウザを使用して直接使用でき、全体的な展開も非常に軽量です。すべてのコア製品の展開方法はこのようなものですか?

はい、オンラインで実行するほとんどのトレーニング作業はオフラインで完了するため、転送されるデータの量はそれほど多くありません。また、トレーニング シナリオの量も少なくなります。事前トレーニングされたモデルの微調整も、小さなデータバッチで実行でき、データ送信の負荷も小さいです。軽量の展開は、十分なコンピューティング能力を使用しないことを意味するものではありません。システムはシステムの背後でハイブリッド クラウドと hpc コンピューティング能力を使用しますが、ユーザーはブラウザー アクセスとしてパッケージ化されています。一部の民営化シナリオの場合は、その背後にコンピューティング パワー システムを展開する必要もありますが、これは saas では必要ありません。

一般的に言えば、大企業は民営化される必要がある。これらはデータプライバシーに対する特に高い要件があるため、教育や一部の研究機関に似たいくつかのシナリオでは、民営化された展開を必要とせずに特定のトピックのために一時的に使用される場合があります。

q: 現在の協力企業との実際のプロジェクトの進捗状況はどうですか?具体的にはどの段階ですか?

a:製薬会社との協力は主に計算過程において行われており、当社は医薬品の製造を行っていないため、製薬会社の医薬品開発プロセスには関与しておりません。

私たちは基本的にフルリンクロードを行っており、製薬会社のニーズに合わせて、より多くの企業に共同でサービスを提供できるよう、ハードウェアの研究開発に重点を置いた自動化された研究室にソフトウェアを統合するなど、いくつかの新しい分野や探求にも取り組んでいます。まだかなり大きいです。

収益に関しては、昨年の収益は 1 億を超えました。

製薬会社との提携には、ソフトウェアの販売と共同研究開発の2つのビジネスモデルがあります。

多くの大企業は現地に展開し、自社のチームをサポートする余裕があり、ソフトウェアの購入をサポートする十分な資金を持っていますが、中には高度な生産ツールやそれに対応する人材を欠いている中規模または新興の革新的な製薬会社も含まれます。これらのツールを使用する場合、当社はデータと情報セキュリティに関わるため、当社との共同開発を支援できます。そのため、両者の統合は特に緊密です。

しかし、多くの大手製薬会社は十分な資金と人材を持っており、saas を提供しながらカスタマイズされたサービスも提供できることを期待しているほどです。

科学のための ai の未来

q: 現在のアルゴリズムの分類をいくつか見たことがありますが、それらは自動運転の 5 つの分類に非常に似ています。l2 段階ではどのような状態に到達できますか?以前の実験モデルをどの程度置き換えることができますか?特定のシナリオの例を挙げていただけますか?

a:l2 シナリオでは、これを実験の精度に近づけ、人間を支援し、実験のプレッシャーを軽減する、より人間指向のコンピューティングと呼びます。薬剤設計ではシステムごとに大きな違いがあるため、一部のシステムでは実験に近い精度を達成することができました。したがって、ユーザーが実験をまったく行う必要がないわけではありませんが、分子スクリーニングなど、ユーザーが数十万の薬物化合物を選別するのに役立つ可能性があります。残りは科学研究者が実験的検証を行う必要があり、実験の規模は大幅に縮小されます。

q: l2 から l3 に移行する際の困難は何ですか?

a:この l3 についての私の理解は、ai は直接結果を与えることができるというもので、これは特定のシナリオで人体実験を直接置き換えることに相当します。 l3 に到達することの難しさは、主に、各リンクの精度が一定のレベルに達する必要があることにあります。さらに、多くのアルゴリズムが関与しており、さまざまなアルゴリズムの統合も困難です。アルゴリズムの統合は実際には完全なワークフロー システムに似ており、このシステムは継続的に見直して最適化することができます。

q: 過去から現在に至るまで、テクノロジー全体に反復はありますか?また、現行モデルの開発にボトルネックはあるのでしょうか?

a:現在、私たちはデータに基づいてさまざまなアルゴリズムを反復しており、特にユーザーがよく使用する製品では、アルゴリズムの反復が第 1 世代から第 2 世代にアップグレードされています。第 1 世代は単一フィールドでの事前トレーニングをサポートし、第 2 世代は異なるアノテーション方法を使用したデータセットに基づいて同時に並列トレーニングを実行できるということです。

科学技術コンピューティングの分野では、主にデータに起因するボトルネックがあり、データ ソースが普及しておらず、公開されているデータ セットも多くありません。そのため、現在私たちの仕事の大部分は、モデルのトレーニング効果をいかに向上させるかということです。小規模なデータセットに基づいています。

さらに、もう 1 つ注意すべきことは、解釈可能性の問題です。科学技術計算の要件はより厳しく、解釈可能性の要件もより高いため、現在、パラメーターを公開することでモデルの解釈可能性を強化しようとしています。翻訳パスなどの性別。

q: データ不足の問題を解決するにはどうすればよいですか?

a:ai for scienceの分野では、材料分野でも医療分野でも、最も基本的なミクロレベルの物理原理は同じであるため、一部の材料分野のデータをそのまま医療分野で再利用できるというメリットがあります。たとえば、dpa 2 は、さまざまな標準システムで提供されるデータに基づくことができ、ユーザーが統一モデルをトレーニングするのに役立ちます。この一連のモデルを特に業界に適用すると、微調整に少量のデータを使用できます。

私たちはまだ toc 市場には関与していませんが、私たちのシステムはすでにいくつかの教育シナリオをカバーしています。当社は、教育、研究、応用を統合した科学研究プラットフォームを持っており、現在の主な顧客は大学と、より消費者志向の一部のユーザーです。大学向けにも同様の教員向け実践研修プラットフォームを用意し、学生の授業受講から利用、さらには研究成果の実践までをサポートします。

q:ai for science の将来の市場展開スペースは何ですか?

a:マーケットスペースは十分大きいと思います。科学研究、医学、材料のいずれであっても、ai の追加は、少なくとも実験レベルでは実際に問題を解決し、科学研究者が実験結果を改善し、実験の負担を軽減するのに役立ちます。

全体的な顧客の受け入れという点では、多くのシナリオで当社のコストの一部はユーザーの教育にあります。たとえば、医薬品の分野では、検証サイクル全体を通じて顧客に同行する必要があるため、顧客との長期的な協力関係を確立します。 。

それに比べて材料分野は非常に早いですし、例えば電池の研究開発サイクルもaiで予測できれば準備検証だけで済みます。

国家レベルでは、科学技術省は中国自然科学財団と協力して、al for science の特別展開活動を開始しました。これはまた、社会経済レベルから国のマクロ政策に至るまで誰もが楽観的であり、これが将来の方向性であることを強く支持していることを示しています。

q: ai for science はまだ初期段階にありますが、今後 3 年間でどのような段階に発展するのでしょうか?

a:この点については、少なくともお客様全員が統一した理解を持っていると思います。今では誰もがaiを積極的に取り入れ始めており、aiに対する理解もより高いレベルに達しています。どの業界も、この言葉に馴染みがなかったり、反発したりすることはなく、比較的前向きな姿勢を持つでしょう。次のステップは、お客様との共創に近い協力関係をいかに築くかということです。結局のところ、この業界はデータセンシティブな業界です。 3 年後には、お客様が実用的な実装シナリオを考案できるようにしたいと考えています。

実際、価値の点をもっと明確に考えることができれば、顧客の受け入れは依然としてかなり高いと思います。製薬会社であれ、先ほど述べた新エネルギーであれ、一般的に誰もがイノベーションへの投資にますます注目しているからです。また、科学研究インフラや上位レベルのシナリオを含む科学研究パラダイム全体の革新を支援し、科学研究プラットフォームを通じてそれらを結びつけ、さまざまな業界に力を与えたいと考えています。