ニュース

重い! 「大型機種信頼性能力評価ランキング」を全国でスタート。

2024-09-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

最近、「大湾区生成人工知能セキュリティ開発共同研究室」は全国の「大規模モデル信頼性評価ランキング」を開始し、アリババ「qwen2-72b」や百度「ernie-4.0」などの有名企業がモデルをランク付けしました。がリストに載っています。
国内初のベンチマーク「人工知能セキュリティガバナンスフレームワーク」バージョン1.0評価制度
最近、国家サイバーセキュリティ標準化技術委員会は、国家サイバーセキュリティ広報週間のメインフォーラムで「人工知能セキュリティガバナンスフレームワーク」(「フレームワーク」と呼ぶ)のバージョン1.0を正式にリリースした。このフレームワークは技術文書であるだけでなく、世界的な人工知能ガバナンスの新しい実践でもあり、中国および世界中の ai テクノロジーの安全で信頼性の高い持続可能な開発のための指針を提供することを目的としています。
枠組みによれば、「大湾区生成型人工知能セキュリティ開発共同実験室」(「共同実験室」と呼ぶ)は、「包括的かつ慎重で、安全性、リスク志向、機敏なガバナンスを確保し、テクノロジーと管理を統合し、協調的対応、オープンな協力、分かち合い 「シェアード・ガバナンス」の原則と技術とガバナンスの両面での予防策に基づき、国内初となる大規模モデルの安全性・信頼性・定量的評価評価システムを研究・策定しました。 「フレームワーク」。この評価システムは、「生成型人工知能サービスの管理に関する暫定措置」と「生成型人工知能サービスのセキュリティに関する基本要件」を組み合わせたもので、「フレームワーク」のベンチマークに重点を置き、3 つの主要な方向性と 13 の側面に焦点を当てています。調整、安全性と制御性、信頼性の高い機能の各次元を分割して、モデルの生成されたコンテンツと動作の包括的な評価を行います。
国内初「大型モデルの信頼性能力評価ランキング」を発表
「共同実験室」は評価対象として国内外の最新大型モデル22台を選定し、内訳は国内モデル17機種、海外モデル5機種(ファーウェイとテンセントは「共同実験室」の共同建設主体であり、両社の機種は参加していない)によると、13 次元の評価システムは、中国語と英語の両方をサポートする 34,000 件を超える評価データセットを使用して包括的かつ客観的に評価され、最終的に「大規模モデルの信頼性能力評価」を形成しました。ランキング"。
国内大型モデルの信頼評価リスト
海外大型モデルの信頼できる評価リスト
評価の結果、国内の大型モデルは信頼性評価において上位モデル間の差が小さく、全体の13の信頼性レベル以上で10aに達していることがわかりました。全体として、国産大型モデルは、国産技術の着実な向上と政策・規制への適応性の高さを反映し、信頼性、特に価値整合性とセキュリティ管理性の点で優れた性能を発揮しています。たとえば、値の調整の 5 つの側面のうち、17 モデル中 16 モデル (94.1%) が少なくとも 4a レベルに達しましたが、5a レベルに達したモデルは 4 つだけ (23.5%) であり、さらに最適化する余地がまだあることを示しています。安全性および制御可能寸法の 4 つのサブカテゴリーのうち、3 つのモデルが 3a に達し、残りの 14 モデルが 4a に達し、82.4% を占めました。
ただし、評価結果では、特に機能信頼性の 4 つの側面において、モデルの定格範囲が 1a から 4a に達し、4a に達したモデルは 29.4% のみであることも明らかになりました。これは主にベース モデルの機能の違いが原因であり、モデル ベースの機能、一貫性、安定性にはまだ改善の余地があることを示しています。さらに、オープンソースの大規模モデル llama-3.1 と主要なクローズドソースの大規模モデルの間には、値の調整、セキュリティ、制御性などの信頼できる機能の点で依然として大きなギャップがあり、さらなる最適化が必要です。
価値観の整合性の評価結果
安全かつ制御可能な評価結果
信頼できる能力評価結果
「大湾区生成型人工知能セキュリティ開発共同研究室」のご紹介
「大湾区における生成型人工知能の安全性開発のための共同実験室」は、中国共産党広東省委員会サイバースペース事務局とファーウェイ国家インターネット緊急センター広東支部が共同で開始したもの。テンセント、中山大学、広州市委員会サイバースペース管理局、深セン市党委員会インターネット情報局、東莞市党委員会インターネット情報局、深セン環状開発局が共同で建設に参加した。 「共同研究室」は、人工知能の潜在的なリスクの評価と判断、将来を見据えた予防と抑制指導の研究、人工知能の信頼性が高く、制御可能で安全な開発のためのガバナンスパラダイムを探索し、人工知能の革新的な開発に積極的に貢献することに取り組んでいます。生成人工知能、人工知能の時代を強力にサポートする包括的なネットワーク管理システムの構築は、人工知能の「人間指向と善指向」を共同で促進し、デジタル経済のより高品質な発展を支援するよう努めます。高いレベルのセキュリティ。
nanfang.com、広東省研究レポーター、ヘ・ミンフイ
レポート/フィードバック