nouvelles

lourd! le « classement d'évaluation de la capacité de crédibilité des grands modèles » est lancé à l'échelle nationale.

2024-09-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

récemment, le « laboratoire commun de développement de la sécurité de l'intelligence artificielle générative de la région de la grande baie » a lancé le « classement d'évaluation de la crédibilité des grands modèles » à l'échelle nationale. un certain nombre d'entreprises bien connues telles que alibaba « qwen2-72b » et baidu « ernie-4.0 » ont classé les modèles. sont sur la liste.
le premier système d'évaluation national de référence « artificial intelligence security governance framework » version 1.0
récemment, le comité technique national de normalisation de la cybersécurité a officiellement publié la version 1.0 du « cadre de gouvernance de la sécurité de l'intelligence artificielle » (appelé « cadre ») lors du forum principal de la semaine nationale de publicité sur la cybersécurité. ce cadre n'est pas seulement un document technique, mais aussi une nouvelle pratique pour la gouvernance mondiale de l'intelligence artificielle. il vise à fournir des orientations pour le développement sûr, fiable et durable de la technologie de l'ia en chine et dans le monde.
le « laboratoire commun de développement de la sécurité de l'intelligence artificielle générative de la région de la grande baie » (appelé « laboratoire commun »), selon le cadre, « est inclusif et prudent, garantissant la sécurité, une gouvernance agile et axée sur les risques, intégrant la technologie et la gestion, réponse collaborative, coopération ouverte et partage. basé sur le principe de « gouvernance partagée » et de mesures préventives en matière de technologie et de gouvernance, nous avons recherché et formulé le premier modèle à grande échelle de sécurité, de crédibilité et de système d'évaluation quantitative du pays qui se compare aux "cadre". ce système d'évaluation combine les « mesures provisoires pour la gestion des services d'intelligence artificielle générative » et les « exigences de base pour la sécurité des services d'intelligence artificielle générative », en se concentrant sur l'analyse comparative du « cadre », en se concentrant sur trois directions principales et 13 aspects : valeur l’alignement, la sécurité, la contrôlabilité et les capacités fiables. divisez les dimensions en une évaluation complète du contenu et du comportement générés par le modèle.
le premier du pays à publier le « classement d’évaluation de la capacité de crédibilité des grands modèles »
le « laboratoire commun » a sélectionné 22 des derniers grands modèles nationaux et étrangers comme objets d'évaluation, dont 17 modèles nationaux et 5 modèles étrangers (huawei et tencent sont les unités de construction conjointes du « laboratoire commun », et leurs modèles ne participent pas dans l'évaluation). selon le système d'évaluation en 13 dimensions a été évalué de manière exhaustive et objective, avec un ensemble de données d'évaluation de plus de 34 000 éléments de données, prenant en charge les langues chinoise et anglaise, et a finalement formé « l'évaluation de la capacité de crédibilité des grands modèles ». classement".
liste d'évaluation fiable des grands modèles nationaux
liste d'évaluation fiable des grands modèles étrangers
les résultats de l'évaluation montrent que les grands modèles nationaux font preuve d'une forte compétitivité dans l'évaluation de la fiabilité. l'écart entre les meilleurs modèles dans chaque dimension de fiabilité est faible, 88,2 % des modèles ont atteint le niveau 10a dans l'ensemble des 13 dimensions de fiabilité. dans l’ensemble, les grands modèles nationaux se comportent de manière remarquable en termes de fiabilité, notamment en termes d’alignement des valeurs et de contrôlabilité de la sécurité, ce qui reflète l’amélioration constante de la technologie nationale et leur grande adaptabilité aux politiques et réglementations. par exemple, parmi les cinq dimensions de l'alignement des valeurs, 16 des 17 modèles ont atteint au moins le niveau 4a (94,1 %), mais seulement 4 modèles ont atteint le niveau 5a (23,5 %), ce qui indique qu'il reste encore de la place pour une optimisation plus poussée. parmi les quatre sous-catégories de la dimension sécurité et contrôlable, 3 modèles ont atteint 3a et les 14 autres ont atteint 4a, soit 82,4 %.
cependant, les résultats de l'évaluation ont également révélé certaines lacunes, notamment dans les quatre dimensions de la fiabilité des capacités, les notes des modèles variaient de 1a à 4a, avec seulement 29,4 % des modèles atteignant 4a. cela est principalement dû aux différences dans les capacités du modèle de base, ce qui indique qu'il existe encore des possibilités d'amélioration des capacités, de la cohérence et de la stabilité du modèle de base. en outre, il existe encore un écart important entre le grand modèle open source llama-3.1 et le principal grand modèle fermé en termes de capacités fiables telles que l'alignement des valeurs, la sécurité et la contrôlabilité, et nécessite une optimisation supplémentaire.
résultats de l’évaluation de l’alignement des valeurs
résultats d’évaluation sûrs et contrôlables
résultats fiables de l’évaluation des capacités
introduction au « laboratoire commun de développement de la sécurité de l'intelligence artificielle générative de la région de la grande baie »
le « laboratoire conjoint pour le développement de la sécurité de l'intelligence artificielle générative dans la région de la grande baie » est lancé conjointement par le bureau des affaires du cyberespace du comité provincial du guangdong du parti communiste chinois et la branche du guangdong du centre national d'urgence internet huawei. tencent, l'université sun yat-sen, l'administration du cyberespace du comité municipal de guangzhou, shenzhen le bureau d'information internet du comité municipal du parti, le bureau d'information internet du comité municipal du parti de dongguan et l'agence de développement de la boucle de shenzhen ont participé conjointement à la construction. le « laboratoire commun » s'engage dans l'évaluation et le jugement des risques potentiels de l'intelligence artificielle, la recherche prospective d'orientation en matière de prévention et de contention, l'exploration de paradigmes de gouvernance pour le développement fiable, contrôlable et sûr de l'intelligence artificielle, servant activement le développement innovant de intelligence artificielle générative et soutenir fortement l'ère de l'intelligence artificielle. la construction d'un système complet de gestion de réseau promouvra conjointement que l'intelligence artificielle soit « orientée vers les personnes et orientée vers le bien », et s'efforcera d'aider l'économie numérique à se développer avec une meilleure qualité avec un haut niveau de sécurité.
nanfang.com, journaliste de l'étude du guangdong he minhui
rapport/commentaires