schwer! „large model credibility ability evaluation ranking“ wird erstmals landesweit veröffentlicht

schwer! das „large model credibility capability evaluation ranking“ wird landesweit eingeführt.

2024-09-29

vor kurzem hat das „greater bay area generative artificial intelligence security development joint laboratory“ landesweit das „large model credibility evaluation ranking“ gestartet. eine reihe bekannter unternehmen wie alibaba „qwen2-72b“ und baidu „ernie-4.0“ bewerteten modelle stehen auf der liste.

das erste inländische benchmarking-bewertungssystem „artificial intelligence security governance framework“, version 1.0

kürzlich hat das national cybersecurity standardization technical committee auf dem hauptforum der national cybersecurity publicity week offiziell version 1.0 des „artificial intelligence security governance framework“ (im folgenden als „framework“ bezeichnet) veröffentlicht. dieses rahmenwerk ist nicht nur ein technisches dokument, sondern auch eine neue praxis für die globale steuerung künstlicher intelligenz. es soll leitlinien für die sichere, zuverlässige und nachhaltige entwicklung der ki-technologie in china und auf der ganzen welt bieten.

das „greater bay area generative artificial intelligence security development joint laboratory“ (als „joint laboratory“ bezeichnet) ist laut rahmenwerk „inklusiv und umsichtig, gewährleistet sicherheit, risikoorientierte, agile governance und integriert technologie und management. kollaborative reaktion, offene zusammenarbeit und austausch. basierend auf dem prinzip der „shared governance“ und präventiven maßnahmen sowohl in der technologie als auch in der governance haben wir das erste groß angelegte modellsystem für sicherheit, glaubwürdigkeit und quantitative bewertung des landes erforscht und formuliert, das sich an dem orientiert "rahmen". dieses bewertungssystem kombiniert die „vorläufigen maßnahmen für das management generativer künstlicher intelligenzdienste“ und die „grundanforderungen an die sicherheit generativer künstlicher intelligenzdienste“ und konzentriert sich auf das benchmarking des „rahmens“, wobei der schwerpunkt auf drei hauptrichtungen und 13 aspekten liegt: wert ausrichtung, sicherheit und steuerbarkeit sowie zuverlässige fähigkeiten. unterteilen sie die dimensionen in eine umfassende bewertung des generierten inhalts und verhaltens des modells.

das erste unternehmen im land, das das „large model credibility capability evaluation ranking“ veröffentlicht hat.

das „gemeinsame labor“ wählte 22 der neuesten großmodelle im in- und ausland als bewertungsobjekte aus, darunter 17 inländische modelle und 5 ausländische modelle (huawei und tencent sind die gemeinsamen baueinheiten des „gemeinsamen labors“, und ihre modelle nehmen nicht teil in der bewertung). laut das 13-dimensionale bewertungssystem wurde umfassend und objektiv bewertet, mit einem bewertungsdatensatz von mehr als 34.000 daten, der sowohl chinesische als auch englische sprachen unterstützt, und bildete schließlich die „bewertung der glaubwürdigkeitsfähigkeit eines großen modells“. rang".

vertrauenswürdige bewertungsliste für inländische großmodelle

vertrauenswürdige bewertungsliste ausländischer großmodelle

die bewertungsergebnisse zeigen, dass große inländische modelle eine starke wettbewerbsfähigkeit in der vertrauenswürdigkeitsbewertung aufweisen. 88,2 % der modelle erreichten in den insgesamt 13 vertrauenswürdigkeitsdimensionen ein niveau von 10a. insgesamt schneiden inländische großmodelle in puncto vertrauenswürdigkeit hervorragend ab, insbesondere in bezug auf werteausrichtung und sicherheitskontrollierbarkeit, was die stetige verbesserung der inländischen technologie und ihre hohe anpassungsfähigkeit an richtlinien und vorschriften widerspiegelt. beispielsweise erreichten von den fünf dimensionen der werteausrichtung 16 von 17 modellen mindestens das 4a-niveau (94,1 %), aber nur 4 modelle erreichten das 5a-niveau (23,5 %), was darauf hindeutet, dass noch raum für weitere optimierung besteht. von den vier unterkategorien der sicherheits- und kontrolldimension erreichten drei modelle 3a und die restlichen 14 erreichten 4a, was 82,4 % entspricht.

allerdings zeigten die bewertungsergebnisse auch einige defizite, insbesondere in den vier dimensionen der leistungszuverlässigkeit, die modellbewertungen lagen zwischen 1a und 4a, wobei nur 29,4 % der modelle 4a erreichten. dies wird hauptsächlich durch unterschiede in den fähigkeiten des basismodells verursacht, was darauf hindeutet, dass es noch raum für verbesserungen bei den fähigkeiten, konsistenz und stabilität der modellbasis gibt. darüber hinaus besteht in bezug auf vertrauenswürdige funktionen wie wertausrichtung, sicherheit und kontrollierbarkeit immer noch eine erhebliche lücke zwischen dem open-source-großmodell llama-3.1 und dem führenden closed-source-großmodell und muss weiter optimiert werden.

ergebnisse der wertausrichtungsbewertung

sichere und kontrollierbare auswertungsergebnisse

zuverlässige ergebnisse zur leistungsbeurteilung

einführung in das „greater bay area generative artificial intelligence security development joint laboratory“

das „gemeinsame labor für die sicherheitsentwicklung generativer künstlicher intelligenz in der greater bay area“ wird gemeinsam vom büro für cyberspace-angelegenheiten des guangdong-provinzkomitees der kommunistischen partei chinas und der guangdong-zweigstelle des nationalen internet-notfallzentrums huawei initiiert. tencent, die sun yat-sen-universität, die cyberspace-verwaltung des stadtkomitees von guangzhou, shenzhen. das internetinformationsbüro des stadtparteikomitees, das internetinformationsbüro des stadtparteikomitees von dongguan und die shenzhen loop development agency waren gemeinsam am bau beteiligt. das „gemeinsame labor“ widmet sich der bewertung und beurteilung potenzieller risiken künstlicher intelligenz, der zukunftsweisenden präventions- und zurückhaltungsberatungsforschung, der erforschung von governance-paradigmen für die zuverlässige, kontrollierbare und sichere entwicklung künstlicher intelligenz und der aktiven unterstützung der innovativen entwicklung von generative künstliche intelligenz und eine starke unterstützung des zeitalters der künstlichen intelligenz. der aufbau eines umfassenden netzwerkmanagementsystems wird gemeinsam dazu beitragen, dass künstliche intelligenz „menschenorientiert und gut orientiert“ ist und dazu beitragen soll, dass sich die digitale wirtschaft qualitativ hochwertiger entwickelt ein hohes maß an sicherheit.

nanfang.com, guangdong-studienreporter he minhui

bericht/feedback

nachricht

schwer! das „large model credibility capability evaluation ranking“ wird landesweit eingeführt.

einführung

meine kontaktdaten