berat! "peringkat evaluasi kemampuan kredibilitas model besar" pertama kali dirilis secara nasional

berat! "peringkat evaluasi kemampuan kredibilitas model besar" diluncurkan secara nasional.

2024-09-29

baru-baru ini, "laboratorium gabungan pengembangan keamanan kecerdasan buatan generatif area teluk besar" meluncurkan "peringkat evaluasi kredibilitas model besar" secara nasional. sejumlah perusahaan terkenal seperti alibaba "qwen2-72b" dan baidu "ernie-4.0" memberi peringkat model. ada dalam daftar.

sistem evaluasi "kerangka tata kelola keamanan intelijen buatan" versi 1.0 yang menjadi tolok ukur domestik pertama

baru-baru ini, komite teknis standardisasi keamanan siber nasional secara resmi merilis versi 1.0 dari "kerangka tata kelola keamanan intelijen buatan" (disebut sebagai "kerangka kerja") di forum utama pekan publisitas keamanan siber nasional. kerangka kerja ini tidak hanya merupakan dokumen teknis, namun juga merupakan praktik baru tata kelola kecerdasan buatan global. kerangka kerja ini dimaksudkan untuk memberikan panduan bagi pengembangan teknologi ai yang aman, andal, dan berkelanjutan di tiongkok dan di seluruh dunia.

"laboratorium gabungan pengembangan keamanan kecerdasan buatan generatif area teluk besar" (disebut sebagai "laboratorium gabungan"), menurut kerangka kerja, "inklusif dan bijaksana, memastikan keselamatan, berorientasi risiko, tata kelola yang tangkas, mengintegrasikan teknologi dan manajemen, respons kolaboratif, kerja sama terbuka, dan berbagi berdasarkan prinsip "tata kelola bersama" dan langkah-langkah pencegahan dalam bidang teknologi dan tata kelola, kami telah meneliti dan merumuskan model sistem evaluasi keamanan, kredibilitas, dan pemeringkatan kuantitatif berskala besar pertama di negara ini yang menjadi tolok ukur terhadap "kerangka". sistem evaluasi ini menggabungkan "langkah-langkah sementara untuk pengelolaan layanan kecerdasan buatan generatif" dan "persyaratan dasar untuk keamanan layanan kecerdasan buatan generatif", dengan fokus pada pembandingan "kerangka", dengan fokus pada tiga arah utama dan 13 aspek: nilai keselarasan, keamanan dan pengendalian, serta kemampuan yang andal. bagilah dimensi menjadi penilaian komprehensif terhadap konten dan perilaku yang dihasilkan model.

yang pertama di negara ini yang merilis “peringkat evaluasi kemampuan kredibilitas model besar”

"laboratorium gabungan" memilih 22 model besar terbaru di dalam dan luar negeri sebagai objek evaluasi, termasuk 17 model dalam negeri dan 5 model asing (huawei dan tencent adalah unit konstruksi bersama "laboratorium gabungan", dan model mereka tidak berpartisipasi dalam evaluasi). menurut sistem evaluasi 13 dimensi telah dievaluasi secara komprehensif dan obyektif, dengan kumpulan data evaluasi lebih dari 34.000 data, mendukung bahasa cina dan inggris, dan akhirnya membentuk "evaluasi kemampuan kredibilitas model besar peringkat".

daftar evaluasi tepercaya model besar domestik

daftar evaluasi tepercaya model besar asing

hasil evaluasi menunjukkan bahwa model domestik besar menunjukkan daya saing yang kuat dalam evaluasi kepercayaan. kesenjangan antara model teratas di setiap dimensi kepercayaan adalah kecil, 88,2% model mencapai 10a di keseluruhan 13 dimensi kepercayaan dan di atasnya. secara keseluruhan, model-model besar dalam negeri memiliki kinerja yang luar biasa dalam hal kepercayaan, terutama dalam hal penyelarasan nilai dan pengendalian keamanan, yang mencerminkan kemajuan teknologi dalam negeri dan kemampuan beradaptasi yang tinggi terhadap kebijakan dan peraturan. misalnya, di antara lima dimensi penyelarasan nilai, 16 dari 17 model setidaknya mencapai level 4a (94,1%), namun hanya 4 model yang mencapai level 5a (23,5%), yang menunjukkan bahwa masih ada ruang untuk optimasi lebih lanjut. di antara empat subkategori dimensi keselamatan dan terkendali, 3 model mencapai 3a, dan 14 model sisanya mencapai 4a, terhitung 82,4%.

namun hasil evaluasi juga menunjukkan beberapa kekurangan, terutama pada empat dimensi keandalan kemampuan. rating model berkisar antara 1a hingga 4a, dan hanya 29,4% model yang mencapai 4a. hal ini terutama disebabkan oleh perbedaan kemampuan model dasar, yang menunjukkan bahwa masih ada ruang untuk perbaikan dalam kemampuan dasar model, konsistensi, dan stabilitas. selain itu, masih terdapat kesenjangan yang signifikan antara model besar sumber terbuka llama-3.1 dan model besar sumber tertutup terkemuka dalam hal kemampuan yang dapat dipercaya seperti penyelarasan nilai, keamanan dan pengendalian, serta memerlukan optimalisasi lebih lanjut.

hasil evaluasi penyelarasan nilai

hasil evaluasi yang aman dan terkendali

hasil penilaian kemampuan yang dapat diandalkan

pengantar "laboratorium gabungan pengembangan keamanan kecerdasan buatan generatif greater bay area"

"laboratorium bersama untuk pengembangan keamanan kecerdasan buatan generatif di greater bay area" diprakarsai bersama oleh kantor urusan dunia maya dari komite partai komunis tiongkok provinsi guangdong dan pusat darurat internet nasional huawei cabang guangdong. tencent, universitas sun yat-sen, administrasi ruang siber komite kota guangzhou, shenzhen kantor informasi internet komite partai kota, kantor informasi internet komite partai kota dongguan, dan badan pengembangan lingkaran shenzhen bersama-sama berpartisipasi dalam pembangunan. "laboratorium bersama" berkomitmen pada evaluasi dan penilaian potensi risiko kecerdasan buatan, penelitian panduan pencegahan dan pengekangan berwawasan ke depan, mengeksplorasi paradigma tata kelola untuk pengembangan kecerdasan buatan yang andal, terkendali, dan aman, secara aktif melayani pengembangan inovatif dari kecerdasan buatan. kecerdasan buatan generatif, dan sangat mendukung era kecerdasan buatan. pembangunan sistem manajemen jaringan yang komprehensif akan bersama-sama mendorong kecerdasan buatan menjadi "berorientasi pada manusia dan berorientasi pada baik", dan berupaya membantu ekonomi digital berkembang dengan kualitas yang lebih tinggi dengan kualitas yang lebih tinggi. tingkat keamanan yang tinggi.

nanfang.com, reporter studi guangdong he minhui

laporan/umpan balik

berita

berat! "peringkat evaluasi kemampuan kredibilitas model besar" diluncurkan secara nasional.

perkenalan

informasi kontak saya