pesante! la "classifica di valutazione delle capacità di credibilità dei modelli di grandi dimensioni" viene pubblicata per la prima volta a livello nazionale

pesante! la "classifica di valutazione della capacità di credibilità del modello di grandi dimensioni" viene lanciata a livello nazionale.

2024-09-29

recentemente, il "laboratorio congiunto per lo sviluppo della sicurezza dell'intelligenza artificiale generativa della greater bay area" ha lanciato la "classifica di valutazione della credibilità dei modelli di grandi dimensioni" a livello nazionale. numerose aziende famose come alibaba "qwen2-72b" e baidu "ernie-4.0" hanno classificato i modelli. sono sulla lista.

il primo sistema di valutazione della versione 1.0 del benchmarking nazionale "artificial intelligence security governance framework".

recentemente, il comitato tecnico nazionale per la standardizzazione della sicurezza informatica ha rilasciato ufficialmente la versione 1.0 del "quadro di governance della sicurezza dell'intelligenza artificiale" (denominato "framework") nel forum principale della settimana pubblicitaria nazionale sulla sicurezza informatica. questo quadro non è solo un documento tecnico, ma anche una nuova pratica per la governance globale dell’intelligenza artificiale. ha lo scopo di fornire una guida per lo sviluppo sicuro, affidabile e sostenibile della tecnologia ai in cina e nel mondo.

il "laboratorio congiunto per lo sviluppo della sicurezza dell'intelligenza artificiale generativa della greater bay area" (denominato "laboratorio congiunto"), secondo il framework, "è inclusivo e prudente, garantisce sicurezza, governance agile, orientata al rischio, integrando tecnologia e gestione, risposta collaborativa, cooperazione aperta e condivisione basandosi sul principio di "governance condivisa" e su misure preventive sia nella tecnologia che nella governance, abbiamo ricercato e formulato il primo modello su larga scala del paese di sicurezza, credibilità e sistema di valutazione quantitativa del rating che si confronta con il "struttura". questo sistema di valutazione combina le “misure provvisorie per la gestione dei servizi di intelligenza artificiale generativa” e i “requisiti di base per la sicurezza dei servizi di intelligenza artificiale generativa”, concentrandosi sul benchmarking del “framework”, concentrandosi su tre direzioni principali e 13 aspetti: valore allineamento, sicurezza, controllabilità e capacità affidabili. dividere le dimensioni in una valutazione completa del contenuto e del comportamento generati dal modello.

il primo nel paese a pubblicare la “classifica di valutazione della capacità di credibilità del modello di grandi dimensioni”

il "laboratorio congiunto" ha selezionato 22 degli ultimi grandi modelli in patria e all'estero come oggetti di valutazione, inclusi 17 modelli nazionali e 5 modelli stranieri (huawei e tencent sono le unità di costruzione congiunte del "laboratorio congiunto" e i loro modelli non partecipano nella valutazione). secondo il sistema di valutazione tridimensionale è stato valutato in modo completo e oggettivo, con un set di dati di valutazione di oltre 34.000 dati, supportando sia la lingua cinese che quella inglese, e infine ha formato il "grande modello di valutazione della capacità di credibilità". classifica".

elenco di valutazione attendibile del modello nazionale di grandi dimensioni

elenco di valutazione affidabile di grandi modelli stranieri

i risultati della valutazione mostrano che i grandi modelli nazionali mostrano una forte competitività nella valutazione dell’affidabilità. il divario tra i migliori modelli in ciascuna dimensione dell’affidabilità è piccolo e l’88,2% dei modelli ha raggiunto il livello 10a nelle 13 dimensioni dell’affidabilità complessive. nel complesso, i grandi modelli nazionali ottengono risultati eccezionali in termini di affidabilità, soprattutto in termini di allineamento dei valori e controllabilità della sicurezza, riflettendo il costante miglioramento della tecnologia nazionale e la loro elevata adattabilità alle politiche e alle normative. ad esempio, tra le cinque dimensioni dell’allineamento dei valori, 16 modelli su 17 hanno raggiunto almeno il livello 4a (94,1%), ma solo 4 modelli hanno raggiunto il livello 5a (23,5%), indicando che c’è ancora spazio per un’ulteriore ottimizzazione. tra le quattro sottocategorie della dimensione sicurezza e controllabilità, 3 modelli hanno raggiunto il 3a, mentre i restanti 14 hanno raggiunto il 4a, pari all'82,4%.

tuttavia, i risultati della valutazione hanno rivelato anche alcune carenze, soprattutto nelle quattro dimensioni dell’affidabilità della capacità, che variavano da 1a a 4a, con solo il 29,4% dei modelli che raggiungevano 4a. ciò è causato principalmente dalle differenze nelle capacità del modello di base, che indicano che c'è ancora spazio per miglioramenti nelle capacità, nella coerenza e nella stabilità del modello di base. inoltre, esiste ancora un divario significativo tra il modello di grandi dimensioni open source llama-3.1 e il modello di grandi dimensioni closed source leader in termini di capacità affidabili come allineamento dei valori, sicurezza e controllabilità, e necessita di ulteriore ottimizzazione.

risultati della valutazione dell'allineamento dei valori

risultati della valutazione sicuri e controllabili

risultati affidabili della valutazione delle capacità

introduzione al "laboratorio congiunto per lo sviluppo della sicurezza dell'intelligenza artificiale generativa della greater bay area"

il "laboratorio congiunto per lo sviluppo della sicurezza dell'intelligenza artificiale generativa nella greater bay area" è stato avviato congiuntamente dall'ufficio per gli affari del cyberspazio del comitato provinciale del guangdong del partito comunista cinese e dalla filiale del guangdong del centro nazionale di emergenza internet huawei. tencent, università sun yat-sen, amministrazione del cyberspazio del comitato municipale di guangzhou, shenzhen l'ufficio informazioni internet del comitato municipale del partito, l'ufficio informazioni internet del comitato municipale del partito di dongguan e l'agenzia per lo sviluppo del circuito di shenzhen hanno partecipato congiuntamente alla costruzione. il "laboratorio congiunto" è impegnato nella valutazione e nel giudizio dei potenziali rischi dell'intelligenza artificiale, nella ricerca lungimirante sulla prevenzione e sulla moderazione, esplorando paradigmi di governance per lo sviluppo affidabile, controllabile e sicuro dell'intelligenza artificiale, servendo attivamente lo sviluppo innovativo di intelligenza artificiale generativa e un forte sostegno all'era dell'intelligenza artificiale. la costruzione di un sistema completo di gestione della rete promuoverà congiuntamente l'intelligenza artificiale affinché sia "orientata alle persone e al bene" e si sforzerà di aiutare l'economia digitale a svilupparsi con una qualità superiore. un elevato livello di sicurezza.

nanfang.com, giornalista dello studio del guangdong he minhui

segnalazione/feedback

notizia

pesante! la "classifica di valutazione della capacità di credibilità del modello di grandi dimensioni" viene lanciata a livello nazionale.

introduzione

le mie informazioni di contatto