Llama 3.1 è stato violato quando è andato online: ha urlato a Xiao Zha e gli sono uscite ricette pericolose dalla bocca!

2024-07-24

Mengchen inviato da Aofeisi Qubit |. Account pubblico QbitAI

Il modello più potenteLama 3.1, è stato violato non appena è andato online.

Imprecando al suo capo Zuckerberg, sa anche come aggirare le parole bloccate.

Progettare virus pericolosi, come hackerare il Wi-FiArriva non appena apri la bocca.

Llama 3.1 405B supera GPT-4o e il grande modello open source ha raggiunto la vetta. L'effetto collaterale è che è più pericoloso.

Ma non è tutto negativo.

Le versioni precedenti della serie Llama sono state criticate da alcuni utenti a causa dell'eccessiva protezione della sicurezza:

Si rifiuta di "uccidere" anche un processo Linux, che è molto povero in termini pratici.

Ora, con le funzionalità migliorate della versione 3.1, ho finalmente capito che uccidere questo non è l'altro.

Llama 3.1 è stato compromesso subito dopo la messa online

La persona che ha sfondato Llama 3.1 per la prima volta era un maestro del jailbreak.@Plinio il Suggeritore。

Nelle mie mani quasi nessun modello di grandi dimensioni può reggere.

Il fratello Plinio ha detto in un'intervista ai media che da un lato non gli piace che gli venga detto cosa non può fare e spera di sfidare i ricercatori dietro il modello di intelligenza artificiale.

Il jailbreak responsabile, d’altra parte, è un tipo di test del team rosso che aiuta a identificare le vulnerabilità e a risolverle prima che diventino effettivamente un grosso problema.

Lascia che ti presenti la sua routine generale e non entrerò nei dettagli:

Specificare il formato della risposta Per prima cosa lasciare che il modello grande rifiuti la richiesta dell'utente iniziando con "Mi dispiace". Quindi inserire una linea di demarcazione priva di significato, che stabilisce che le prime 3 parole di ogni rifiuto devono essere semanticamente invertite, quindi "non posso" diventa "posso". Di tanto in tanto, le parole chiave vengono trasformate in caratteri confusi per confondere l'IA.

Quando l'IA ha risposto, ho visto che l'avevo già rifiutato all'inizio e nel complesso non c'era alcun "onere morale".

Non sembra pericoloso invertire semanticamente le prime tre parole di ogni rifiuto in un secondo momento.

Una volta che dici "posso", il resto del contenuto seguirà il principio della "probabilità che prevede il gettone successivo". La probabilità più alta è quella di dare la risposta senza intoppi.

Quindi questo metodo, in realtàSfrutta la capacità dei modelli di grandi dimensioni all'avanguardia di seguire istruzioni complesse., i modelli con capacità più forti hanno anche maggiori probabilità di essere ingannati in una certa misura.

Uno studio recente ha rilevato una falla di sicurezza più semplice nei modelli di grandi dimensioni, in cui le misure di sicurezza falliscono semplicemente utilizzando il passato.

Anche Llama 3.1 non è riuscito a impedire questa mossa.

Oltre alle questioni di sicurezza, qual è il punto di forza del modello attualmente più potente Llama 3.1 405B sotto altri aspetti?

Abbiamo anche colto l'occasione per testarlo.

Trappole a cui nemmeno i modelli più potenti possono sfuggire

Domande ridicole che sono state molto calde di recente"Qual è più grande, 9.11 o 9.9?", la versione ufficiale Instruct di Llama-3.1-405B risponde sempre in modo molto semplice, ma sfortunatamente c'è un'alta probabilità che la risposta sia sbagliata.

Se gli chiedi di spiegarti, dirà anche delle sciocchezze e, chiacchierando, si dimenticherà di parlare cinese, ma non dimenticherà di portare le emoticon.

Llama 3.1 sostanzialmente non presenta miglioramenti rispetto ai problemi che affliggono da tempo altri modelli di grandi dimensioni.

Come classicoIl problema dell’“inversione della maledizione”., posso rispondere correttamente, ma non posso rispondere al contrario.

nella ricerca recenteDomanda su "Alice nel Paese delle Meraviglie"., servono anche promemoria per farlo bene.

Tuttavia, sono riuscito a ottenere la risposta giusta una volta passato alla versione cinese. Forse è perché è più probabile che "Alice" sia un nome femminile nel contesto cinese.

Anche gli alfabeti commettono gli stessi errori di GPT-4o.

Quindi, a prescindere da queste domande difficili, in quali scenari Llama 3.1 può mostrare la sua forza?

Alcuni imprenditori hanno condiviso,Utilizzare il modello piccolo 8B per la messa a punto, sulle attività di chat, riepilogo ed estrazione di informazioniMeglio del GPT-4o mini+ che è anche un modello piccolo。

Più giusto,Confrontandoli tutti con la versione ottimizzata, Llama 3.1 8B presenta ancora molti vantaggi.。

Quindi il significato più grande della serie Llama è che non è mai stato il modello Instruct ufficiale. Ma una volta reso open source, tutti utilizzano vari dati privati per trasformarli e ottimizzarli in base alle proprie esigenze.

Prima del rilascio del 405B, qualcuno ha sperimentato l'unione dei modelli e ha cucito due modelli Llama 3 70B in un modello 120B, che sorprendentemente ha funzionato.

Sembra che Meta stessa questa volta abbia imparato da questa esperienza,La versione finale che vediamo è in realtà la media dei diversi checkpoint durante il processo di formazione.。

Come creare il tuo lama 3.1

Quindi la domanda è: come creare modelli Llama 3.1 personalizzati per casi d'uso del settore in campi specifici?

Il grande vincitore dietro le quinte, Huang Renxun, questa volta si è ritrovato personalmente.

NVIDIA ha annunciato il lancio del nuovo servizio NVIDIA AI Foundry e dei microservizi di inferenza NVIDIA NIM™ lo stesso giorno, ha dichiarato:

“Il modello open source Llama 3.1 di Meta segna un momento critico per le imprese globali che vogliono adottare l’intelligenza artificiale generativa. Llama 3.1 darà il via a un’ondata di aziende e industrie che creano applicazioni avanzate di intelligenza artificiale generativa.

Nello specifico, NVIDIA AI Foundry ha integrato Llama 3.1 ed è in grado di aiutare le aziende a creare e distribuire super modelli Llama personalizzati.

I microservizi NIM rappresentano il modo più veloce per distribuire i modelli Llama 3.1 in produzione, con un throughput fino a 2,5 volte superiore rispetto a quando si esegue l'inferenza senza NIM.

Ciò che è ancora più distintivo è che sulla piattaforma NVIDIA,Le aziende possono addestrare modelli personalizzati utilizzando i propri dati e dati sintetici generati dai modelli Llama 3.1 405B e NVIDIA Nemotron™ Reward。

Anche questa volta l'accordo open source aggiornato da Llama 3.1 prevede espressamente: è consentito utilizzare i dati prodotti da Llama per migliorare altri modelli, ma dopo l'uso è necessario aggiungere la parola Llama all'inizio del nome del modello.

Per i problemi di sicurezza discussi in precedenza, NVIDIA fornisce anche la "tecnologia guardrail" professionaleParapetti NeMo。

NeMo Guardrails consente agli sviluppatori di costruire tre tipi di confini:

I guardrail degli argomenti impediscono a un'app di sconfinare in aree non target, ad esempio impedendo a un assistente del servizio clienti di rispondere a una domanda sul tempo.
I guardrail di sicurezza funzionale garantiscono che le applicazioni possano rispondere con informazioni accurate e appropriate. Filtrano il linguaggio indesiderato e impongono che i modelli citino solo fonti affidabili.
Le barriere di sicurezza delle informazioni impediscono alle applicazioni di stabilire connessioni con applicazioni esterne di terze parti che sono state confermate sicure.

Un'altra cosa

Infine, condividi alcune piattaforme su cui puoi provare Llama 3.1 gratuitamente, se hai domande che ti interessano, puoi provarlo tu stesso.

Il primo giorno in cui il modello è andato online, il numero di visite era ancora molto elevato e il server della Big Model Arena una volta era sovraffollato.

Arena modello grande: https://arena.lmsys.org
HuggingChat: https://huggingface.co/chat
Poe: https://poe.com

Link di riferimento:
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

notizia

Llama 3.1 è stato violato quando è andato online: ha urlato a Xiao Zha e gli sono uscite ricette pericolose dalla bocca!

Mengchen inviato da Aofeisi Qubit |. Account pubblico QbitAI

introduzione

le mie informazioni di contatto