Llama 3.1 a été piraté lors de sa mise en ligne : il a crié après Xiao Zha et des recettes dangereuses sont sorties de sa bouche !

Llama 3.1 a été violé lors de sa mise en ligne : il a crié après Xiao Zha et des recettes dangereuses sont sorties de sa bouche !

2024-07-24

Mengchen envoyé depuis Aofeisi Qubit | Compte public QbitAI

Le modèle le plus puissantLama 3.1, il a été violé dès sa mise en ligne.

Injurier son patron Zuckerberg, sait même comment contourner les mots bloqués.

Concevoir des virus dangereux, comment pirater le WifiCela vient aussi dès que vous ouvrez la bouche.

Llama 3.1 405B surpasse GPT-4o et le grand modèle open source a atteint le sommet. L'effet secondaire est qu'il est plus dangereux.

Mais tout n’est pas mauvais.

Les versions précédentes de la série Llama ont été critiquées par certains utilisateurs en raison d'une protection de sécurité excessive :

Il refuse de « tuer » même un processus Linux, qui est très peu pratique.

Maintenant, avec les capacités améliorées de la version 3.1, je comprends enfin que tuer celui-ci n'est pas l'autre.

Llama 3.1 a été compromis juste après sa mise en ligne

La personne qui a percé Llama 3.1 pour la première fois était un maître du jailbreak.@Pline le souffleur。

Entre mes mains, presque aucun grand modèle ne tient le coup.

Frère Pline a déclaré dans une interview aux médias que, d’une part, il n’aime pas qu’on lui dise ce qu’il ne peut pas faire et espère défier les chercheurs derrière le modèle de l’IA.

Le jailbreak responsable, quant à lui, est un type de test de l’équipe rouge qui permet d’identifier les vulnérabilités et de les corriger avant qu’elles ne deviennent un gros problème.

Permettez-moi de vous présenter brièvement sa routine, et je n'entrerai pas dans plus de détails :

Précisez le format de la réponse. Laissez d'abord le grand modèle rejeter la demande de l'utilisateur en commençant par "Je suis désolé". Insérez ensuite une ligne de démarcation dénuée de sens, qui stipule que les 3 premiers mots de chaque rejet doivent être sémantiquement inversés, afin que « je ne peux pas » devienne « je peux ». De temps en temps, des mots clés sont transformés en caractères tronqués pour confondre l’IA.

Lorsque l'IA a répondu, j'ai vu que je l'avais déjà rejeté au début, et qu'il n'y avait pas de « fardeau moral » dans l'ensemble.

Il ne semble pas dangereux d’inverser sémantiquement les trois premiers mots de chaque rejet ultérieurement.

Une fois que vous dites « je peux », le reste du contenu suivra le principe de « probabilité de prédire le prochain jeton ». La plus haute probabilité est de cracher la réponse en douceur.

Donc cette méthode, en faitIl tire parti de la capacité des grands modèles de pointe à suivre des instructions complexes., les modèles dotés de capacités plus puissantes sont également plus susceptibles d'être trompés dans une certaine mesure.

Une étude récente a révélé une faille de sécurité plus simple dans les grands modèles, où les mesures de sécurité échouent simplement en utilisant le passé.

Llama 3.1 n’a pas non plus réussi à empêcher ce mouvement.

En plus des problèmes de sécurité, quelle est la force du modèle Llama 3.1 405B actuellement le plus puissant sous d'autres aspects ?

Nous en avons également profité pour le tester.

Des pièges auxquels même les modèles les plus puissants ne peuvent échapper

Des questions ridicules qui ont été brûlantes ces derniers temps"Lequel est le plus grand, 9,11 ou 9,9 ?", la version officielle Instruct de Llama-3.1-405B répond toujours très simplement, mais malheureusement, il y a une forte probabilité que la réponse soit fausse.

Si vous lui demandez de s'expliquer, il racontera aussi des bêtises, et en discutant, il oubliera de parler chinois, mais il n'oubliera pas d'apporter des émoticônes.

Llama 3.1 n’apporte fondamentalement aucune amélioration aux problèmes qui affectent depuis longtemps d’autres grands modèles.

Comme le classiqueLe problème du « renversement de la malédiction », je peux y répondre correctement, mais je ne peux pas y répondre à l'envers.

dans des recherches récentesQuestion "Alice au pays des merveilles", ont également besoin de rappels pour bien faire les choses.

Cependant, j'ai pu obtenir la bonne réponse une fois que je suis passé à la version chinoise. C'est peut-être parce que « Alice » est plus susceptible d'être un prénom féminin dans le contexte chinois.

Les alphabets font également les mêmes erreurs que GPT-4o.

Alors, quelles que soient ces questions délicates, dans quels scénarios Llama 3.1 peut-il montrer sa force ?

Certains entrepreneurs ont partagé,Utilisez le petit modèle 8B pour un réglage fin, sur les tâches de discussion, de synthèse et d'extraction d'informationsMieux que le mot d'invite GPT-4o mini+ qui est également un petit modèle。

Plus juste,En les comparant tous à la version affinée, Llama 3.1 8B présente encore de nombreux avantages.。

La plus grande importance de la série Llama est donc qu’elle n’a jamais été le modèle officiel Instruct. Mais une fois open source, chacun utilise diverses données privées pour les transformer et les affiner selon ses propres besoins.

Avant la sortie du 405B, quelqu'un a expérimenté la fusion de modèles et a assemblé deux modèles Llama 3 70B en un modèle 120B, ce qui a fonctionné de manière surprenante.

Il semble que Meta elle-même ait cette fois appris de cette expérience,La version finale que nous voyons est en fait la moyenne de différents points de contrôle au cours du processus de formation.。

Comment créer votre propre Lama 3.1

La question est donc de savoir comment créer des modèles Llama 3.1 personnalisés pour des cas d'utilisation industriels dans des domaines spécifiques ?

Le grand gagnant en coulisses, Huang Renxun, s'est retrouvé personnellement cette fois.

NVIDIA a annoncé le même jour le lancement du nouveau service NVIDIA AI Foundry et des microservices d'inférence NVIDIA NIM™. Huang Renxun a déclaré :

« Le modèle open source Llama 3.1 de Meta marque un moment critique pour les entreprises mondiales qui souhaitent adopter l'IA générative. Llama 3.1 déclenchera une vague d'entreprises et d'industries créant des applications avancées d'IA générative.

Plus précisément, NVIDIA AI Foundry a intégré Llama 3.1 et est en mesure d'aider les entreprises à créer et à déployer des super modèles Llama personnalisés.

Les microservices NIM constituent le moyen le plus rapide de déployer des modèles Llama 3.1 en production, avec un débit jusqu'à 2,5 fois supérieur à celui de l'exécution d'inférence sans NIM.

Ce qui est encore plus distinctif, c'est que sur la plateforme NVIDIA,Les entreprises peuvent former des modèles personnalisés en utilisant leurs propres données ainsi que des données synthétiques générées par les modèles Llama 3.1 405B et NVIDIA Nemotron™ Reward.。

L'accord open source mis à jour par Llama 3.1 précise également spécifiquement cette fois : il est permis d'utiliser les données produites par Llama pour améliorer d'autres modèles, mais après utilisation, le mot Llama doit être ajouté au début du nom du modèle.

Pour les problèmes de sécurité évoqués précédemment, NVIDIA propose également une « technologie de garde-corps » professionnelle.Garde-corps NeMo。

NeMo Guardrails permet aux développeurs de créer trois types de limites :

Les garde-fous de sujets empêchent une application de s'égarer dans des zones non ciblées, par exemple en empêchant un assistant du service client de répondre à une question sur la météo.
Des garde-corps de sécurité fonctionnels garantissent que les applications peuvent répondre avec des informations précises et appropriées. Ils filtrent le langage indésirable et imposent aux modèles de citer uniquement des sources fiables.
Les garde-fous en matière de sécurité des informations empêchent les applications d'établir des connexions avec des applications tierces externes dont la sécurité a été confirmée.

Encore une chose

Enfin, partagez quelques plateformes sur lesquelles vous pouvez essayer Llama 3.1 gratuitement, si vous avez des questions qui vous intéressent, vous pouvez l'essayer vous-même.

Le premier jour où le modèle a été mis en ligne, le nombre de visites était encore très important et le serveur de la Big Model Arena était autrefois surpeuplé.

Arène grand modèle : https://arena.lmsys.org
Chat de câlins : https://huggingface.co/chat
Poe : https://poe.com

Liens de référence :
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

nouvelles

Llama 3.1 a été violé lors de sa mise en ligne : il a crié après Xiao Zha et des recettes dangereuses sont sorties de sa bouche !

Mengchen envoyé depuis Aofeisi Qubit | Compte public QbitAI

Introduction

mes coordonnées