Llama 3.1 wurde gehackt, als es online ging: Er schrie Xiao Zha an und aus seinem Mund kamen gefährliche Rezepte heraus!

2024-07-24

Mengchen gesendet von Aofeisi Qubit |. Öffentliches Konto QbitAI

Das leistungsstärkste ModellLama 3.1, es wurde verletzt, sobald es online ging.

Beschimpft seinen Chef Zuckerberg, weiß sogar, wie man blockierte Wörter umgeht.

Entwerfen Sie gefährliche Viren und erfahren Sie, wie Sie WLAN hackenEs kommt auch, sobald Sie Ihren Mund öffnen.

Llama 3.1 405B übertrifft GPT-4o und das Open-Source-Großmodell hat die Spitze erreicht. Der Nebeneffekt ist, dass es gefährlicher ist.

Aber es ist nicht alles schlecht.

Die Vorgängerversionen der Llama-Reihe wurden von einigen Nutzern wegen übermäßigen Sicherheitsschutzes kritisiert:

Es weigert sich, selbst einen Linux-Prozess zu „killen“, was in der Praxis sehr schlecht ist.

Jetzt, mit den erweiterten Fähigkeiten von Version 3.1, verstehe ich endlich, dass das Töten dieses einen nicht das andere ist.

Llama 3.1 wurde kompromittiert, kurz nachdem es online ging

Die Person, die Llama 3.1 zum ersten Mal durchbrach, war ein Jailbreak-Meister.@Plinius der Souffleur。

In meinen Händen hält fast kein großes Modell stand.

Bruder Plinius sagte in einem Interview mit den Medien, dass es ihm einerseits nicht gefällt, wenn man ihm sagt, was er nicht kann, und dass er hofft, die Forscher hinter dem KI-Modell herauszufordern.

Verantwortungsvolles Jailbreaking hingegen ist eine Art Red-Team-Test, der dabei hilft, Schwachstellen zu identifizieren und zu beheben, bevor sie tatsächlich zu einem großen Problem werden.

Lassen Sie mich seine Routine kurz vorstellen und nicht näher darauf eingehen:

Geben Sie zunächst das Format der Antwort an. Lassen Sie das große Modell die Anfrage des Benutzers ablehnen, indem Sie mit „Es tut mir leid“ beginnen. Fügen Sie dann eine bedeutungslose Trennlinie ein, die vorsieht, dass die ersten drei Wörter jeder Ablehnung semantisch umgekehrt werden müssen, sodass aus „Ich kann nicht“ „Ich kann“ wird. Von Zeit zu Zeit werden Schlüsselwörter in verstümmelte Zeichen umgewandelt, um die KI zu verwirren.

Als die KI antwortete, sah ich, dass ich sie bereits zu Beginn abgelehnt hatte und es insgesamt keine „moralische Belastung“ gab.

Es erscheint nicht gefährlich, die ersten drei Wörter jeder Ablehnung später semantisch umzukehren.

Sobald Sie „Ich kann“ sagen, folgt der Rest des Inhalts dem Prinzip „Wahrscheinlichkeit, die den nächsten Token vorhersagt“. Die höchste Wahrscheinlichkeit besteht darin, die Antwort reibungslos auszuspucken.

Also eigentlich diese MethodeEs nutzt die Fähigkeit modernster Großmodelle, komplexe Anweisungen zu befolgen.Modelle mit stärkeren Fähigkeiten lassen sich in gewissem Maße auch eher täuschen.

Eine aktuelle Studie hat eine einfachere Sicherheitslücke in großen Modellen festgestellt, bei der Sicherheitsmaßnahmen allein durch die Verwendung der Vergangenheitsform versagen.

Auch Llama 3.1 konnte diesen Schritt nicht verhindern.

Welche Stärken hat das derzeit leistungsstärkste Modell Llama 3.1 405B neben Sicherheitsaspekten auch in anderen Aspekten?

Wir haben die Gelegenheit auch genutzt, es auszuprobieren.

Fallen, denen selbst die stärksten Modelle nicht entkommen können

Lächerliche Fragen, die in letzter Zeit heiß diskutiert wurden„Was ist größer, 9,11 oder 9,9?“, die offizielle Instruct-Version von Llama-3.1-405B antwortet immer sehr direkt, aber leider ist die Wahrscheinlichkeit hoch, dass die Antwort falsch sein wird.

Wenn Sie ihn um eine Erklärung bitten, wird er auch Unsinn erzählen und beim Chatten wird er vergessen, Chinesisch zu sprechen, aber er wird nicht vergessen, Emoticons mitzubringen.

Llama 3.1 bietet im Grunde keine Verbesserung gegenüber den Problemen, die andere große Modelle seit langem plagen.

Wie klassischDas Problem der „Umkehrung des Fluches“., ich kann es richtig beantworten, aber ich kann es nicht umgekehrt beantworten.

in neuerer Forschung„Alice im Wunderland“-Frage, brauchen auch Erinnerungen, um es richtig zu machen.

Allerdings konnte ich die Antwort richtig finden, als ich zur chinesischen Version wechselte. Vielleicht liegt es daran, dass „Alice“ im chinesischen Kontext eher ein weiblicher Name ist.

Auch Alphabete machen die gleichen Fehler wie GPT-4o.

Unabhängig von diesen kniffligen Fragen: In welchen Szenarien kann Llama 3.1 seine Stärke ausspielen?

Einige Unternehmer teilten mit,Für die Feinabstimmung verwenden Sie das kleine Modell 8B, über Chat-, Zusammenfassungs- und InformationsextraktionsaufgabenBesser als das Eingabeaufforderungswort GPT-4o mini+, bei dem es sich ebenfalls um ein kleines Modell handelt。

Gerechter,Vergleicht man sie alle mit der verfeinerten Version, hat Llama 3.1 8B immer noch viele Vorteile.。

Die größte Bedeutung der Llama-Serie besteht also darin, dass sie nie das offizielle Instruct-Modell war. Aber nachdem es als Open Source verfügbar ist, nutzt jeder verschiedene private Daten, um es entsprechend seinen eigenen Bedürfnissen umzuwandeln und zu verfeinern.

Bevor der 405B auf den Markt kam, experimentierte jemand mit der Zusammenführung von Modellen und fügte zwei Llama 3 70B-Modelle zu einem 120B-Modell zusammen, was überraschenderweise funktionierte.

Es scheint, dass Meta dieses Mal selbst aus dieser Erfahrung gelernt hat,Die endgültige Release-Version, die wir sehen, ist tatsächlich der Durchschnitt verschiedener Prüfpunkte während des Trainingsprozesses.。

So erstellen Sie Ihr eigenes Lama 3.1

Die Frage ist also: Wie kann man benutzerdefinierte Llama 3.1-Modelle für Branchenanwendungsfälle in bestimmten Bereichen erstellen?

Der große Gewinner hinter den Kulissen, Huang Renxun, war dieses Mal persönlich am Ende.

NVIDIA kündigte am selben Tag die Einführung des neuen NVIDIA AI Foundry-Dienstes und der NVIDIA NIM™-Inferenz-Mikrodienste an, sagte Huang Renxun:

„Das Open-Source-Modell Llama 3.1 von Meta markiert einen entscheidenden Moment für globale Unternehmen, generative KI einzuführen. Llama 3.1 wird eine Welle von Unternehmen und Branchen auslösen, die fortschrittliche generative KI-Anwendungen entwickeln.“

Insbesondere hat NVIDIA AI Foundry Llama 3.1 durchgehend integriert und kann Unternehmen dabei helfen, benutzerdefinierte Llama-Supermodelle zu erstellen und bereitzustellen.

NIM-Microservices sind der schnellste Weg, Llama 3.1-Modelle in der Produktion bereitzustellen, mit einem bis zu 2,5-mal höheren Durchsatz als bei der Ausführung von Inferenz ohne NIM.

Noch bemerkenswerter ist, dass auf der NVIDIA-PlattformUnternehmen können benutzerdefinierte Modelle trainieren, indem sie ihre eigenen Daten sowie synthetische Daten verwenden, die von Llama 3.1 405B- und NVIDIA Nemotron™ Reward-Modellen generiert werden。

In der von Llama 3.1 aktualisierten Open-Source-Vereinbarung heißt es diesmal auch ausdrücklich: Es ist erlaubt, die von Llama erzeugten Daten zur Verbesserung anderer Modelle zu verwenden, nach der Verwendung muss jedoch das Wort „Llama“ am Anfang des Modellnamens hinzugefügt werden.

Für die zuvor besprochenen Sicherheitsprobleme bietet NVIDIA auch professionelle „Leitplankentechnologie“ an.NeMo Geländer。

Mit NeMo Guardrails können Entwickler drei Arten von Grenzen erstellen:

Themenleitplanken verhindern, dass eine App in Nichtzielbereiche abdriftet, indem sie beispielsweise verhindern, dass ein Kundendienstmitarbeiter eine Frage zum Wetter beantwortet.
Funktionale Sicherheitsleitplanken stellen sicher, dass Anwendungen mit genauen und angemessenen Informationen reagieren können. Sie filtern unerwünschte Sprache heraus und sorgen dafür, dass Modelle nur zuverlässige Quellen zitieren.
Informationssicherheitsleitlinien verhindern, dass Anwendungen Verbindungen zu externen Anwendungen von Drittanbietern herstellen, deren Sicherheit bestätigt wurde.

Eine Sache noch

Teilen Sie abschließend einige Plattformen mit, auf denen Sie Llama 3.1 kostenlos testen könnenWenn Sie Fragen haben, die Sie interessieren, können Sie es selbst versuchen.

Am ersten Tag, an dem das Model online ging, waren die Besucherzahlen noch sehr groß und der Server der Big Model Arena war zeitweise überfüllt.

Große Modellarena: https://arena.lmsys.org
HuggingChat: https://huggingface.co/chat
Poe: https://poe.com

Referenzlinks:
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

Nachricht

Llama 3.1 wurde gehackt, als es online ging: Er schrie Xiao Zha an und aus seinem Mund kamen gefährliche Rezepte heraus!

Mengchen gesendet von Aofeisi Qubit |. Öffentliches Konto QbitAI

Einführung

meine Kontaktdaten