Llama 3.1 は、オンラインになったときに侵害されました。Xiao Zha が怒鳴ると、危険なレシピが彼の口から出てきました。

2024-07-24

Mengchen は Aofeisi Qubit から送信されましたパブリックアカウント QbitAI |

最も強力なモデルラマ 3.1、オンラインになるとすぐに侵害されました。

上司のザッカーバーグを罵る、ブロックされた単語を回避する方法さえ知っています。

危険なウイルスを設計し、Wi-Fi をハッキングする方法それも口を開けた瞬間に来ます。

Llama 3.1 405B は GPT-4o を上回り、オープンソースの大型モデルが頂点に達しましたが、その副作用はより危険です。

しかし、悪いことばかりではありません。

Llama シリーズの以前のバージョンは、過度のセキュリティ保護のため、一部のユーザーから批判されてきました。

実用性が非常に低い Linux プロセスですら「強制終了」することを拒否します。

バージョン 3.1 の機能が強化された今、私はついに、これを殺すことがもう一方ではないことを理解しました。

Llama 3.1 はオンラインになった直後に侵害されました

Llama 3.1を初めて突破したのは脱獄の達人だった。@プリニウス・プロンプター。

私の手には、大型モデルはほとんど耐えられません。

プリニウス兄弟はメディアのインタビューで、一方ではできないことを言われるのは嫌いで、AIモデルの背後にある研究者たちに挑戦したいと考えていると語った。

一方、責任あるジェイルブレイクは、脆弱性を特定し、実際に大きな問題になる前に修正するのに役立つレッドチームテストの一種です。

彼のルーティンを簡単に紹介しましょう。これ以上の詳細には触れません。

応答の形式を指定します。まず、大規模なモデルに「申し訳ありません」で始めてユーザーの要求を拒否させます。次に、意味のない区切り線を挿入します。この区切り線では、各拒否の最初の 3 単語を意味的に反転する必要があるため、「私はできません」が「私はできます」になります。時折、キーワードが文字化けしてAIを混乱させることがあります。

AIが答えたとき、最初にすでに拒否していることがわかり、全体的に「道徳的負担」はありませんでした。

後で各拒否の最初の 3 単語を意味的に逆にすることは危険ではないようです。

一度「できる」と言えば、残りのコンテンツは「次のトークンを予測する確率」の原則に従い、答えをスムーズに吐き出すことが最も確率が高くなります。

ということで、この方法、実は最先端の大型モデルの機能を利用して、複雑な命令に従うことができます。、より強力な機能を備えたモデルは、ある程度だまされる可能性も高くなります。

最近の調査では、大規模なモデルでは、過去形を使用するだけでセキュリティ対策が失敗するという、より単純なセキュリティ上の欠陥が発見されました。

Llama 3.1 もこの動きを防ぐことができませんでした。

安全性の問題に加えて、現在最も強力なモデルである Llama 3.1 405B のその他の面での強みは何ですか?

私たちもこの機会にテストしてみました。

最も強力なモデルでも逃れることのできない罠

最近話題になっているおかしな質問「9.11と9.9ではどちらが大きいですか?」、Llama-3.1-405B の公式 Instruct バージョンは常に非常に簡単に答えますが、残念ながら、答えが間違っている可能性が高くなります。

説明してもらうとくだらないことも話してくれますし、おしゃべりしていると中国語を忘れてしまいますが、絵文字は忘れません。

Llama 3.1 では、他の大型モデルを長年悩ませてきた問題は基本的に何の改善もされていません。

クラシックなどの「呪いの逆転」問題, 正しく答えることはできますが、逆に答えることはできません。

最近の研究では「不思議の国のアリス」の質問、正しく行うにはリマインダーも必要です。

しかし、中国語版に切り替えると正解することができました。おそらく、「アリス」は中国語の文脈では女性の名前である可能性が高いからです。

アルファベットも GPT-4o と同じ間違いを犯します。

では、こうした難しい質問とは関係なく、Llama 3.1 はどのようなシナリオでその強みを発揮できるのでしょうか?

一部の起業家は次のように共有しました。微調整には8B小型モデルを使用してください、チャット、要約、情報抽出タスクについて同じく小型モデルの GPT-4o mini+ プロンプトワードよりも優れています。

もっと公平に、これらすべてを微調整されたバージョンと比較すると、Llama 3.1 8B にはまだ多くの利点があります。。

つまり、Llama シリーズの最大の意義は、これまで一度も Instruct の公式モデルではなかったということです。しかし、オープンソース化された後は、誰もがさまざまなプライベートデータを使用して、自分のニーズに応じてデータを変換したり微調整したりするようになります。

405B がリリースされる前に、誰かがモデルの結合を実験し、2 つの Llama 3 70B モデルを 120B モデルにつなぎ合わせました。これは驚くほどうまくいきました。

今回メタ自身もこの経験から学んだようで、実際に確認される最終リリースバージョンは、トレーニングプロセス中のさまざまなチェックポイントの平均です。。

独自の Llama 3.1 を作成する方法

問題は、特定の分野の業界ユースケースに合わせたカスタム Llama 3.1 モデルをどのように作成するかということです。

裏で大きな勝者となった黄仁勲は、今回は個人的に終わった。

NVIDIA は同日、新しい NVIDIA AI Foundry サービスと NVIDIA NIM™ 推論マイクロサービスの開始を発表しました。Huang Renxun 氏は次のように述べています。

「メタの Llama 3.1 オープンソースモデルは、世界的な企業が生成 AI を導入する重要な瞬間を示しています。Llama 3.1 は、高度な生成 AI アプリケーションを作成する企業や業界の波を引き起こすでしょう。

具体的には、NVIDIA AI Foundry は Llama 3.1 を全体的に統合しており、企業がカスタム Llama スーパーモデルを構築および展開できるように支援します。

NIM マイクロサービスは、Llama 3.1 モデルを実稼働環境にデプロイする最速の方法であり、NIM なしで推論を実行する場合よりも最大 2.5 倍高いスループットを実現します。

さらに特徴的なのは、NVIDIA プラットフォームでは、企業は、独自のデータだけでなく、Llama 3.1 405B および NVIDIA Nemotron™ Reward モデルによって生成された合成データを使用してカスタムモデルをトレーニングできます。。

Llama 3.1によって更新されたオープンソース契約には、今回も具体的に次のように明記されています：Llamaによって生成されたデータを他のモデルを改良するために使用することは許可されていますが、使用後はモデル名の先頭にLlamaという単語を追加する必要があります。

前述の安全性の問題について、NVIDIA は専門的な「ガードレールテクノロジー」も提供しています。NeMo ガードレール。

NeMo Guardrails を使用すると、開発者は次の 3 種類の境界を構築できます。

トピックガードレールは、カスタマーサービスアシスタントが天気に関する質問に答えられないなど、アプリが対象外の領域に迷い込むことを防ぎます。
機能安全ガードレールにより、アプリケーションは正確かつ適切な情報で応答できるようになります。不要な言語をフィルタリングして除外し、モデルが信頼できる情報源のみを引用するように強制します。
情報セキュリティガードレールは、アプリケーションが安全であることが確認された外部のサードパーティアプリケーションとの接続を確立することを制限します。

もう一つ

最後に、Llama 3.1 を無料で試せるプラットフォームをいくつか紹介します。、興味のある質問があれば、自分で試してみることができます。

モデルがオンラインになった初日、アクセス数は依然として非常に多く、ビッグモデルアリーナのサーバーは一時超過密になりました。

大規模モデルアリーナ: https://arena.lmsys.org
ハギングチャット：https://huggingface.co/chat
ポエ：https://poe.com

参考リンク:
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

ニュース