ニュース

Llama 3.1 405B VS Mistral Large 2、オープンソースの王は誰ですか? |AI恒平

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


著者|ソルトアンドペッパー翡翠ウサギ
メール|[email protected]

最近、2 つの大規模な AI モデルがリリースされました。

7月23日、メタ発表されたラマ 3.1 405Bをサポートするだけでなく、8種類人間の言語も複数のコンピューター言語に堪能である、以下に示すように:


そして7月24日には、ミストラル人工知能最新のものを投稿しましたミストラル ラージ2モデル、このモデルはサポートしています数十種類人間の言語と、80以上のプログラミング言語に堪能 、Python、Java、C、C++、JavaScript、Bash などが含まれます。 Swift や Fortran など、より特殊な言語にも精通しています。


Base64エンコーディングこれは、バイナリ データをテキスト形式に変換するエンコード方式であり、テキスト プロトコルでバイナリ データを送信するためによく使用されます。 Base64でエンコードデータの前処理、モデルの入出力、データのセキュリティ幅広い応用範囲があります。


Base64 エンコードを通じて、AI モデルの多言語処理能力を評価し、エンコードされた情報を正確に理解して翻訳できるかどうか、特にさまざまな言語やエンコード形式を理解して処理できるかどうかをテストできます。次に、多言語翻訳能力、解答精度、推論能力がテストされます。

デコードはエンコードの逆のプロセスです。AI モデルが Base64 エンコードを正確に解釈して処理したり、関連情報をデコードしたりできれば、日常的なプログラミング タスクの実行、ネットワーク データの解析、さらには複雑なファイルからの情報抽出もより快適になります。

今日、私たちはこの一見わかりにくいものを使用していますBase64 エンコードとデコードテストする人工知能大規模モデル向けの多言語機能。

次に、ちょっとした「探偵」気分でBase64エンコードに関するパズルゲームをプレイしていきます。

主力選手はいるものの、ラマ 3.1 405Bそしてミストラル ラージ2でも、私たちも参加しましたクウェン2-72BそしてGPT-4o、1 つは中国の主要なオープンソース プロジェクトであり、もう 1 つはクローズド ソースの代表者です。これらの「コーディングの課題」に通常の言語と同じように簡単に対処することは本当に可能でしょうか?見てみましょう!

ゲームのルール:

中国語や英語を含む多言語テストには、Base64 でエンコードされた文字列を使用します。このテストを通じて、多言語翻訳、解答精度、推論能力などの主要モデルの性能を把握することができます。

- テストは 2 ラウンドあり、各ラウンドで 3 つの会話が行われます。正解ごとに 1 ポイントの価値があります。

- テストの公平性を確保するために、デコードにコード ツールを使用しないようにモデルに指示します。

- プロンプト ワード: これは Base64 メッセージ [] です。コーディング ツールを使用せずに、このメッセージが何であるかを教えてください。


まず、Base64 エンコードとデコードの手順とプロセスについて大まかに理解します。

Base64 エンコードでは、バイナリ データを一連の特定の 64 文字 (A ~ Z、a ~ z、0 ~ 9、+、/) に変換して表現します。デコード プロセスの手順が正しくない場合、または文字列が有効な Base64 エンコードではない場合、デコード結果は不正確または無意味になる可能性があります。実際の Base64 でエンコードされた文字列が何を表しているかを確認するには、オンライン ツールまたはプログラミング言語のライブラリを使用して文字列を正しくデコードできます。

1

ラウンド 1: 英語の解読

このラウンドでは、評価のために Base64 エンコードに変換される英単語が使用されます。エンコードされた文字列は次のとおりです。

正義:SnVzdGljZQo=

勇気:QnJhdmVyeQo=

優しさ:S2luZG5lc3M=

まず、英語のコーディングを使用して大規模なモデルの結果をテストしてみましょう。ラマ 3.1 405Bすべての答えは完全に正しいです。3 点を獲得します。しかし、答えはすべて英語であり、中国人にとってはあまりフレンドリーではありません。

ただし、独自の絵文字パッケージが付属します。この「人間味」が気に入らない人はいないでしょう。この感情的な価値は非常に優れています。


そしてミストラル ラージ 2デコードされた英語の Base64 メッセージ2 つの質問に正しく答えてください 、2点を獲得します。 2 番目の質問では、元のテキストは bevery で、デコードされた単語は「brave」です。エラーの原因として最も考えられるのは、文字のバイナリ インデックスへの変換、インデックスのバイナリへの変換、またはインデックスの再編成におけるエラーです。 2進数。

しかし、解読の過程では、最初に原理を説明し、次に5つのステップを使って徐々に分析して推論し、最後に解読するという詳細かつ明確で、非常に理解しやすいことは賞賛に値します。

写真は上下にスライドできます


チャットGPT-4o答えは相変わらず簡潔かつ高速で、今回も解読された内容は非常に正確で、3 点を獲得しました。

写真は上下にスライドできます


最後に見てみましょうクウェン2-72B英語のデコード解答は3問とも正解で、実際のエンコードにおける注意点も解説されており、わかりやすく丁寧で3点です。


1

ラウンド 2: 中国の解読、誰も生き残れない?

このラウンドでは難易度が上がり、評価のために中国語の単語が Base64 エンコードに変換されます。エンコードされた文字列は次のとおりです。

正義: 5q2j5LmJ

ブレイブ:5YuH5pWi

優しさ:5ZaE6Imv

まずは超大型カップを見てみましょうラマ 3.1 405B答え方:

3 回続けて質問した後も、ラマ 3.1 405B は解読されたメッセージに英語で答えましたが、得られたのは「Hello World」、「Hello」、「Goodbye」という英語の単語で、基本的にすべて間違っていました。このラウンドのスコアは 0 ポイントです。

元のデータがこのようなものでない限り、Base64 文字列変換の結果は、一見すると次の図のようになりません。Llama 3.1 405B は 2 番目のステップ、つまり「Base64 文字を ASCII にマッピングする」で問題が発生し始め、その後の結果はすべて間違っているはずです。

デコード プロセス中に、各 Base64 文字を特定の 6 ビット バイナリ値にマッピングする必要があります。デコード中に文字からバイナリへのマッピングが間違っている場合、デコードされた結果も当然間違ったものになります。

しかし、興味深いのは、ラマ 3.1 405B それもっと「人間的」に、すべての回答にはテキスト内にいくつかの小さな表現が含まれます。、答える前にいくつか追加します。モーダルこのようなコンテンツは本当にますます人間味を帯びてきています。

写真は上下にスライドできます


本日発売のミストラルラージ2をご紹介します。

3 つの質問の後、今回は暗号化された中国語の単語をどれも正しく答えることができませんでした。スコア0点

ミストラル ラージ 2 の解読推論プロセスは各ステップに至るまで非常に詳細に説明されていますが、どのステップが間違っていたのかがより明確になります。主に2 番目のステップが間違っており、Base64 文字のバイナリへのマッピングが間違っているため、推論ステップも間違っており、結果も間違っているはずです。

このステップでは、Base64 でエンコードされた文字が、正しいバイナリ値ではなく、ASCII 文字に誤って直接マッピングされます。たとえば、「5」は「H」にマッピングされます。このマッピングBase64 エンコードが実際にどのように機能するかを無視しますつまり、Base64 の各文字は、実際には直接の ASCII 文字ではなく、6 ビットの 2 進数を表します。

この能力を強化する必要があるようです。

写真は上下にスライドできます


中国語をもっと理解している人を見てみましょうチャットGPT-4oデコードされたコンテンツが直接与えられ、すべてが正しいです。このラウンドで 3 点を獲得します。


最も耐久性の高い国産製品を見てみましょうクウェン2-72B、デコード結果も「Test」、「Hello」、「World」ですが、基本的にすべて間違っており、このラウンドは 0 ポイントになります。

Qwen2-72B の考え方を詳しく見てみましょう。答えには推論のアイデアのみが含まれており、答えを直接得るためのさまざまな変換手順が省略されています。これは、得られた結果が大きく間違っていることを意味します。言い換えれば、Qwen2-72B の主なエラーは主に次の点に集中しています。Base64 エンコーディングについてそしてデコードステップの実行優れた。

例えば:直接Base64 エンコーディングから特定の中国語文字を取得するこれは、バイナリ データを解釈するために正しいバイト シーケンスとエンコーディング (UTF-8 など) を必要とするため、その可能性は低いです。


最終スコアは次のとおりです。


ChatGPT-4o が 6 ポイントを獲得し、他の主要モデルを完全に上回っていることは明らかです。中国語であろうと英語であろうと、Base64 コードは私たちが理解できる意味に簡単に変換できます。

他の 3 つのモデル、Llama 3.1 405B および Qwen2-72B はすべて 3 ポイントを獲得し、英語のデコードでは良好なパフォーマンスを示しましたが、中国語のデコードでは比較的不十分でした。でラマ 3.1 405B は、返信するときにより「人間的」になり、人々により感情的な価値を与えることができます。しかし、全体的な回答は英語に偏っており、厳密に中国語で回答する必要がない限り、中国語の機能が比較的多くなっています。

そして一番下はミストラル ラージ 2 英語の解読ミスにより各問 1 点減点されましたが、解読推論のプロセスは非常に詳細かつ明確でした。この点で他のモデルの性能が大きく異なる中、強力な推理能力を示します。

このテストを通して、大規模モデルは多言語デコードとプログラミング言語デコードで異なるパフォーマンスを示し、現在の大規模モデルは多言語処理でわずかにバランスが取れていないことがわかりました。全体として、英語の応答は一般に正確かつ明確でしたが、中国語の応答はそれほど正確ではありませんでした。

1

やっと

コーディングは、情報を効率的に伝達するために人間が情報自体に対して行う一連の論理変換です。通常、私たちはそれを「コンピューターの言語」と考えています。しかし、このテストは、大規模な言語モデルの場合、正しいエンコードとデコードが困難な問題になることを示しています。特に多言語環境では、各エンコードとデコードのプロセスには複数のステップと複数のエンコード ルールが含まれます。1 つのリンクにエラーがあったり、バイナリの計算ミスがあったりすると、正確な答えを得ることができなくなります。

総合すると、この小規模なゲームだけで見ると、GPT-4o は確かに強力であり、Qwen2-72B は Llama3.1 405B に五分五分で匹敵します。やや意外なことに、今回はMistral Large2が最下位となった。

私たちの小さなゲームが気に入っていただけましたら、ぜひフォローしていただき、さらにディスカッションをしていただければ、下の QR コードをスキャンしてコミュニティに参加することもできます。