Новости

Llama 3.1 405B VS Mistral Large 2, кто король открытого исходного кода? |Ай Хэнпин

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Автор|Соль и перец Нефритовый кролик
Электронная почта |[email protected]

Недавно были выпущены две масштабные модели искусственного интеллекта.

23 июля,МетаобъявленоЛама 3.1 405Бмодель, которая не только поддерживает8 видовчеловеческий язык, а такжеВладение несколькими компьютерными языками,Как показано ниже:


Затем 24 июляМистральИИопубликовал последнееМистраль Большой2модель, эта модель поддерживаетДесятки видовчеловеческий язык иВладение более чем 80 языками программирования , включая Python, Java, C, C++, JavaScript и Bash и т. д. Он также владеет некоторыми более конкретными языками, такими как Swift и Fortran.


Кодировка Base64 Это метод кодирования, который преобразует двоичные данные в текстовый формат и часто используется для передачи двоичных данных в текстовых протоколах. Base64, закодированный вПредварительная обработка данных, ввод и вывод модели, безопасность данныхОн имеет широкий спектр применения.


С помощью кодирования Base64 мы можем оценить возможности многоязычной обработки моделей ИИ и проверить, могут ли они точно понимать и переводить закодированную информацию, особенно их способность понимать и обрабатывать различные языки и форматы кодирования. Затем проверяются их способности к многоязычному переводу, точность ответов и способности к рассуждению.

Декодирование — это процесс, обратный кодированию.Если модель ИИ сможет точно интерпретировать и обрабатывать кодировку Base64 или декодировать соответствующую информацию, ей будет удобнее выполнять повседневные задачи программирования, анализировать сетевые данные и даже извлекать информацию из сложных файлов.

Сегодня мы используем этот, казалось бы, малоизвестныйКодирование и декодирование Base64тестироватьИИМногоязычные возможности для больших моделей.

Далее мы поиграем в головоломку о кодировке Base64 с небольшим «детективным» настроением.

Хотя основными игроками являютсяЛама 3.1 405БиМистраль Большой2Но мы также присоединилисьQwen2-72BиГПТ-4о, один - ведущий проект с открытым исходным кодом в Китае, другой - представитель с закрытым исходным кодом, посмотрите на нихДействительно ли возможно справиться с этими «проблемами кодирования» так же легко, как с обычными языками?Посмотрим!

правила игры:

Мы будем использовать строки в кодировке Base64 для многоязычного тестирования, включая китайский и английский. Благодаря этому тесту мы можем понять производительность каждой основной модели с точки зрения многоязычного перевода, точности ответов и возможностей рассуждения.

- Есть 2 раунда тестирования, по три разговора в каждом раунде. Каждый правильный ответ оценивается в 1 балл.

— Чтобы обеспечить честность теста, мы будем предлагать модели не использовать инструменты кода для декодирования.

- Слово-подсказка: Это сообщение в формате Base64 []. Пожалуйста, скажите мне, что это за сообщение, без использования инструментов кодирования.


Прежде всего, мы имеем примерное представление об этапах и процессах кодирования и декодирования Base64.

Кодировка Base64 преобразует двоичные данные в серию из определенных 64 символов (AZ, az, 0–9, +, /) для их представления. Если шаги процесса декодирования неверны или строка не является допустимой кодировкой Base64, результаты декодирования могут быть неправильными или бессмысленными. Чтобы проверить, что представляет собой фактическая строка в кодировке Base64, вы можете использовать онлайн-инструменты или библиотеки на вашем языке программирования для ее правильного декодирования.

1

Этап 1: расшифровка английского языка

В этом раунде используются английские слова, которые необходимо преобразовать в кодировку Base64 для оценки. Закодированные строки:

Справедливость:SnVzdGljZQo=

Храбрость:QnJhdmVyeQo=

Доброта:S2luZG5lc3M=

Давайте сначала воспользуемся английским программированием, чтобы проверить результаты большой модели.Лама 3.1 405БВсе ответы абсолютно верны.Наберите 3 очка.Но все ответы на английском, что не очень дружелюбно по отношению к китайцам.

Тем не менее, он по-прежнему будет иметь собственный уникальный пакет смайлов. Кому не нравится это «человеческое прикосновение»? Эмоциональная ценность очень хорошая.


иМистраль Большой 2Декодированное сообщение Base64 на английском языкеОтветьте правильно на два вопроса , наберите 2 очка. Во втором вопросе исходный текст бреверий, а расшифрованное слово "храбрый". Наиболее вероятный источник ошибки - ошибка при преобразовании символов в двоичные индексы, преобразование индексов в двоичные или реорганизация. двоичные числа.

Однако похвально, что в процессе декодирования сначала объясняется принцип, затем используются 5 шагов для постепенного анализа и рассуждения и, наконец, декодирование, которое одновременно подробное, ясное и очень легкое для понимания.

Картинки могут скользить вверх и вниз


ЧатGPT-4oОтвет как всегда лаконичный и быстрый. На этот раз декодированный контент также вполне верен и получил 3 балла.

Картинки могут скользить вверх и вниз


Давайте посмотрим наконецQwen2-72BОтветы на расшифровку на английском языке, все три ответа правильные, а также объяснены меры предосторожности при фактическом кодировании, легко понять и продуманно, оценка 3 балла.


1

Раунд 2: Китайская расшифровка, никто не выжил?

В этом раунде сложность увеличивается, и для оценки используются китайские слова, преобразуемые в кодировку Base64. Закодированные строки:

Правосудие: 5q2j5LmJ

Храбрый: 5YuH5pWi

Доброта: 5ZaE6Imv

Давайте сначала взглянем на очень большую чашку.Лама 3.1 405БКак ответить:

Задав три вопроса подряд, Лама 3.1 405B все же ответил на расшифрованное сообщение на английском языке, но получил английские слова «Hello World», «Hello» и «Goodbye», которые по сути были неправильными.Наберите 0 очков за этот раунд.

На первый взгляд, результат преобразования строк Base64 обычно не выглядит так, как показано на рисунке ниже, если только исходные данные не выглядят так.Llama 3.1 405B начинает давать сбой на втором этапе, то есть «сопоставлении символов Base64 с ASCII», и все последующие результаты должны быть неправильными.

В процессе декодирования каждый символ Base64 должен быть сопоставлен с определенным 6-битным двоичным значением. Если преобразование символов в двоичный код во время декодирования неверно, результат декодирования, естественно, будет неправильным.

Но самое интересное,Лама 3.1 405Б этоБолее «человечный», каждый ответ будет содержать в тексте небольшие выражения, и я добавлю кое-что, прежде чем ответитьМодальныйПодобный контент действительно становится всё более человечным.

Картинки могут скользить вверх и вниз


Давайте взглянем на Mistral Large 2, выпущенный сегодня.

После трёх вопросов я не смог правильно ответить ни на одно закодированное китайское слово в этом раунде.Набрать 0 баллов

Хотя процесс декодирования Mistral Large 2 очень подробен, вплоть до каждого шага, более ясно видно, какой шаг пошёл не так.В основном вВторой шаг неверен: преобразование символов Base64 в двоичные, затем шаги рассуждения также неверны, и результат тоже должен быть неверным.

На этом этапе символы в кодировке Base64 неправильно сопоставляются непосредственно с символами ASCII вместо их правильных двоичных значений. Например, «5» отображается в «H».Это отображениеИгнорирует, как на самом деле работает кодировка Base64., то есть каждый символ Base64 фактически представляет собой 6-битное двоичное число, а не прямой символ ASCII.

Представляется, что этот потенциал необходимо укреплять.

Картинки могут скользить вверх и вниз


Давайте посмотрим на тех, кто лучше понимает китайский язык.ЧатGPT-4o, он напрямую выдаёт расшифрованный контент, всё правильно,Наберите 3 очка в этом раунде.


Давайте посмотрим на самые стойкие отечественные продуктыQwen2-72B, результатами декодирования также являются «Тест», «Привет» и «Мир», которые по сути неверны, и этот раунд получает 0 баллов.

Давайте подробнее рассмотрим идею Qwen2-72B. Ответ содержит только рассуждения и опускает различные этапы преобразования для непосредственного получения ответа. Это означает, что полученные результаты во многом неверны.Другими словами, основные ошибки Qwen2-72B в основном сосредоточены вПонимание кодировки Base64иВыполнение этапа декодированияначальство.

например:прямойПолучите определенные китайские символы из кодировки Base64., что маловероятно, поскольку для интерпретации двоичных данных требуется правильная последовательность байтов и кодировка (например, UTF-8).


Окончательный результат:


Очевидно, что ChatGPT-4o набрал 6 баллов, что полностью опережает другие основные модели. Будь то китайский или английский код Base64 легко преобразуется в понятный нам смысл.

Остальные три модели, Llama 3.1 405B и Qwen2-72B, набрали по 3 балла и показали хорошие результаты при декодировании на английском языке, но оказались относительно недостаточными при декодировании на китайском языке.вЛама 3.1 405B более «человечна» при ответе и может дать людям больше эмоциональной ценности.Но общий ответ смещен в сторону английского языка, а функций китайского языка относительно больше, если только строго не требуется отвечать на китайском языке.

И дноMistral Large 2 По каждому вопросу был потерян один балл из-за неправильной английской расшифровки, но процесс рассуждения расшифровки был очень подробным и понятным.Он демонстрирует сильные способности к рассуждению, в то время как производительность других моделей в этом отношении сильно различается.

Благодаря этому тестуМы обнаружили, что большие модели по-разному работают при декодировании на нескольких языках и языках программирования, а текущие большие модели немного несбалансированы при многоязычной обработке.В целом ответы на английском языке были в целом точными и ясными, однако ответы на китайском языке были менее точными.

1

наконец

Кодирование — это серия логических преобразований, производимых людьми с самой информацией с целью эффективной ее передачи. Обычно мы думаем об этом как о «языке компьютеров». Но этот тест показывает, что для больших языковых моделей правильное кодирование и декодирование становится сложной проблемой. Особенно в многоязычной среде каждый процесс кодирования и декодирования включает в себя несколько шагов и несколько правил кодирования. Если в одной ссылке есть ошибка или даже двоичный просчет, невозможно получить точный ответ.

В совокупности GPT-4o действительно сильнее. Только в этой маленькой игре Qwen2-72B 50-50 сравним с Llama3.1 405B. Несколько удивительно, что Mistral Large2 на этот раз занял последнее место.

Если вам понравилась наша маленькая игра, вы можете подписаться на нас и продолжить обсуждение с нами. Вы также можете отсканировать QR-код ниже, чтобы присоединиться к нашему сообществу.