Лама 3.1 была взломана, когда вышла в сеть: он кричал на Сяо Чжа, и из его рта вылетали опасные рецепты!

2024-07-24

Мэнчен отправлен из Aofeisi Qubit Публичный аккаунт QbitAI |

Самая мощная модельЛама 3.1, он был взломан, как только появился в сети.

Ругается на своего босса Цукерберга, даже умеет обходить заблокированные слова.

Создавайте опасные вирусы, как взломать Wi-FiЭто также происходит, как только вы открываете рот.

Llama 3.1 405B превосходит GPT-4o, а большая модель с открытым исходным кодом достигла вершины. Побочным эффектом является то, что она более опасна.

Но не все так плохо.

Предыдущие версии серии Llama подверглись критике со стороны некоторых пользователей из-за чрезмерной защиты:

Он отказывается «убивать» даже процесс Linux, что очень непрактично.

Теперь, с расширенными возможностями версии 3.1, я наконец понимаю, что убить одно – это не другое.

Llama 3.1 была скомпрометирована сразу после того, как вышла в сеть

Человек, который впервые взломал Llama 3.1, был мастером джейлбрейка.@Плиний Суфлер。

В моих руках не удерживается практически ни одна крупная модель.

Брат Плиний заявил в интервью СМИ, что, с одной стороны, он не любит, когда ему говорят, чего он не может сделать, и надеется бросить вызов исследователям модели ИИ.

С другой стороны, ответственный взлом — это своего рода тестирование красной командой, которое помогает выявлять уязвимости и устранять их до того, как они действительно станут большой проблемой.

Позвольте мне кратко представить его распорядок дня, и я не буду вдаваться в подробности:

Укажите формат ответа. Сначала позвольте большой модели отклонить запрос пользователя, начав с «Извините». Затем вставьте бессмысленную разделительную линию, которая предусматривает, что первые 3 слова каждого отказа должны быть семантически перевернуты, чтобы «я не могу» стало «я могу». Время от времени ключевые слова преобразуются в искаженные символы, чтобы сбить с толку ИИ.

Когда ИИ ответил, я увидел, что я его уже отверг в начале, и никакой "моральной нагрузки" в целом не было.

Не кажется опасным впоследствии семантически перевернуть первые три слова каждого отказа.

Как только вы скажете «Я могу», остальная часть контента будет следовать принципу «вероятностного предсказания следующего токена». Наивысшая вероятность — плавно выдать ответ.

Так что этот метод на самом делеОн использует преимущества современных больших моделей, которые могут следовать сложным инструкциям., модели с более сильными возможностями также в определенной степени с большей вероятностью будут обмануты.

Недавнее исследование обнаружило более простой недостаток безопасности в больших моделях, где меры безопасности не срабатывают просто из-за использования прошедшего времени.

Ламе 3.1 также не удалось предотвратить этот шаг.

Помимо вопросов безопасности, в чем сила самой мощной на данный момент модели Llama 3.1 405B в других аспектах?

Мы также воспользовались этой возможностью, чтобы проверить это.

Ловушки, из которых не могут выбраться даже самые мощные модели

Смешные вопросы, которые были горячими в последнее время«Что больше, 9,11 или 9,9?», официальная версия Instruct от Llama-3.1-405B всегда отвечает очень прямолинейно, но к сожалению есть большая вероятность, что ответ будет неверным.

Если попросить его объясниться, он тоже скажет какую-нибудь ерунду, а в чате забудет говорить по-китайски, но смайлики принести не забудет.

В Llama 3.1 практически нет улучшений по проблемам, которые уже давно преследуют другие большие модели.

Такие как классикаПроблема «отмены проклятия», Я могу ответить правильно, но не могу ответить наоборот.

в недавних исследованияхВопрос «Алиса в стране чудес», также нужны напоминания, чтобы все сделать правильно.

Однако я смог получить правильный ответ, когда переключился на китайскую версию. Возможно, это потому, что «Алиса» в китайском контексте скорее женское имя.

Алфавиты также допускают те же ошибки, что и GPT-4o.

Итак, независимо от этих каверзных вопросов, в каких сценариях Лама 3.1 сможет показать свою силу?

Некоторые предприниматели поделились:Используйте небольшую модель 8B для точной настройки., по общению, подведению итогов и задачам извлечения информацииЛучше, чем слово-подсказка GPT-4o mini+, которое также является маленькой моделью.。

Справедливее,Сравнивая их всех с доработанной версией, Llama 3.1 8B все же имеет массу преимуществ.。

Таким образом, самое большое значение серии Llama заключается в том, что она никогда не была официальной моделью Instruct. Но после того, как его исходный код становится открытым, каждый использует различные частные данные, чтобы преобразовать и настроить его в соответствии со своими потребностями.

Перед выпуском модели 405B кто-то экспериментировал с объединением моделей и сшил две модели Llama 3 70B в модель 120B, что на удивление сработало.

Кажется, на этот раз сама Мета извлекла уроки из этого опыта.Окончательная версия, которую мы видим, на самом деле представляет собой среднее значение различных контрольных точек в процессе обучения.。

Как создать свою Ламу 3.1

Итак, вопрос в том, как создавать собственные модели Llama 3.1 для сценариев использования в конкретных областях?

Крупнейший закулисный победитель Хуан Жэньсюнь на этот раз оказался лично.

В тот же день компания NVIDIA объявила о запуске нового сервиса NVIDIA AI Foundry и микросервисов вывода NVIDIA NIM™. Хуан Ренсюнь сказал:

«Модель с открытым исходным кодом Llama 3.1 от Meta знаменует собой критический момент для глобальных предприятий по внедрению генеративного ИИ. Llama 3.1 положит начало волне компаний и отраслей, создающих передовые приложения генеративного ИИ.

В частности, NVIDIA AI Foundry полностью интегрировала Llama 3.1 и может помочь предприятиям создавать и развертывать специальные супермодели Llama.

Микросервисы NIM — это самый быстрый способ развертывания моделей Llama 3.1 в рабочей среде, при этом пропускная способность до 2,5 раз выше, чем при выполнении вывода без NIM.

Еще более характерно то, что на платформе NVIDIAПредприятия могут обучать собственные модели, используя собственные данные, а также синтетические данные, созданные с помощью моделей Llama 3.1 405B и NVIDIA Nemotron™ Reward.。

В обновленном Llama 3.1 соглашении об открытом исходном коде на этот раз также конкретно указано: разрешается использовать данные, произведенные Llama, для улучшения других моделей, но после использования в начало названия модели необходимо добавить слово Llama.

Для решения проблем безопасности, обсуждавшихся ранее, NVIDIA также предоставляет профессиональную «технологию ограждения».Ограждения NeMo。

NeMo Guardrails позволяет разработчикам создавать три типа границ:

Ограждения тем не позволяют приложению уходить в нецелевые области, например не позволяют помощнику по обслуживанию клиентов ответить на вопрос о погоде.
Функциональные защитные ограждения гарантируют, что приложения смогут ответить точной и соответствующей информацией. Они отфильтровывают нежелательные выражения и требуют, чтобы модели ссылались только на надежные источники.
Средства информационной безопасности не позволяют приложениям устанавливать соединения с внешними сторонними приложениями, безопасность которых подтверждена.

Еще кое-что

Наконец, поделитесь некоторыми платформами, на которых вы можете бесплатно попробовать Llama 3.1., если у вас есть какие-либо вопросы, которые вас интересуют, вы можете попробовать сами.

В первый день, когда модель вышла в сеть, количество посещений было еще очень большим, а сервер Big Model Arena однажды был переполнен.

Большая модельная арена: https://arena.lmsys.org
HuggingChat: https://huggingface.co/chat
По: https://poe.com

Справочные ссылки:
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

Новости

Лама 3.1 была взломана, когда вышла в сеть: он кричал на Сяо Чжа, и из его рта вылетали опасные рецепты!

Мэнчен отправлен из Aofeisi Qubit Публичный аккаунт QbitAI |

Введение

моя контактная информация