Новости

Самая мощная большая модель с открытым исходным кодом в одночасье стала богом! Llama 3.1 выходит шокирующе, наступила эра по-настоящему универсального GPT-4

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


умные вещи
Автор: Редакционный отдел Чжи Дунси

Чжидунси сообщил 24 июля, что вчера вечером Meta объявила о запуске самой мощной на сегодняшний день модели с открытым исходным кодом —Лама 3.1 405Б, также выпустила недавно модернизированные модели Llama 3.1 70B и 8B.

Llama 3.1 405B поддерживает длину контекста128 тыс. токенов, на основе15 триллионов токеновБолее 16 000 графических процессоров H100Это первая модель ламы, которую Мета когда-либо тренировала в таком масштабе.

Результаты оценки исследователей, основанные на более чем 150 наборах эталонных тестов, показывают, что:Лама 3.1 405Б работает с GPT-4o, Claude 3.5 Sonnet и Gemini Ultra и другие ведущие модели отрасли.


Помимо высоких результатов, основатель и генеральный директор Meta Марк Цукерберг также лично опубликовал статью в свою поддержку. Он сказал, что помимо лучшей цены и производительности, чем у моделей с закрытым исходным кодом,Модель с открытым исходным кодом 405B станет лучшим выбором для предприятий для точной настройки и обучения небольших моделей.

Meta AI объявила о доступе к Llama 3.1 405B и запустила новые функции, такие как редактирование изображений AI, программирование AI и интеллектуальные помощники для устройств VR/AR. Цукерберг предсказал,Использование помощника Meta AI превзойдет ChatGPT через несколько месяцев


▲Meta AI поддерживает аудио- и видеовзаимодействие между гарнитурами Quest и пользователями в реальном времени.

Экосистема Meta с открытым исходным кодом также готова. Мета иБолее 25 партнеровБудут доступны модели Llama 3.1, включая Amazon AWS, NVIDIA, Databricks, Groq, Dell, Microsoft Azure и Google Cloud и другие.

На сегодняшний день общее количество загрузок всех версий модели Llama превысило300 миллионов раз, выпуск модели Llama 3.1, которая эквивалентна основной модели с закрытым исходным кодом, может означать, что история модели с открытым исходным кодом, которую хочет рассказать Meta, только началась...


Ссылка на скачивание модели:

https://llama.meta.com/

https://huggingface.co/meta-llama

Бумажная ссылка:

https://t.co/IZqC6DJkaq


▲Резюме интерпретации модели Meta Llama 3.1.

1. Модель 405B с открытым исходным кодом сравнивается с GPT-4o, и 25 партнеров готовы

Meta оценила производительность более 150 наборов тестовых данных и обнаружила, что Llama 3.1 405B сопоставим с GPT-4o, Claude 3.5 Sonnet и Gemini Ultra в ряде задач, таких как здравый смысл, удобство использования, математика, использование инструментов и многоязычный перевод. .


В реальном сценарии Llama 3.1 405B сравнивалась с оценкой человека и ееОбщая производительность лучше, чем у GPT-4o и Claude 3.5 Sonnet.


обновленныйЛама 3.1 8Б и 70БМодели также работают лучше, чем модели с тем же размером параметра. Эти модели с меньшими параметрами поддерживают одно и то же контекстное окно на 128 тысяч токенов, многоязычность, улучшенный вывод и использование самых современных инструментов для поддержки более продвинутых приложений.


Meta обновила свою лицензию, чтобы впервые позволить разработчикам использовать результаты модели Llama, включая шкалу параметров 405B, для улучшения других моделей.

В то же время экосистема Meta с открытым исходным кодом еще больше расширилась, и более 25 компаний выпустили новую модель Llama 3.1.

в,Облачные технологии Amazon, блоки данных и Nvidia Развертывается полный набор услуг для поддержки разработчиков в точной настройке и обучении их собственных моделей. Стартап по производству ИИ-чипов Groq и другие создали недорогие службы вывода с малой задержкой для всех новых моделей, выпущенных Meta на этот раз.

В то же время эти модели будутОблачные технологии Amazon, Microsoft Azure, Google Cloud, OracleПредоставляйте услуги на основных облачных платформах.

Масштабирование искусственного интеллекта, Dell, DeloitteТакие компании, как Llama, готовы помочь предприятиям внедрить модели Llama и обучить пользовательские модели, используя собственные данные.

Llama 3.1 405B — это не только самая сильная модель с открытым исходным кодом, но и ожидается, что она станет самой сильной моделью. Расстояние между открытым исходным кодом и закрытым исходным кодом снова значительно сократилось.

2. Полностью оптимизируйте стек обучения и сосредоточьтесь на том, чтобы сделать модель масштабируемой.

Чтобы иметь возможность обучать модели на основе 15 триллионов токенов, достигая при этом желаемых исследователями результатов в разумные сроки, Meta полностью оптимизировала стек обучения.


Решая вышеуказанные проблемы, Meta решила сосредоточиться на стратегиях, которые делают процесс разработки модели масштабируемым и простым:

1. Исследователи выбралиСтандартная архитектура модели Transformer только для декодераВнесение небольших корректировок вместо использования гибридной экспертной модели MoE может максимизировать стабильность обучения.

2. Исследователи использовалиИтеративная процедура после обучения , используя контролируемую точную настройку и прямую оптимизацию предпочтений на каждом этапе. Это позволяет модели создавать синтетические данные высочайшего качества для каждого раунда и повышает производительность по всем возможностям.

По сравнению с предыдущими моделями серии Llama Meta улучшает количество и качество данных, используемых для предварительного и постобучения.Эти улучшения включают в себяРазработать более тщательные конвейеры предварительной обработки и управления данными перед обучением, разработать более строгий контроль качества и методы фильтрации для данных после обучения.

Как и ожидалось из законов масштабирования больших языковых моделей, новая флагманская модель Meta превосходит меньшие модели, обученные с использованием той же стратегии. Meta также улучшила качество обучения своих меньших моделей, используя модель с параметрами 405B.

В то же время, чтобы поддержать крупномасштабный вывод модели параметров 405B, исследователи квантовали модель с BF16 до FP8, что эффективно снизило необходимые вычислительные требования и позволило модели работать на одном серверном узле.

Что касается точной настройки инструкций и чата, исследователи создали окончательную модель, выполнив несколько раундов согласования поверх предварительно обученной модели, причем каждый раунд включал контролируемую точную настройку (SFT), отбраковочную выборку (RS) и оптимизация прямых предпочтений (DPO). Подавляющее большинство примеров SFT создаются с использованием генерации синтетических данных для получения синтетических данных более высокого качества по всем функциям.

Кроме того, Meta использует несколько методов обработки данных для фильтрации этих синтетических данных до высочайшего качества, что позволяет новым моделям точно настраивать объемы данных с учетом функциональной масштабируемости.

Что касается данных, исследователи также тщательно сбалансировали данные для создания высококачественных моделей со всеми функциями. Например, поддержание качества модели в тестах с коротким контекстом позволяет масштабировать ее до длины контекста 128 тыс.

Кроме того, Meta также объявила о запуске общегоСистема Ламы . Помимо модели Llama, система также включает в себя координацию нескольких компонентов и вызовы внешних инструментов, которые помогают разработчикам разрабатывать индивидуальные продукты, более сильные, чем базовая модель.

Система Llama будет включать ряд новых компонентов, включая новые компоненты с открытым исходным кодом.инструменты безопасности Такие как Llama Guard 3 (многоязычная модель безопасности) и Prompt Guard (фильтр мгновенного впрыска). Чтобы соединить разрозненные компоненты, Meta также отправила запрос на комментарии к API-интерфейсу Llama Stack, стандартному интерфейсу, упрощающему использование модели Llama сторонними проектами.

Для обычных разработчиков использование моделей масштаба 405B по-прежнему является проблемой, требующей большого количества вычислительных ресурсов и опыта.

На основе системы Llama разработка генеративного искусственного интеллекта — это не просто подсказки моделей. Каждый должен иметь возможность использовать модель 405B для выполнения большего количества задач, включая рассуждения в реальном времени и в пакетном режиме, контролируемую точную настройку, непрерывную оценку модели для конкретных приложений. предварительное обучение и генерация с расширенным поиском (RAG), вызовы функций, генерация синтетических данных и т. д.

Это самая крупная модель, выпущенная Meta на сегодняшний день, и в будущем будут выпущены более удобные для устройства размеры, больше режимов и обновления на уровне агента.

три,Большая модель 405Б, взрывная модификация.Мета ИИ, Интеллектуальный голосовой помощник Questобновление

Теперь несколько терминалов, принадлежащих Meta, таких какЧат-бот WhatsApp и Meta AIЧжунду начал использовать Llama 3.1 405B.


Meta AI в настоящее время поддерживает семь новых языков. На этот раз Meta запускает серию новых творческих инструментов Meta AI, в основном ориентированных на такие области, как создание изображений, математика и кодирование.

Первый взгляд на генерацию визуальных эффектов: запуск Meta AIФункция подсказки создания изображения «Представь меня», который позволяет пользователям вводить «представь меня» в чате Meta AI и добавлять подсказки, такие как «представь меня как члена королевской семьи» или «представь меня в сюрреалистической картине», чтобы создавать изображения и делиться ими с друзьями и семьей.


Мета ИИ будет онлайн«Редактировать с помощью ИИ» Благодаря этой функции пользователи могут легко добавлять или удалять объекты одним щелчком мыши, а также изменять и редактировать их, сохраняя при этом остальную часть изображения неизменной, например «Заменить кошку на корги». Meta AI также будет поддерживать добавление вновь созданных изображений в сообщения Facebook, а также на социальные платформы, такие как Instagram, Messenger и WhatsApp.


В области математики и программирования пользователи могут получать помощь с математическими заданиями с пошаговыми объяснениями и отзывами, быстрее писать код благодаря поддержке отладки и предложениям по оптимизации, а также осваивать сложные технические и научные концепции под руководством экспертов.


Пользователи могут объединить опыт Meta AI в области кодирования и возможности создания изображений для создания новых игр с нуля или новых взглядов на классические игры. Чтобы воплотить ваши фантастические идеи в реальность и даже позволить пользователям напрямую просмотреть игру, потребуется всего несколько минут.

Стоит отметить, что Meta AI также подходит дляУмные очки Ray-Ban Meta и будет запущен в экспериментальном режиме на Meta Quest в США и Канаде в следующем месяце. Meta AI заменит текущие голосовые команды в Quest, позволяя пользователям управлять гарнитурой без помощи рук, получать ответы на вопросы, получать информацию в режиме реального времени, проверять погоду и многое другое.

Пользователи также могут использовать Meta AI с изображением, которое они видят в гарнитуре, например, спрашивать их о вещах, которые они видят в физической среде.

4. Открытое письмо Цукерберга: Открытый исходный код лучше для разработчиков, Meta и всего мира

Только что вышла серия Llama 3.1, и в то же время на официальном сайте был запущен длинный блог Цукерберга, что еще сильнее усилило запах пороха между моделями с открытым и закрытым исходным кодом.


▲Скриншот части открытого письма Цукерберга

Вначале Цукерберг упомянул, что разрыв между моделями с открытым и закрытым исходным кодом постепенно сокращается. В прошлом году Llama 2 была лишь на одном уровне с самой совершенной моделью с закрытым исходным кодом предыдущего поколения. В этом году Llama 3 находится в одном ряду с самыми продвинутыми моделями и лидирует в некоторых областях.

Он ожидает, что начиная со следующего года модель Llama станет самой продвинутой в отрасли. . А нынешние модели серии Llama уже занимают лидирующие позиции по открытости, модифицируемости и экономичности.

В своем блоге он прямо указал на модель с закрытым исходным кодом и ответил на три основных вопроса: почему ИИ с открытым исходным кодом хорош для разработчиков, почему ИИ с открытым исходным кодом хорош для Meta и почему ИИ с открытым исходным кодом хорош для мира.

Во-первых, чем полезен ИИ с открытым исходным кодом для разработчиков?

Он считает, что разработчикам необходимо обучать и настраивать свои собственные модели для удовлетворения своих конкретных потребностей; разработчикам необходимо самим контролировать свою судьбу, а не быть привязанными к закрытому поставщику; разработчикам необходимо защищать свои собственные данные; разработчикам необходимо быть эффективными; дешевая в эксплуатации модель; разработчики хотят инвестировать в экосистему, которая станет долгосрочным стандартом.

Преимущество искусственного интеллекта с открытым исходным кодом для Meta заключается в том, что бизнес-модель Meta заключается в создании лучшего опыта и услуг для людей. Для этого он считает, что компания должна гарантировать, что всегда имеет доступ к лучшим технологиям и не попадает в закрытость. экосистема конкурентов.

В то же время искусственный интеллект с открытым исходным кодом побудит Meta превратить Llama в полноценную экосистему, которая потенциально может стать отраслевым стандартом.

Он также упомянул, что одно из ключевых отличий между Meta и игроками моделей с закрытым исходным кодом заключается в том, что продажа доступа к моделям ИИ не является бизнес-моделью Meta, а это означает, что открытый исходный код не повлияет на ее доходы, устойчивость или постоянные инвестиции в исследования. .

Наконец, Meta имеет долгую историю успешных проектов с открытым исходным кодом.

Что касается дебатов о безопасности моделей искусственного интеллекта с открытым исходным кодом, Цукерберг говорит следующее:ИИ с открытым исходным кодом будет безопаснее других вариантов . Он считает, что открытый исходный код гарантирует, что больше людей во всем мире смогут воспользоваться преимуществами и возможностями, предоставляемыми ИИ, что власть не будет сосредоточена в руках нескольких компаний, и что технология сможет применяться более равномерно и безопасно во всем обществе.

Вывод: Meta сделала еще один шаг, и дебаты об открытых и закрытых источниках больших моделей изменились.

Битва между большими моделями с открытым и закрытым исходным кодом продолжается...

Из выпуска серии моделей Meta Llama 3.1 видно, что разрыв между крупными моделями с открытым и закрытым исходным кодом сокращается, и существует сильная тенденция идти в ногу друг с другом и догонять друг друга. . Будучи верным сторонником больших моделей с открытым исходным кодом и пионером в области технологических инноваций, Meta была полна решимости создать собственную экосистему с открытым исходным кодом с момента выпуска серии моделей Llama. В то же время, по сравнению с предыдущей моделью Llama, Meta также создаст внутреннюю команду для выпуска этой новой модели, чтобы позволить как можно большему количеству разработчиков и партнеров использовать серию Llama.

Meta сделала еще один шаг, сделав итог дебатов о моделях с открытым и закрытым исходным кодом еще более запутанным. Но в конечном итоге в реальных приложениях многие предприятия и разработчики предпочтут использовать модели с открытым или закрытым исходным кодом в соответствии с конкретными потребностями и ситуациями. Поэтому потребуется время, чтобы доказать конкретные возможности модели и ее реальное применение. жизненные сценарии.