Новости

Модель с открытым исходным кодом превосходит самую сильную модель с закрытым исходным кодом. Может ли Llama 3.1 подорвать экосистему искусственного интеллекта? |Цзязи Гуаннянь

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Цукерберг обещает до конца стремиться к открытому исходному коду.

Автор|Сухой

Редактор |Чжао Цзянь

Лама 3.1 наконец-то здесь.

23 июля по местному времени в США Meta официально выпустила Llama 3.1. Он включает три размера: 8Б, 70Б и 405Б, а максимальный контекст увеличен до 128к. Llama в настоящее время является одной из крупных модельных серий с наибольшим количеством пользователей и самой высокой производительностью в области открытого исходного кода.

Основными моментами этой Ламы 3.1 являются:

1. Существует три версии: 8B, 70B и 405B, из которых версия 405B на данный момент является одной из крупнейших моделей с открытым исходным кодом. 2. Модель имеет 405 миллиардов параметров, превосходя по производительности существующие топовые модели ИИ; Более длинное контекстное окно (до 128 тыс. токенов), способное обрабатывать более сложные задачи и диалоги. 4. Поддерживает многоязычный ввод и вывод, повышая универсальность и применимость модели. 5. Улучшенные возможности рассуждения, особенно при решении; сложные математические задачи и генерация контента на лету.

Meta написала в своем официальном блоге: «Сегодня по-прежнему нормально, что производительность моделей больших языков с открытым исходным кодом отстает от моделей с закрытым исходным кодом. Но сейчас мы вступаем в новую эру, возглавляемую открытым исходным кодом. Наш публичный выпуск Meta Llama 3.1 405B — первая в мире. Самая большая и мощная базовая модель с открытым исходным кодом на рынке. На сегодняшний день совокупное количество загрузок всех версий Llama превышает 300 миллионов, и это только начало».

Споры между открытым исходным кодом и закрытым исходным кодом всегда были горячей темой в сфере технологий.

Программное обеспечение с открытым исходным кодом более прозрачно и гибко, что позволяет разработчикам по всему миру совместно просматривать, изменять и улучшать код, способствуя тем самым быстрым инновациям и прогрессу в технологиях. Модели с закрытым исходным кодом обычно разрабатываются и поддерживаются одной компанией или организацией, которая может предоставить профессиональную поддержку и услуги для обеспечения безопасности и стабильности программного обеспечения. Но эта модель также ограничивает возможности пользовательского контроля и настройки.

До сих пор модель с закрытым исходным кодом всегда была немного лучше. До выхода Llama 3.1 продолжались ожесточенные дебаты по поводу открытого и закрытого исходного кода: модель с открытым исходным кодом наконец-то может конкурировать с моделью с закрытым исходным кодом.

Согласно данным тестирования, предоставленным Meta, самая популярная версия 405B уже сравнима по производительности с GPT-4 и Claude 3. Среди них человеческая оценка в основном используется для оценки способности модели понимать и генерировать код, а также решать абстрактные логические задачи. По сравнению с другими крупными моделями Llama 3.1 405B выглядит немного лучше.


Llama 3.1 находится на одном уровне с GPT-4 и Claude 3.5. Источник: Meta.

Эндрю Нг, доцент кафедры информатики и электротехники и директор лаборатории искусственного интеллекта Стэнфордского университета, похвалил «команды Meta и Llama за их огромный вклад в открытый исходный код» в социальных сетях. «Благодаря увеличенной длине контекста и улучшенной функциональности Llama 3.1 является фантастическим подарком для всех», — сказал он и выразил надежду, что «глупые правила, подобные предложенному в Калифорнии SB1047, не помешают таким инновациям».


Социальные сети Нг Энды, источник: X

Ян ЛеКун, лауреат премии Тьюринга и главный научный сотрудник по искусственному интеллекту в Meta, процитировал описание производительности Llama 3.1, опубликованное The Verge: Meta выпустила самую крупную и лучшую на сегодняшний день модель искусственного интеллекта с открытым исходным кодом: Llama 3.1 показывает хорошие результаты в определенных тестах. При тестировании она превзошла OpenAI и другие конкуренты.


Социальные сети Ян Ликуня, источник: X

Интересно, что вчера предполагалось, что версия 405B Llama 3.1 была «украдена» на HugginFace и GitHub. Оценочные данные, отправленные осведомителем, в основном соответствуют информации о версии, официально опубликованной сегодня.

Марк Цукерберг, основатель и генеральный директор Meta, лично написал длинную статью под названием «ИИ с открытым исходным кодом — это путь вперед», в которой подробно описываются преимущества открытого исходного кода для разработчиков и Meta, а также почему это важно во всем мире.

Он прогнозирует, что к концу этого года Meta AI превзойдет ChatGPT как наиболее широко используемый помощник.

Он также сказал:Клянусь реализовать открытый исходный код до конца.


Часть статьи «ИИ с открытым исходным кодом — это путь вперед», источник Meta

1.Создание Ламы 3.1

Что касается архитектуры модели, Llama 3.1, являющаяся крупнейшей моделью Meta на сегодняшний день, обучается на данных из более чем 15 триллионов токенов, а данные предварительного обучения доступны до декабря 2023 года.

Чтобы реализовать обучение в таком большом масштабе за разумное время и достичь желаемых результатов, Meta оптимизировала весь стек обучения, используя более 16 000 блоков H100 — это первая модель Llama, обученная в таком масштабе.


Архитектура модели трансформатора в процессе генерации текста Llama 3.1, источник: Meta

Чтобы максимизировать стабильность и удобство обучения, Meta выбрала для тонкой настройки стандартную архитектуру модели Transformer, состоящую только из декодера, вместо популярной в настоящее время архитектуры смешанной экспертной модели (MoE).

Это решение позволяет Llama 3.1 по-прежнему обеспечивать высококачественный вывод короткого текста при поддержке длины контекста до 128 КБ, обеспечивая гибкую обработку длинного и короткого текста, а не просто сосредотачиваясь на длинном тексте.

В то же время исследовательская группа внедрила итерационный метод постобучения для генерации высококачественных синтетических данных и улучшения различных функций модели посредством каждого раунда контролируемой точной настройки и прямой оптимизации предпочтений. По сравнению с предыдущими версиями, в Llama 3.1 увеличено количество и качество данных до и после обучения, представлены более подробные процессы предварительной обработки и управления, а также более строгие технологии обеспечения качества и фильтрации.

Согласно закону расширения языковых моделей, Llama 3.1 превосходит по производительности предыдущие небольшие модели, использующие ту же процедуру обучения.

Чтобы удовлетворить требования к работе крупномасштабных моделей 405B, Meta квантовала данные модели с 16-битного (BF16) до 8-битного (FP8), что значительно снизило потребность в вычислительных ресурсах и позволило модели работать на один серверный узел.

Что касается тонкой настройки команд и чата модели Llama 3.1 405B, команда разработчиков стремится улучшить отзывчивость модели, ее практичность и качество на команды пользователя, обеспечивая при этом высокую степень безопасности.

На этапе после обучения команда внесла несколько корректировок на основе предварительного обучения. Каждый раунд включает контролируемую точную настройку (SFT), отбраковочную выборку (RS) и оптимизацию прямых предпочтений (DPO).Кроме того, команда использовала генерацию синтетических данных для создания подавляющего большинства примеров SFT, то есть они полагались не только на реальные данные, но и на алгоритмически сгенерированные данные для обучения модели.

В то же время команда также использует различные методы обработки данных для фильтрации этих данных, чтобы обеспечить высочайшее качество и расширить диапазон применения точно настроенных данных.

Meta также изучает новую стратегию, которая заключается в использовании модели 405B в качестве «модели учителя» для моделей 70B и 8B, тем самым извлекая небольшие индивидуальные модели из больших моделей, отвечающих потребностям различных отраслей. Этот подход совпадает со стратегией GPT-4o mini.То есть «сначала сделайте его большим, а потом маленьким».

Андрей Карпати, один из бывших членов-основателей OpenAI, однажды прокомментировал GPT-4o Mini: «Модель сначала должна стать больше, прежде чем она станет меньше. Потому что они нужны нам, чтобы (автоматически) помочь реконструировать обучающие данные, чтобы сделать их идеальными. синтетический формат». Он отметил, что этот метод может эффективно передавать глубину и широту знаний больших моделей в модели меньшего размера, которые более практичны и менее дороги.

Будучи лидером в области моделей с открытым исходным кодом, Meta также продемонстрировала искренность в поддержке возможностей модели Llama.

Система Llama спроектирована как комплексная платформа, которая может интегрировать несколько компонентов, включая вызов внешних инструментов. Цель Meta — предоставить более широкую систему, которая позволит разработчикам гибко проектировать и создавать индивидуальные продукты, отвечающие их потребностям.

Чтобы ответственно развивать искусственный интеллект за пределами уровня модели, исследовательская группа выпустила полную справочную систему с множеством примеров приложений и новыми компонентами, такими как многоязычная модель безопасности Llama Guard 3 и фильтр быстрого внедрения Prompt Guard. Эти приложения имеют открытый исходный код и доступны для дальнейшей разработки сообществом.

Чтобы лучше определить интерфейсы компонентов и продвигать их стандартизацию в отрасли, исследователи сотрудничали с промышленностью, стартапами и более широким сообществом и опубликовали предложение «Llama Stack» на GitHub. Это набор стандартизированных интерфейсов, которые упрощают создание компонентов цепочки инструментов (таких как точная настройка, генерация синтетических данных) и приложений-агентов.

Согласно данным тестового тестирования, предоставленным Meta, Llama 3.1 405B набрал 98,1 балла в тесте NIH/Multi-needle, что сопоставимо с GPT-4 и Claude 3.5 с точки зрения производительности. Версия 405B обладает превосходной способностью интегрировать массивную текстовую информацию и получила оценку 95,2 в тесте производительности ZeroSCROLLS/QuALITY. Она очень удобна для разработчиков приложений искусственного интеллекта, которые обеспокоены производительностью RAG.


Llama 3.1 по сравнению с моделями с закрытым исходным кодом, такими как GPT4, источник: Meta


Llama 3.1 по сравнению с моделями с открытым исходным кодом, такими как Mistral 7B Instruct, источник: Meta

Версия Llama 3.1 8B значительно лучше, чем Gemma 2 9B 1T и Mistral 7B Instruct, а ее характеристики значительно улучшены по сравнению с предыдущим поколением Llama 3 8B. При этом версия Llama 3.1 70B даже превзошла GPT-3.5 Turbo.

Согласно официальному отчету команды Llama, они провели глубокую оценку производительности и обширное ручное тестирование этих моделей на более чем 150 наборах многоязычных тестовых данных. Результаты показывают, что топ-модель Llama сравнима с топовыми базовыми моделями на рынке, такими как GPT-4, GPT-4o и Claude 3.5 Sonnet, при выполнении различных задач. В то же время по сравнению с моделями с закрытым и открытым исходным кодом со схожими шкалами параметров маленькая версия Llama также показала сильную конкурентоспособность.


2.Споры между моделями с открытым и закрытым исходным кодом

Может ли модель с открытым исходным кодом превзойти модель с закрытым исходным кодом?

Этот вопрос вызывает споры с прошлого года. Пути развития двух моделей отражают разные технические философии, и каждая из них имеет свои преимущества в содействии технологическому прогрессу и удовлетворении потребностей бизнеса.

Например, Llama 3.1 — это крупная модель с открытым исходным кодом, которая позволяет исследователям и разработчикам получать доступ к ее исходному коду, а люди могут свободно изучать, изменять и даже улучшать модель. Такая открытость способствует широкому сотрудничеству и инновациям, позволяя разработчикам из разных слоев общества работать вместе для решения проблем.

Напротив, ChatGPT — это модель с закрытым исходным кодом, разработанная OpenAI. Хотя она обеспечивает доступ к API, ее основной алгоритм и данные обучения полностью не раскрыты. Закрытый исходный код GPT-3 делает его более устойчивым на пути коммерциализации. В то же время его управляемость обеспечивает стабильность и безопасность продукта, что делает его более надежным для предприятий при работе с конфиденциальной информацией. Однако эта закрытость также ограничивает способность внешних исследователей полностью понять и обновить модель.

В мае прошлого года зарубежные СМИ сообщили, что Google опубликовал документ на тему: «У нас нет рва, как и у OpenAI. Пока мы все еще спорим, открытый исходный код незаметно украл наши рабочие места». После того, как в том же году Meta выпустила большую модель Llama 2 с открытым исходным кодом, Ян Ликунь заявил, что Llama 2 изменит структуру рынка больших языковых моделей.

Люди с нетерпением ждут сообщества открытого исходного кода, возглавляемого серией моделей Llama. Раньше самая совершенная закрытая модель GPT-4 всегда была чуть лучше, хотя разрыв между Llama 3 на тот момент был уже очень небольшим.

Наиболее авторитетным списком в области больших моделей является «Арена больших моделей» (LLM Arena), перенявшая систему очков ЭЛО из шахмат. Его основное правило — позволить пользователям задавать любые вопросы двум анонимным моделям (например, ChatGPT, Claude, Llama) и голосовать за ту, которая даст лучший ответ. Модель с лучшими ответами получит баллы, а окончательный рейтинг определяется на основе накопленных баллов. Arean ELO собрала данные голосования 500 000 человек.


Обзор рейтинга крупных моделей, источник: LLM Arena.

В рейтинге LLM Arena GPT-4o от OpenAI в настоящее время занимает первое место. Все десять лучших моделей имеют закрытый исходный код. Хотя модель с закрытым исходным кодом по-прежнему далеко впереди в рейтингах, разрыв между моделями с открытым и закрытым исходным кодом не растет, как сказал Робин Ли на конференции Baidu AI Developer Conference 2024 года, а на самом деле постепенно сокращается.


Во время WAIC Робин Ли сказал: «Открытый исходный код на самом деле является своего рода налогом на IQ».Источник: Байду

С выходом сегодня Llama 3.1 модель с открытым исходным кодом наконец-то может конкурировать с моделью с закрытым исходным кодом.

Что касается того, какая модель с открытым или закрытым исходным кодом лучше, «Цзязи Гуаннянь» обсуждал со многими практиками отрасли искусственного интеллекта. В отрасли обычно считают, что:Это часто зависит от личной позиции и не является простым черно-белым вопросом.

Вопрос открытого и закрытого исходного кода — это не чисто техническая разница, а скорее выбор бизнес-модели. В настоящее время, независимо от того, является ли это крупной моделью с открытым или закрытым исходным кодом, полностью успешная бизнес-модель еще не найдена.

Так какие же факторы влияют на различия в возможностях моделей с открытым и закрытым исходным кодом?

Чжан Цзюньлинь, руководитель отдела исследований и разработок новых технологий Weibo, отметил, что скорость роста возможностей модели является ключевым фактором. Если возможности модели быстро растут, это означает, что за короткий период времени требуется большое количество вычислительных ресурсов. В этом случае модель с закрытым исходным кодом имеет больше преимуществ из-за своих ресурсных преимуществ. Напротив, если возможности модели растут медленно, разрыв между открытым и закрытым исходным кодом будет уменьшаться, а скорость догоняющего развития ускоряется.

Он полагает, что в ближайшие несколько лет разница в возможностях моделей с открытым и закрытым исходным кодом будет зависеть от развития технологии «синтетических данных». Если технология «синтетических данных» добьется значительного прогресса в ближайшие два года, разрыв между ними может увеличиться, если не произойдет прорыва, возможности этих двух технологий будут иметь тенденцию быть схожими.

В целом «синтетические данные» станут ключевой технологией разработки больших языковых моделей в будущем.

Открытый или закрытый исходный код сам по себе не определяет производительность модели. Модели с закрытым исходным кодом не лидируют, потому что они имеют закрытый исходный код, а модели с открытым исходным кодом не отстают, потому что они имеют открытый исходный код. Даже наоборот, модель выбирает закрытый исходный код, потому что он лидирует, и ей приходится выбирать открытый исходный код, потому что он недостаточно лидирует.

Если компания создает очень производительную модель, она может перестать быть открытым исходным кодом.

Например, французский звездный стартап Mistral, его самая мощная модель 7B с открытым исходным кодом Mistral-7B и первая модель MoE с открытым исходным кодом 8x7B (MMLU 70) являются одними из самых популярных моделей в сообществе открытого программного обеспечения. Однако модели Mistral-Medium (MMLU-75) и Mistral-Large (MMLU-81), впоследствии обученные Mistral, являются моделями с закрытым исходным кодом.

В настоящее время как наиболее эффективная модель с закрытым исходным кодом, так и наиболее эффективная модель с открытым исходным кодом доминируют среди крупных компаний, и среди крупных компаний Meta имеет наибольшую решимость в отношении открытого исходного кода.Если OpenAI не является открытым исходным кодом с точки зрения коммерческой выгоды, то какова цель того, что Meta выбрала открытый исходный код и позволила пользователям опробовать его бесплатно?

В финансовом отчете за последний квартал Цукерберг ответил на этот вопрос, что открытый исходный код технологии искусственного интеллекта Meta призван способствовать технологическим инновациям, улучшать качество моделей, устанавливать отраслевые стандарты, привлекать таланты, повышать прозрачность и поддерживать долгосрочные стратегии.

На этот раз Цукерберг подробно объяснил, «почему ИИ с открытым исходным кодом хорош для разработчиков» в статье «ИИ с открытым исходным кодом — путь вперед»:

В разговорах с разработчиками, генеральными директорами и государственными чиновниками со всего мира я часто слышу, как они подчеркивают необходимость обучения, доводки и оптимизации своих собственных моделей.

Каждая организация имеет уникальные потребности, и модели разных размеров могут быть оптимизированы для этих нужд, обучены или доработаны с использованием конкретных данных. Для простых задач на устройстве и задач классификации могут потребоваться модели меньшего размера, а для более сложных задач — модели большего размера.

Теперь вы можете использовать самые современные модели Llama и продолжать обучать их на собственных данных, а затем оптимизировать их до идеального масштаба — при этом ни мы, ни кто-либо еще не будет иметь доступа к вашим данным.

Нам нужно контролировать свою судьбу, а не быть зависимыми от поставщика с закрытым исходным кодом.

Многие организации не хотят полагаться на модель, которую они не могут запустить и контролировать самостоятельно. Они обеспокоены тем, что поставщики моделей с закрытым исходным кодом могут изменить модель, условия использования или даже полностью прекратить предоставление услуг. Они также не хотят быть привязанными к одной облачной платформе, имеющей эксклюзивные права на определенную модель. Открытый исходный код предоставляет многим компаниям совместимую цепочку инструментов, что позволяет легко переключаться между различными системами.

Нам необходимо защитить наши данные.

Многие организации обрабатывают конфиденциальные данные и нуждаются в защите этих данных от отправки через облачные API в модели с закрытым исходным кодом. Другие организации просто не доверяют подходу поставщика моделей с закрытым исходным кодом к обработке данных. Открытый исходный код решает эти проблемы, позволяя запускать модели где угодно, и широко считается более безопасным из-за прозрачности процесса разработки.

Нам нужен эффективный и экономичный способ работы.

Разработчики могут запускать модели Llama 3.1 405B для вывода в своей собственной инфраструктуре примерно за половину стоимости использования моделей с закрытым исходным кодом, таких как GPT-4o, подходящих для задач вывода с участием пользователя и в автономном режиме.

Мы делаем ставку на экосистему, которая обещает стать долгосрочным стандартом.

Многие люди видят, что модели с открытым исходным кодом развиваются быстрее, чем модели с закрытым исходным кодом, и надеются, что построенная ими системная архитектура принесет наибольшие долгосрочные преимущества.

(Обложка из аккаунта Meta X)