Llama 3.1 официально выпущена: 405 миллиардов параметров модели с открытым исходным кодом Сяо Чжа: Освободите исходный код до конца

Llama 3.1 официально выпущена: 405 миллиардов параметров модели с открытым исходным кодом Сяо Чжа: Доведите открытый исходный код до конца

2024-07-24

Текст | Дэн Юнъи и Чжоу Синьюй

Редактор ｜Су Цзяньсюнь

Трон GPT-4o еще не согрелся, Сяо Чжа возглавил армию открытого исходного кода и бросился туда——

Как сообщалось ранее, Meta официально выпустила Llama 3.1 23 июля по тихоокеанскому времени в США. На сегодняшний день это наиболее широко используемая и самая производительная серия крупных моделей в области открытого исходного кода.

По совпадению, за день до выпуска в сообщество разработчиков «просочилась» версия Llama 3.1. Помимо информации о модели, она также включала магнитную ссылку на модель 405B. Разработчики уже с энтузиазмом играли с ней.

Официально опубликованная информация о Llama 3.1 также соответствует новости: есть три размера: 8B, 70B и 405B, а длина контекста увеличена до 128К.

По данным бенчмарк-тестов, предоставленных Meta, самый популярный 405B (405 миллиардов параметров) уже сравним по производительности с GPT-4 и Claude 3.5.

△Сравнение с GPT-4 и Клодом 3.5

Перед нынешними топ-моделями Ишуй Лама 3.1 не боится:

△Сравнение с моделью с закрытым исходным кодом

△Сравнение с моделью с открытым исходным кодом

Можно сказать, что выпуск Llama 3.1 стал важной вехой в недавней ожесточенной битве между открытым и закрытым исходным кодом: лучшие модели с открытым исходным кодом действительно объединили свои усилия с лучшими моделями с закрытым исходным кодом.

«До сих пор крупномасштабные языковые модели с открытым исходным кодом в основном отставали от закрытых моделей с точки зрения функциональности и производительности. Теперь мы вступаем в новую эру, возглавляемую открытым исходным кодом», — сказал Мета.

△Картинка, которая в последнее время стала популярной в кругах ИИ: модель с открытым исходным кодом догоняет модель с закрытым исходным кодом.

Meta также приложила к своему официальному выпуску 92-страничный документ, раскрывающий подробности обучения:

Llama 3.1 была обучена на данных более чем 15 триллионов токенов с использованием 16 000 блоков H100. Используются данные перед обучением по состоянию на декабрь 2023 года. Чтобы обеспечить стабильность обучения, для настройки используется только архитектура модели Transformer вместо популярной в настоящее время архитектуры смешанной экспертной модели (MoE).

Это также приводит к тому, что Llama 3.1 может поддерживать высококачественный вывод коротких контекстных окон, даже если его длина контекста расширена до 128 КБ. Это уже не «специальный длинный текст», а «длинный и короткий свободно».

В настоящее время в мире нет такой крупной модели с открытым исходным кодом, которая достигла бы такого масштаба обучения.

Для получения более подробной информации мы также подробно представили это несколько часов назад. Я не буду здесь вдаваться в подробности. Нажмите здесь.

В 2024 году, когда масштабы обучения моделей становятся все больше и больше, разработчики также задаются вопросом: продолжат ли крупные компании, которые заплатили огромные затраты на обучение, продолжать открывать исходный код?

В конце концов, OpenAI — это урок, извлеченный из прошлого: на заре он придерживался духа открытого исходного кода, но с тех пор, как GPT3.5 стал популярным и стал коммерциализирован, OpenAI больше не является открытым исходным кодом и его высмеивают как закрытый ИИ.

Но в момент выхода Llama 3.1 Цукерберг еще раз подчеркнул:

Проведите open source до конца!

Помимо выпуска модели, Сяо Чжа также опубликовал продуманный и идеалистический манифест открытого исходного кода, объясняющий, почему Meta должна быть открытым исходным кодом и почему открытый исходный код выгоден разработчикам.

Стоит отметить, что он считает, что, хотя Соединенные Штаты и Китай сталкиваются с жесткой конкуренцией в области ИИ, выбор пути с открытым исходным кодом по-прежнему имеет больше преимуществ, чем недостатков.

Ладно, Llama 3.1 уже такая, и нам придется задать вопрос еще раз: когда появятся OpenAI и GPT-5?

Ниже приводится открытое письмо Цукерберга, составленное «Intelligent Emergence»:

«ИИ с открытым исходным кодом — это путь вперед»

На заре высокопроизводительных вычислений крупнейшие технологические компании того времени инвестировали значительные средства в разработку собственных версий Unix с закрытым исходным кодом. В то время было трудно представить какой-либо другой способ разработки такого продвинутого программного обеспечения.

Тем не менее, Linux с открытым исходным кодом в конечном итоге завоевал популярность — первоначально потому, что он позволял разработчикам изменять свой код так, как они хотели, и был дешевле; со временем он стал более продвинутым, более безопасным и имел более широкую экосистему, чем любая Unix с закрытым исходным кодом, поддерживая больше функций. . Сегодня Linux является отраслевым стандартом для облачных вычислений и операционной системой, на которой работает большинство мобильных устройств, и мы все извлекаем выгоду из ее превосходства.

Я считаю, что искусственный интеллект будет развиваться аналогичным образом. Сегодня несколько технологических компаний разрабатывают ведущие модели с закрытым исходным кодом. Но открытый исходный код быстро закрывает этот пробел. В прошлом году Llama 2 можно было сравнить только с моделями старшего поколения, которые отставали от передовых технологий. В этом году Llama 3 конкурирует с самыми продвинутыми моделями и лидирует в некоторых областях. Мы ожидаем, что начиная со следующего года будущая Лама станет самой продвинутой в отрасли. Но до этого Llama уже лидировала в области открытого исходного кода, модифицируемости и экономической эффективности.

Сегодня мы делаем следующий шаг к тому, чтобы сделать ИИ с открытым исходным кодом отраслевым стандартом. Мы выпустим Llama 3.1 405B, первую ведущую в отрасли модель искусственного интеллекта с открытым исходным кодом, а также новые и улучшенные модели Llama 3.1 70B и 8B. Помимо лучшего соотношения цены и производительности по сравнению с моделями с закрытым исходным кодом, тот факт, что модель 405B имеет открытый исходный код, сделает ее лучшим выбором для точной настройки и извлечения моделей меньшего размера.

Помимо выпуска этих моделей, мы также работаем с рядом компаний над расширением экосистемы. Amazon, Databricks и Nvidia запускают полный набор услуг для поддержки разработчиков в настройке и доработке их собственных моделей. Инновационные компании, такие как Groq (стартап по производству ИИ-чипов), создали недорогие службы вывода с малой задержкой для всех новых моделей.

Эти модели будут доступны во всех основных облаках, включая AWS, Azure, Google, Oracle и других. Scale.AI, Dell, Deloitte и другие готовы помочь предприятиям развернуть Llama и обучить пользовательские модели, используя их собственные данные. По мере того, как сообщество растет и все больше компаний разрабатывают новые услуги, вместе мы сможем сделать Llama отраслевым стандартом и предоставить преимущества ИИ всем.

Meta стремится использовать ИИ с открытым исходным кодом. Я объясню, почему я считаю, что открытый исходный код является лучшим стеком разработки для людей, почему Llama с открытым исходным кодом хорош для Meta, почему ИИ с открытым исходным кодом полезен для мира, и из-за этого сообщество открытого исходного кода здесь, чтобы остаться.

Почему ИИ с открытым исходным кодом хорош для разработчиков

Когда я разговариваю с разработчиками, генеральными директорами и правительственными чиновниками по всему миру, я обычно слышу несколько тем:

Нам необходимо обучать, настраивать и совершенствовать собственные модели.

Каждая организация имеет разные потребности, которые лучше всего удовлетворяются моделями разных размеров, которые обучаются или настраиваются с использованием конкретных данных. Для задач на устройстве и задач классификации требуются модели меньшего размера, а для более сложных задач — модели большего размера.

Теперь вы сможете брать самые современные модели лам, продолжать их обучение, используя свои собственные данные, а затем уточнять их до модели оптимального размера - без того, чтобы мы или кто-либо еще когда-либо видел ваши данные.

Нам нужно контролировать свою судьбу и не быть привязанными к поставщику с закрытым исходным кодом.

Многие организации не хотят полагаться на модель, которую они не могут использовать и контролировать. Они не хотят, чтобы поставщики моделей с закрытым исходным кодом могли изменять свои модели, условия использования или даже полностью прекращать их обслуживание. Они также не хотят быть привязанными к одному облаку, имеющему эксклюзивные права на определенную модель. Открытый исходный код предоставляет совместимые наборы инструментов для многих экосистем компаний, и вы можете легко переключаться между ними.

Нам необходимо защитить наши данные.

Многие организации обрабатывают конфиденциальные данные, которые необходимо защищать и которые нельзя перенести через облачные API в модель с закрытым исходным кодом. Другие организации просто не доверяют поставщикам моделей с закрытым исходным кодом свои данные. Открытый исходный код решает эти проблемы, позволяя запускать модель где угодно. Широко признано, что программное обеспечение с открытым исходным кодом более безопасно, поскольку оно разрабатывается более прозрачно.

Нам нужна эффективная и доступная операционная модель.

Разработчики могут запускать логический вывод на Llama 3.1 405B в своей собственной инфраструктуре примерно за 50 % стоимости использования моделей с закрытым исходным кодом, таких как GPT-4o, для задач вывода, ориентированных на пользователя и в автономном режиме.

Мы делаем ставку на экосистему, которая может стать долгосрочным стандартом.

Многие люди видят, что открытый исходный код развивается быстрее, чем модели с закрытым исходным кодом, и они хотят, чтобы архитектура, на которой построены их системы, давала им наибольшее долгосрочное преимущество.

Почему ИИ с открытым исходным кодом хорош для Meta

Бизнес-модель Meta заключается в создании лучшего опыта и услуг для людей. Для этого мы должны гарантировать, что у нас всегда есть доступ к лучшим технологиям, а не быть запертыми в экосистеме с закрытым исходным кодом конкурента, который ограничивает то, что мы можем создать.

Одним из моих формирующих событий было то, что наши услуги были ограничены тем, что Apple позволила нам построить на своей платформе. То, как они облагают налогом разработчиков, произвольные правила, которые они применяют, и все инновации в продуктах, которые они препятствуют выпуску, ясно, что если мы можем создавать лучшие версии наших продуктов, а конкуренты не могут ограничивать то, что мы можем создать, тогда Мета и многие другие компании смогут создавать более качественные услуги для людей. На философском уровне это основная причина, почему я так твердо верю в создание экосистемы с открытым исходным кодом для следующего поколения вычислений в области искусственного интеллекта и дополненной и виртуальной реальности.

Люди часто спрашивают меня, не беспокоюсь ли я, что Llama с открытым исходным кодом откажется от технических преимуществ, но я думаю, что это игнорирует некоторые важные причины:

Во-первых, чтобы гарантировать, что у нас есть доступ к лучшим технологиям и не быть запертыми в экосистеме с закрытым исходным кодом в течение длительного периода времени, Llama необходимо превратиться в полноценную экосистему, включая инструменты, улучшения эффективности, оптимизацию микросхем и другие интеграции. Если бы мы были единственной компанией, использующей Llama, экосистема не росла бы, и мы не были бы лучше, чем варианты Unix с закрытым исходным кодом.

Во-вторых, я ожидаю, что конкуренция будет усиливаться по мере развития интеллекта, а это означает, что в этот момент, открывая исходный код какой-либо конкретной модели, люди не откажутся от следующей модели, которая имеет большее преимущество. Путь Llama к тому, чтобы стать отраслевым стандартом, лежит через модель последовательной конкуренции, эффективности и открытого исходного кода поколение за поколением.

В-третьих, ключевое различие между поставщиками мета-моделей и моделями с закрытым исходным кодом заключается в том, что продажа доступа к моделям ИИ не является нашей бизнес-моделью. Это означает, что публичный выпуск Llama не снижает наши доходы, устойчивость или способность инвестировать в исследования, как это происходит с поставщиками с закрытым исходным кодом. (Это одна из причин, почему несколько поставщиков закрытых исходных кодов лоббируют правительства против открытого исходного кода.)

Наконец, Meta имеет долгую историю и успех в проектах с открытым исходным кодом. Мы сэкономили миллиарды долларов, выпустив проекты наших серверов, сетей и центров обработки данных в рамках проекта Open Source Compute Project и стандартизировав нашу цепочку поставок на основе наших проектов. Мы извлекаем выгоду из инноваций экосистемы, ведущих инструментов с открытым исходным кодом, таких как PyTorch, React и многих других. Этот подход всегда работал для нас, когда мы придерживались его в долгосрочной перспективе.

Почему ИИ с открытым исходным кодом полезен для мира

Я считаю, что открытый исходный код необходим для позитивного будущего ИИ. Искусственный интеллект обладает большим потенциалом, чем любая другая современная технология, для повышения производительности, творческих способностей и качества жизни человека, а также для продвижения медицинских и научных исследований, одновременно ускоряя экономический рост.

Открытый исходный код гарантирует, что больше людей во всем мире получат доступ к преимуществам и возможностям ИИ, власть не будет сосредоточена в руках нескольких компаний, а технология сможет более равномерно и безопасно распространяться в обществе.

Продолжаются дебаты о безопасности моделей ИИ с открытым исходным кодом, и я считаю, что ИИ с открытым исходным кодом будет более безопасным, чем альтернативы. Я думаю, правительства придут к выводу, что в их интересах поддерживать открытый исходный код, потому что это сделает мир более процветающим и безопасным.

Я понимаю безопасность так, что нам необходимо защищаться от двух типов вреда: непреднамеренного вреда и умышленного вреда. Непреднамеренный вред — это когда система ИИ может причинить вред, даже если человек, ее использующий, не собирался этого делать.

Например, современные модели искусственного интеллекта могут непреднамеренно давать плохие советы по поводу здоровья. Или, в более футуристическом сценарии, некоторые опасаются, что модели могут непреднамеренно копировать себя или чрезмерно оптимизировать цели в ущерб людям. Умышленный вред — это когда злоумышленник использует модель ИИ с целью причинения вреда.

Стоит отметить, что непреднамеренный вред охватывает большую часть опасений людей по поводу искусственного интеллекта — от воздействия систем ИИ на миллиарды людей, которые будут их использовать, до самых поистине катастрофических научно-фантастических сценариев для человечества. В этом отношении открытый исходный код должен быть намного безопаснее, поскольку система более прозрачна и ее можно широко проверять.

Исторически по этой причине программное обеспечение с открытым исходным кодом было более безопасным. Аналогичным образом, использование Llama и ее систем безопасности, таких как Llama Guard, может быть более безопасным, чем модель с закрытым исходным кодом. В результате большинство дискуссий о безопасности ИИ с открытым исходным кодом сосредоточено на умышленном причинении вреда.

Наш процесс обеспечения безопасности включает в себя тщательное тестирование и работу красных групп для оценки того, способны ли наши модели причинить значимый вред, с целью снижения риска перед выпуском. Поскольку модель имеет открытый исходный код, каждый может протестировать ее самостоятельно.

Мы должны помнить, что эти модели обучаются на информации, которая уже доступна в Интернете, поэтому при рассмотрении вреда нашей отправной точкой должно быть то, быстрее ли модель, чем информация, которую можно получить из Google или других результатов поиска. С большей вероятностью она причинит вред.

Рассуждая о намеренном причинении вреда, полезно различать то, что может сделать отдельный или мелкий субъект, и то, что может сделать крупномасштабный субъект, такой как национальное государство с огромными ресурсами.

В какой-то момент в будущем отдельные злоумышленники смогут использовать интеллект моделей искусственного интеллекта для создания совершенно новых видов вреда на основе информации, доступной в Интернете. На этом этапе баланс сил будет иметь решающее значение для безопасности ИИ.

Я думаю, что было бы лучше жить в мире, где широко используется ИИ, чтобы крупные игроки могли уравновешивать силу мелких плохих парней. Именно так мы управляем безопасностью в социальных сетях: наши более мощные системы искусственного интеллекта выявляют и блокируют угрозы от менее искушенных злоумышленников, которые часто используют более мелкие системы искусственного интеллекта.

В более широком смысле, крупные учреждения, широко внедряющие ИИ, будут способствовать безопасности и стабильности общества в целом. Пока у каждого есть доступ к схожим моделям (что облегчает открытый исходный код), правительства и агентства, обладающие большим количеством вычислительных ресурсов, смогут проверять злоумышленников с меньшими затратами вычислений.

Следующий вопрос заключается в том, как Соединенным Штатам и демократическим странам следует реагировать на угрозы со стороны стран с огромными ресурсами, таких как Китай. Преимущество Соединенных Штатов заключается в децентрализации и инновациях с открытым исходным кодом.

Некоторые люди считают, что мы должны заблокировать наши модели, чтобы не дать Китаю получить их, но я считаю, что это не сработает и только поставит Соединенные Штаты и их союзников в невыгодное положение. Наши противники очень хороши в шпионаже. Украсть модели на USB-накопителе относительно легко, и то, как работает большинство технологических компаний, не делает эту задачу намного сложнее.

Мир, в котором используются только модели с закрытым исходным кодом, скорее всего, приведет к тому, что горстка крупных компаний и наши геополитические противники получат доступ к ведущим моделям, в то время как стартапы, университеты и малые предприятия останутся без внимания.

Более того, ограничение инноваций в США разработками с закрытым исходным кодом увеличивает вероятность того, что мы просто не будем лидерами. Вместо этого я думаю, что наша лучшая стратегия — создать сильную экосистему с открытым исходным кодом и заставить наши ведущие компании тесно сотрудничать с нашими правительствами и союзниками, чтобы гарантировать, что они могут наилучшим образом воспользоваться преимуществами последних достижений и быть устойчивыми в долгосрочной перспективе с преимуществом первопроходца.

Обдумывая будущие возможности, помните, что большинство сегодняшних ведущих технологических компаний и научных исследований построены на программном обеспечении с открытым исходным кодом. Если мы будем инвестировать вместе, следующее поколение компаний и исследований будет использовать ИИ с открытым исходным кодом. Сюда входят молодые стартапы, а также люди в университетах и странах, у которых может не быть ресурсов для разработки собственного современного ИИ с нуля.

Самое главное, что ИИ с открытым исходным кодом представляет собой лучшую в мире возможность использовать эту технологию для создания величайших экономических возможностей и безопасности для всех.

давайте строить вместе

Что касается прошлых моделей Llama, Meta разработала их для себя, а затем выпустила, не уделяя слишком много внимания созданию более широкой экосистемы.

В этом запуске мы применяем другой подход. Мы формируем внутренние команды, чтобы сделать Llama доступной как можно большему числу разработчиков и партнеров, а также активно строим партнерские отношения, чтобы больше компаний в экосистеме также могли предлагать уникальные возможности своим клиентам.

Я считаю, что выпуск Llama 3.1 станет поворотным моментом в отрасли, поскольку большинство разработчиков начнут в основном использовать открытый исходный код, и я надеюсь, что с этого момента этот подход будет только развиваться. Я надеюсь, что вы присоединитесь к нам в нашем путешествии, чтобы донести преимущества искусственного интеллекта до каждого человека в мире.

Ссылка для получения Llama 3.1: https://llama.meta.com/.

MZ (Марк Цукерберг)

Добро пожаловать для общения

Новости

Llama 3.1 официально выпущена: 405 миллиардов параметров модели с открытым исходным кодом Сяо Чжа: Доведите открытый исходный код до конца

Введение

моя контактная информация