Открытый исходный код = самая мощная модель! Выпущена Llama3.1, 405B превосходит GPT-4o с закрытым исходным кодом, Цукерберг: переломный момент

Открытый исходный код = самая мощная модель! Выпущена Llama 3.1, 405B превосходит GPT-4o с закрытым исходным кодом, Цукерберг: переломный момент

2024-07-24

Байцзяо родом из храма Аофэй.

Кубиты | Публичный аккаунт QbitAI

LIama 3.1Официально выпущен, взойдя на трон крупных моделей!

В более чем 150 наборах тестов производительность версии 405B равна или даже превосходит существующие модели SOTA.ГПТ-4ои Клод 3.5 Сонет.

Другими словами, на этот разСамая сильная модель с открытым исходным кодом — самая сильная модель。

До этого Llama 3.1 много раз подвергалась разоблачению и утечкам, а теперь можно сказать, что ее ждали уже давно.

С сегодняшнего дня модель можно скачать и использовать на официальном сайте, а приложение Meta AI можно опробовать онлайн.

Что еще больше ценится исследовательским сообществом, так это выпуск почти 100 страниц подробных статей, охватывающих все, что связано с процессом создания Llama 3.1: данные предварительного обучения, фильтрация, отжиг, синтетические данные, законы масштабирования, инфраструктура, параллелизм, обучение. рецепты, адаптация после обучения, использование инструментов, сравнительный анализ, стратегии вывода, количественная оценка, видение, голос, видео...

Главный научный сотрудник HuggingFace похвалил: Если вы начинаете изучать большие модели с нуля, начните читать эту статью.

Сяо ЧжаЦукербергОн также высмеял это в своем последнем интервью Bloomberg.OpenAI。

Лидерство Альтмана похвально, но несколько иронично, что компания OpenAI стала лидером в создании закрытых моделей искусственного интеллекта.

Специально для этого Сяо Чжа написал большую статью:ИИ с открытым исходным кодом — это путь вперед。

Раньше модели с открытым исходным кодом в основном отставали от моделей с закрытым исходным кодом с точки зрения производительности, функциональности и т. д., но сейчас:

Как и Linux с открытым исходным кодом, он выделился среди систем с закрытым исходным кодом и завоевал популярность, постепенно становясь более продвинутым и безопасным, а также имея более широкую экосистему, чем системы с закрытым исходным кодом.

Я считаю, что Llama 3.1 станет поворотным моментом в отрасли.

На сегодняшний день общее количество загрузок всех версий Llama превысило 300 миллионов раз, и Meta также делает смелые заявления:

Это только начало.

Крупные поставщики облачных технологий также как можно скорее запустили поддержку Llama 3.1, и цена указана тетей Цзян:

LIama 3.1 официально выпущена

Давайте сначала посмотрим на возможности модели.

В версии Llama 3.1 длина контекста увеличена до 128 КБ и добавлена поддержка восьми языков.

Среди них версия Super Large Cup 405B сравнялась и превзошла существующие топ-модели с точки зрения здравого смысла, маневренности, математики, использования инструментов и возможностей многоязычного перевода.

Кроме того, также выпущены модернизированные версии моделей 8Б и 70Б, возможности которых в основном такие же, как у топ-моделей с теми же параметрами.

Давайте посмотрим еще разМодельная архитектура。

Согласно официальному представлению, обучение модели Llama 3.1 405B на более чем 15 триллионах токенов является довольно сложной задачей.

С этой целью они существенно оптимизировали весь стек обучения и впервые расширили шкалу вычислительной мощности модели до более чем 16 000 графических процессоров H100.

В частности, он по-прежнему использует стандартный только декодер.Трансформаторархитектуру и внести некоторые незначительные изменения и внедрить итеративный процесс пост-обучения с SFT (контролируемая точная настройка) и DPO (прямая оптимизация предпочтений) в каждом раунде для улучшения производительности каждой возможности.

По сравнению с предыдущими версиями Llama улучшено количество и качество данных, используемых для предварительного и постобучения.

Чтобы поддержать массовое производство моделей размера 405B, Meta квантовала модель с 16-битных (BF16) до 8-битных (FP8) значений, что эффективно снизило необходимые вычислительные требования и позволило модели работать на одном серверном узле.

существоватьИнструкция по тонкой настройкеС другой стороны, Meta также улучшает способность модели реагировать на инструкции пользователя и повышает ее способность следовать подробным инструкциям, обеспечивая при этом безопасность.

На этапе после обучения Meta выполняет несколько раундов выравнивания на основе предварительно обученной модели.

Каждый раунд включает в себя контролируемую точную настройку (SFT), выборку отклонения (RS) и прямую оптимизацию предпочтений (DPO).

Они сгенерировали большинство примеров SFT, используя синтетические данные, и выполнили несколько итераций.

Кроме того, для фильтрации этих синтетических данных до высочайшего качества используются различные методы обработки данных.

В общей сложности 15Т токенов очищаются и фильтруются с использованием модели Llama 2, в то время как конвейеры обработки кода и математических данных в основном опираются на методы Deepseek.

В дополнение к самому базовому ответу, согласно подсказкам, представители Meta заявили, что любой обычный разработчик может использовать его для выполнения сложных задач, таких как:

Вывод в режиме реального времени и пакетный вывод

Контролировать тонкую настройку

Оценка моделей для конкретных приложений

Постоянное предварительное обучение

Поисковая дополненная генерация (RAG)

вызов функции

Генерация синтетических данных

И за этим стоит поддержка сильных экологических партнеров.

Сяо Чжа пишет длинную статью: «ИИ с открытым исходным кодом — это путь вперед»

(Далее переведено Big Model, основной контент извлечен. Если есть какие-либо упущения или ошибки, исправьте их!)

На заре высокопроизводительных вычислений крупные технологические компании того времени вложили значительные средства в разработку собственных версий Unix с закрытым исходным кодом. В то время было трудно представить, что такое передовое программное обеспечение можно производить каким-либо иным способом, кроме как с закрытым исходным кодом. Однако операционная система Linux с открытым исходным кодом в конечном итоге завоевала широкую популярность — первоначально потому, что она позволяла разработчикам свободно и с меньшими затратами изменять код, со временем Linux не только стал более продвинутым и безопасным, но и создал более широкую экосистему, чем любая Unix с закрытым исходным кодом; система, поддерживающая больше функций.Сегодня Linux сталоблачные вычисленияи стандартную основу для большинства операционных систем мобильных устройств, и в результате мы все наслаждаемся лучшими продуктами.

Я верю, что искусственный интеллект будет развиваться аналогичным образом. . Сегодня несколько технологических компаний разрабатывают ведущие модели с закрытым исходным кодом. Но открытый исходный код быстро сокращает этот разрыв. В прошлом году Llama 2 можно было сравнить только с моделями, отставшими на поколение. В этом году Llama 3 конкурирует с самыми продвинутыми моделями и лидирует в некоторых областях. Мы ожидаем, что начиная со следующего года будущие модели Llama станут самыми передовыми в отрасли. Но даже до этого Llama уже лидировала по открытости, модифицируемости и экономической эффективности.

Сегодня мы движемся к«Искусственный интеллект с открытым исходным кодом становится отраслевым стандартом» направление. Мы выпустили Llama 3.1 405B, первую передовую модель искусственного интеллекта с открытым исходным кодом, а также улучшенные модели Llama 3.1 70B и 8B. Помимо значительно лучшего соотношения цена/производительность по сравнению с моделями с закрытым исходным кодом, открытость модели 405B сделает ее лучшим выбором для тонкой настройки и очистки небольших моделей.

Помимо выпуска этих моделей, мы работаем с рядом компаний над развитием более широкой экосистемы. Amazon, Databricks и Nvidia запускают набор сервисов, позволяющих разработчикам настраивать и совершенствовать свои собственные модели. Такие новаторы, как Groq, создали недорогие службы вывода с малой задержкой для всех новых моделей. Эти модели будут доступны на всех основных облачных платформах, включая AWS, Azure, Google, Oracle и других. Такие компании, как Scale.AI, Dell, Deloitte и другие, готовы помочь предприятиям внедрить Llama и обучить индивидуальные модели на собственных данных. По мере того, как сообщество растет и все больше компаний разрабатывают новые услуги, вместе мы сможем сделать Llama отраслевым стандартом, предоставляя преимущества ИИ всем.

Meta посвящена искусственному интеллекту с открытым исходным кодом. Я объясню, почему я считаю, что открытый исходный код является лучшим стеком разработки, почему Llama с открытым исходным кодом хороша для Meta и почему ИИ с открытым исходным кодом хорош для мира и, следовательно, является долгосрочной устойчивой платформой.

Почему ИИ с открытым исходным кодом хорош для разработчиков

Когда я разговариваю с разработчиками, генеральными директорами и официальными лицами по всему миру, я обычно слышу несколько тем:

Нам необходимо обучать, настраивать и совершенствовать наши собственные модели. . . Каждая организация имеет свои уникальные потребности, и ей лучше всего подходит использование моделей разного размера, которые можно обучать или точно настраивать на основе их конкретных данных. Для задач на устройстве и задач классификации достаточно небольших моделей, для более сложных задач нужны большие модели; Теперь вы можете воспользоваться преимуществами современных моделей Llama, продолжить их обучение на собственных данных, а затем преобразовать их в размер модели, который лучше всего соответствует вашим потребностям, не позволяя нам или кому-либо еще видеть ваши данные.

Нам нужно контролировать свою судьбу и не быть привязанными к поставщикам с закрытым исходным кодом. . Многие организации не хотят полагаться на модель, которую они не могут запустить и контролировать самостоятельно. Они не хотят, чтобы поставщик модели с закрытым исходным кодом мог изменить модель, изменить условия использования или даже полностью остановить службу. Они также не хотят ограничиваться эксклюзивным использованием моделей только на одной облачной платформе. Открытый исходный код позволяет широкой экосистеме компаний иметь совместимые цепочки инструментов, что позволяет легко перемещаться между ними.

Нам необходимо обеспечить безопасность наших данных . Многие организации обрабатывают конфиденциальные данные, которые необходимо защищать и которые нельзя отправлять через облачные API в модели с закрытым исходным кодом. Есть также организации, которые просто не доверяют поставщикам моделей с закрытым исходным кодом свои данные. Открытый исходный код решает эти проблемы, позволяя запускать модели где угодно. Существует распространенное мнение, что программное обеспечение с открытым исходным кодом, как правило, более безопасно, поскольку процесс его разработки более прозрачен.

Нам нужна модель, которая работает эффективно и доступна по цене. . Разработчики могут запускать логический вывод Llama 3.1 405B в своей собственной инфраструктуре, будь то для задач вывода, ориентированных на пользователя или в автономном режиме, примерно за половину стоимости использования моделей с закрытым исходным кодом, таких как GPT-4o.

Мы хотим инвестировать в экосистемы, которые станут долгосрочными стандартами. . Многие люди видят, что открытый исходный код развивается быстрее, чем модели с закрытым исходным кодом, и хотят построить свои системы на архитектуре, которая даст им наибольшее долгосрочное преимущество.

Почему ИИ с открытым исходным кодом хорош для Meta

Бизнес-модель Meta заключается в создании лучшего опыта и услуг для людей. Для этого мы должны гарантировать, что у нас всегда есть доступ к лучшим технологиям и мы не привязаны к экосистемам с закрытым исходным кодом наших конкурентов, ограничивая нашу способность к инновациям.

Одним из моих ключевых опытов было то, что наши услуги были ограничены ограничениями Apple на то, что мы могли построить на их платформе. От того, как они облагают налогом разработчиков, до правил, которые они применяют бессистемно, до всех инноваций в продуктах, которые они препятствуют выпуску, ясно, что если мы сможем создавать лучшие версии наших продуктов, а конкуренты не смогут ограничивать наши инновации, Мета и многие другие другие компании смогут предоставлять людям более качественные услуги. С философской точки зрения это основная причина, по которой я твердо верю в создание открытой экосистемы для следующего поколения вычислений в области искусственного интеллекта и дополненной и виртуальной реальности.

Люди часто спрашивают меня, не боюсь ли я отказаться от технических преимуществ из-за открытого исходного кода Llama, но я думаю, что это упускает более широкую картину по нескольким причинам:

Во-первых, чтобы гарантировать, что у нас есть доступ к лучшим технологиям и мы не привязаны к экосистеме с закрытым исходным кодом в долгосрочной перспективе, Llama необходимо превратиться в полноценную экосистему инструментов, включая повышение эффективности, оптимизацию микросхем и другие интеграции. Если бы мы были единственной компанией, использующей Llama, экосистема не росла бы, и мы не работали бы лучше, чем версии Unix с закрытым исходным кодом.

Во-вторых, я ожидаю, что развитие искусственного интеллекта продолжит оставаться очень конкурентным, а это означает, что открытый исходный код какой-либо конкретной модели не даст большего преимущества, чем следующая лучшая модель на данный момент. Путь Llama к тому, чтобы стать отраслевым стандартом, лежит через поддержание конкурентоспособности, эффективности и открытости, развиваясь из поколения в поколение.

В-третьих, ключевое различие между поставщиками мета-моделей и моделями с закрытым исходным кодом заключается в том, что продажа доступа к моделям ИИ не является нашей бизнес-моделью. Это означает, что публичный выпуск Llama не снижает наши доходы, устойчивость или способность инвестировать в исследования, чего нельзя сказать о поставщиках с закрытым исходным кодом.

Наконец, Meta имеет долгую историю успешных проектов с открытым исходным кодом. Мы сэкономили миллиарды долларов благодаря проекту Open Compute, выпустив проекты серверов, сетей и центров обработки данных и позволив цепочке поставок стандартизировать наши проекты. Мы извлекаем выгоду из инноваций экосистемы, предоставляя ведущие инструменты с открытым исходным кодом, такие как PyTorch, React и другие. Этот подход всегда работал для нас в долгосрочной перспективе.

Почему ИИ с открытым исходным кодом полезен для мира

Я считаю, что открытый исходный код имеет решающее значение для достижения позитивного будущего ИИ. Искусственный интеллект обладает большим потенциалом, чем любая другая современная технология, для повышения производительности, творческих способностей и качества жизни человека, а также для ускорения экономического роста и одновременного продвижения достижений в медицине и научных исследованиях. Открытый исходный код гарантирует, что больше людей во всем мире получат доступ к преимуществам и возможностям ИИ, власть не будет сосредоточена в руках нескольких компаний, а технология сможет более равномерно и безопасно распространяться в обществе.

Продолжаются споры о безопасности моделей ИИ с открытым исходным кодом, и я считаю, что ИИ с открытым исходным кодом будет безопаснее, чем альтернативы.

Я понимаю, что основа безопасности заключается в том, что нам необходимо защищаться от двух типов вреда: непреднамеренного и преднамеренного. Непреднамеренный вред — это когда система ИИ может причинить вред, даже если человек, ее использующий, не намеревался этого делать. Например, современные модели искусственного интеллекта могут непреднамеренно давать плохие советы по поводу здоровья. Или, в более футуристическом сценарии, некоторые опасаются, что модели могут непреднамеренно копировать себя или чрезмерно оптимизировать цели в ущерб людям. Умышленный вред — это когда злоумышленник использует модель ИИ с намерением причинить вред.

Стоит отметить, что непреднамеренный вред охватывает большую часть опасений людей по поводу искусственного интеллекта — от того, какое влияние системы ИИ окажут на миллиарды людей, которые их используют, до большинства научно-фантастических сценариев, которые действительно катастрофичны для человечества. В этом отношении открытый исходный код должен быть безопаснее, поскольку система более прозрачна и может быть тщательно изучена. Исторически сложилось так, что программное обеспечение с открытым исходным кодом было более безопасным. Аналогичным образом, использование Llama и ее систем безопасности, таких как Llama Guard, вероятно, будет безопаснее и надежнее, чем модель с закрытым исходным кодом. В результате большинство разговоров о безопасности ИИ с открытым исходным кодом сосредоточено на умышленном причинении вреда.

Наш процесс обеспечения безопасности включает в себя тщательное тестирование и работу красных групп для оценки способности наших моделей нанести значительный вред с целью снижения риска перед выпуском. Поскольку модель открытая, любой желающий может ее протестировать самостоятельно. Мы должны помнить, что эти модели обучаются на информации, которая уже есть в сети, поэтому при рассмотрении вреда отправной точкой должно быть то, может ли модель нанести больший вред, чем информация, которую можно быстро получить из Google или других результатов поиска.

Обдумывая будущие возможности, помните, что большинство сегодняшних ведущих технологических компаний и научных исследований построены на программном обеспечении с открытым исходным кодом. Если мы будем инвестировать вместе, следующее поколение компаний и исследований будет использовать ИИ с открытым исходным кодом.

Самое главное, что ИИ с открытым исходным кодом представляет собой лучшую в мире возможность использовать эту технологию для максимизации экономических возможностей и безопасности для всех.

давайте строить вместе

Как и предыдущие модели Llama, Meta разрабатывалась, а затем выпускалась, не уделяя особого внимания построению более широкой экосистемы. В этом запуске мы использовали другой подход. Мы формируем внутреннюю команду, чтобы сделать Llama доступной как можно большему числу разработчиков и партнеров, а также активно строим партнерские отношения, чтобы больше компаний в экосистеме также могли предоставлять уникальные возможности своим клиентам.

Я считаюВыпуск Llama 3.1 станет поворотным моментом для отрасли , большинство разработчиков начнут использовать преимущественно открытый исходный код, и я ожидаю, что с этого момента этот подход будет только расти. Я надеюсь, что вы присоединитесь к нам в нашем путешествии, чтобы донести преимущества искусственного интеллекта до каждого человека в мире.

Ссылка на последнее интервью:

https://x.com/rowancheung/status/1815763595197616155

Справочные ссылки:

[1]https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

[2] https://ai.meta.com/blog/meta-llama-3-1/

Новости