Момент ChatGPT для больших моделей с открытым исходным кодом? Скоро выйдет долгожданная Llama 3 405B

Момент ChatGPT для больших моделей с открытым исходным кодом?Скоро выйдет долгожданная Llama 3 405B.

2024-07-23

Долгожданная Llama 3 405B, выпуск которой первоначально планировалось выпустить 23-го числа, скоро появится.

Версия 405B, являющаяся топовой моделью серии Llama 3, имеет 405 миллиардов параметров и является одной из крупнейших моделей с открытым исходным кодом на сегодняшний день.

Рано утром вчера вечером META внезапно опубликовала оценочные данные Llama 3.1-405B. Некоторые пользователи сети предсказывали, что версия Llama 3.1-70B может быть выпущена в то же время, потому что «(модели просочились заранее) - это старая традиция META. Прошлогодняя модель «Лама» была «Сделано один раз».

Некоторые аналитики полагают, что Llama 3 405B — это не просто еще одно улучшение возможностей искусственного интеллекта. Для ИИ с открытым исходным кодом «это потенциал.ЧатGPTмомент», где современный искусственный интеллект действительно демократизируется и передается непосредственно в руки разработчиков.

Три прогноза по предстоящему анонсу Llama 3 405B

Некоторые аналитики предсказывали основные моменты предстоящего анонса Llama 3 405B с трех точек зрения: качество данных, экосистема моделей и решения API.

Во-первых, Llama 3 405B может произвести революцию в качестве данных для специализированных моделей.

Для разработчиков, занимающихся созданием профессиональных моделей ИИ, долгосрочной задачей является получение высококачественных обучающих данных. Меньшие экспертные модели (параметры 1–10B) часто используют методы дистилляции, чтобы дополнить свой набор обучающих данных результатами более крупной модели.Однако, используяOpenAIТакие данные от гигантов с закрытым исходным кодом, таких как Google Cloud, строго ограничены, что ограничивает коммерческие приложения.

Появилась Лама 3 405Б. Являясь мощным инструментом с открытым исходным кодом, который может соперничать с мощью проприетарных моделей, он предоставляет разработчикам новую основу для создания богатых, неограниченных наборов данных. Это означает, что разработчики могут свободно использовать преимущества Llama 3 405B для обучения нишевых моделей, что значительно ускоряет циклы инноваций и внедрения в профессиональных областях. Ожидайте всплеска разработки высокопроизводительных, точно настроенных моделей, которые одновременно надежны и этичны с открытым исходным кодом.

Во-вторых, Llama 3 405B сформирует новую модельную экосистему: от базовых моделей до экспертных комбинаций.

Запуск Llama 3 405B может переопределить архитектуру систем искусственного интеллекта. Огромный размер модели (405 миллиардов параметров) может означать универсальное решение, но реальная сила заключается в ее интеграции с иерархической модельной системой. Этот подход будет особенно актуален для разработчиков, работающих с ИИ в разных масштабах.

Ожидайте перехода к более динамичной модельной экосистеме, в которой Llama 3 405B будет выступать в качестве основы, поддерживаемой моделями малого и среднего размера. Эти системы могут использовать такие методы, как спекулятивное декодирование, при котором большую часть обработки выполняют менее сложные модели, вызывая модель 405B только при необходимости для проверки и исправления ошибок. Это не только максимизирует эффективность, но и открывает новые возможности для оптимизации вычислительных ресурсов и времени отклика в приложениях реального времени, особенно при работе на SambaNova RDU, оптимизированных для этих задач.

Наконец, у Llama 3 405B появился конкурент за самый эффективный API.

С большой мощью приходит и большая ответственность – и для Llama 3 405B развертывание является серьезной проблемой. Разработчикам и организациям следует внимательно относиться к сложности модели и эксплуатационным требованиям. Среди поставщиков облачных технологий искусственного интеллекта будет конкуренция за предоставление наиболее эффективного и экономичного API-решения для развертывания Llama 3 405B.

Эта ситуация предоставляет разработчикам уникальную возможность взаимодействовать с разными платформами и сравнивать, как различные API обрабатывают такие большие модели.Победителями в этой области станут те, кто сможет предоставить API, которые не только эффективно управляют вычислительной нагрузкой, но и не жертвуют точностью модели и не непропорционально увеличивают ее.Углеродный след。

Подводя итог, можно сказать, что Llama 3 405B — это не просто еще один инструмент в арсенале ИИ; это фундаментальный сдвиг в сторону открытой, масштабируемой и эффективной разработки ИИ. Аналитики полагают, что независимо от того, занимаются ли они тонкой настройкой нишевых моделей, созданием сложных систем искусственного интеллекта или оптимизацией стратегий развертывания, появление Llama 3 405B откроет для пользователей новые горизонты.

Что думают пользователи сети?

Пользователи сети разместили в сабреддите LocalLLaMA информацию о Meta Llama 3.1 с 405 миллиардами параметров. Судя по результатам этой модели ИИ в нескольких ключевых тестах ИИ, ее производительность превзошла текущего лидера, а именно OpenAI.ГПТ-4о, что означает первый случай, когда модель с открытым исходным кодом может превзойти нынешнюю современную модель с закрытым исходным кодом.Магистр праваМодель.

Как показано в тестах, Meta Llama 3.1 превосходит GPT-4o в нескольких тестах, таких как GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem и winograd. Однако он превосходит GPT-4o в HumanEval и MMLU-. социальный С точки зрения науки он отстает от GPT-4o.

Итан Моллик, доцент Уортонской школы Пенсильванского университета, пишет:

Если эта статистика верна, можно с уверенностью сказать, что топовые модели Al будут доступны всем бесплатно начиная с этой недели.

Правительства, организации и компании в любой стране мира могут использовать те же возможности искусственного интеллекта, что и все остальные. Это будет весело.

Некоторые пользователи сети резюмировали несколько основных моментов модели Llama 3.1:

В модели для обучения используются токены 15T+ из общедоступных источников, а крайний срок предоставления данных для предварительного обучения — декабрь 2023 года;

Данные для точной настройки включают общедоступный набор данных для точной настройки инструкций (в отличие от Llama 3) и 15 миллионов синтетических образцов;

Модель поддерживает несколько языков, включая английский, французский, немецкий, хинди, итальянский, португальский, испанский и тайский.

Некоторые пользователи сети заявили, что это первый случай, когда модель с открытым исходным кодом превзошла модели с закрытым исходным кодом, такие как GPT4o и Claude Sonnet 3.5, и достигла уровня SOTA по нескольким тестам.

Новости