новости

Ламу3.1 вообще нельзя продать! Инсайдеры отрасли: стоимость моделей с открытым исходным кодом выше

2024-08-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Юньчжун пришел из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Крупная модель Llama 3 с открытым исходным кодом компании Meta на рынке была вялой, что еще больше усилило внимание к дебатам между открытым исходным кодом и закрытым исходным кодом для больших моделей.

По данным зарубежных СМИ The Information, крупной модели Llama 3 с открытым исходным кодом Meta было трудно привлечь внимание крупнейшего в мире поставщика облачных услуг — корпоративных клиентов Amazon AWS.Предпочитаю использовать большую модель Claude с закрытым исходным кодом от Anthropic.

По словам инсайдеров Microsoft,Лама также не является лучшим выбором Microsoft для продаж, они с большей вероятностью порекомендуют Llama компаниям, имеющим опыт работы с данными, например компаниям, в которых есть штатные инженеры и специалисты по данным.

В настоящее время Meta сталкивается с проблемами, которые могут вдохновить Meta на создание собственной команды продаж продуктов искусственного интеллекта для удовлетворения потребностей предприятий. Эта серия проблем также подчеркивает трудности в процессе коммерциализации крупных моделей с открытым исходным кодом. С точки зрения выбора рынка фактический эффект и коммерческая отдача от модели с открытым исходным кодом могут не соответствовать ожиданиям корпоративных клиентов.

лицо"Открытый или закрытый исходный кодПо этому вопросу крупные отечественные производители моделей сформировали совершенно разные позиции, исходя из собственных технических маршрутов и бизнес-стратегий. Так как же компаниям следует выбирать крупные модели и как найти лучший баланс между ними?

В этом контекстеСинь Чжоу, генеральный директор Baidu Intelligent Cloud AI и платформы больших моделейОн дал интервью средствам массовой информации и подробно проанализировал основную логику, бизнес-стратегии и прогнозы будущего рынка в дебатах между открытым исходным кодом и закрытым исходным кодом.

Синь Чжоу считает, чтоСуществует существенная разница между открытым исходным кодом больших моделей и открытым исходным кодом программного обеспечения.Модели с открытым исходным кодом не открывают исходный код обучения, данные предварительного обучения и точной настройки, а также другую ключевую информацию, влияющую на эффект модели, поэтому они не могут рассчитывать на участие разработчиков сообщества для улучшения эффекта и производительности, как программное обеспечение с открытым исходным кодом. Однако подготовка базовой модели может быть только в руках самих производителей.

Говоря о том, «кто дороже: модель с открытым исходным кодом или модель с закрытым исходным кодом?» Синь Чжоу сказал, что модель с открытым исходным кодом бесплатна и создает у людей впечатление низкой стоимости, ноПрименение больших моделей — это не просто отдельная технология, а комплексное решение, охватывающее «технологии + услуги», и предприятия должны рассчитывать «главную книгу». Когда бизнес фактически реализуется, если модель с открытым исходным кодом хочет достичь того же эффекта, что и модель с закрытым исходным кодом, это потребует больших последующих инвестиций в рабочую силу, деньги и время, а общие затраты будут выше.

Для каких сценариев подходят модели с открытым и закрытым исходным кодом? Синь Чжоу считает, чтоМодель с открытым исходным кодом больше подходит для академических исследований, но не подходит для крупномасштабных коммерческих проектов, предоставляющих услуги внешнему миру. В некоторых серьезных проектах с миллионами или даже десятками миллионов инвестиций модель с закрытым исходным кодом по-прежнему остается наиболее актуальной. главный герой.

«Модель с открытым исходным кодом недешева»

Ниже приводится отредактированный полный текст интервью:

1. Какую роль на рынке крупных моделей играет каждый производитель моделей? Какова бизнес-модель?

Синьчжоу: На этом празднике больших моделей позиционирование и бизнес-модель каждого производителя различны, и их можно условно разделить на три категории:

Бизнес-модель первого типа поставщиков облачных услуг фактически заключается в продаже вычислительных ресурсов. Сокращайте затраты и повышайте эластичность ресурсов за счет масштабирования для достижения прибыльности. Это устойчивая модель поставщиков облачных услуг. Независимо от того, является ли это моделью с открытым исходным кодом или моделью с закрытым исходным кодом, пока она размещается у поставщика облака, поставщик облака может зарабатывать деньги.

Второй тип роли — одновременно поставщик облачных услуг и поставщик моделей. Они надеются вывести бизнес в облако за счет использования моделей. В настоящее время прибыль от использования исключительно вызовов API модели все еще очень низка. В настоящее время они надеются занять выгодную долю рынка и продолжают искать новые возможности расширения на большой таблице моделей.

Роль третьего типа — производители предпринимательских моделей. После того как крупные поставщики облачных технологий объявили о снижении цен на модели, объем их обращений резко упал. Область больших моделей вскоре превратится в битву между несколькими крупными поставщиками облачных технологий. Стартапы крупных моделей либо сосредоточатся на конкретных отраслях, либо приватизируют проекты toB, либо трансформируются в продукты toC.

2. Почему говорят, что «модель с открытым исходным кодом недешева, а технология будет становиться все более отсталой»?

Синьчжоу: Давайте сначала поговорим о проблеме отсталых технологий.

Во-первых, открытый исходный код больших моделей не может улучшить производительность моделей.

контрастпрограммное обеспечение с открытым исходным кодом, такие как мобильная операционная система Android и программное обеспечение баз данных MySQL. Все исходные коды этого программного обеспечения с открытым исходным кодом открыты, и разработчики со всего общества могут участвовать в разработке кода. Это может не только снизить затраты на разработку программного обеспечения, но также ускорить его итерацию и повысить безопасность программного обеспечения. В этом ценность программного обеспечения с открытым исходным кодом.

Модель с открытым исходным кодом намного сложнее., исходный код которого может быть открытым, включая исходный код обучения модели, веса параметров, данные обучения и т. д.Однако в настоящее время производители моделей обычно используют только веса параметров с открытым исходным кодом, но исходный код обучения, данные обучения и т. д. не являются открытым исходным кодом. Это лишает разработчиков возможности улучшать его и способствовать эффективности модели с открытым исходным кодом.

Например, для Llama каждое улучшение производительности модели на самом деле является результатом собственного обучения Meta, а не результатом участия разработчиков. С точки зрения структуры сети особой разницы между Llama2 и Llama3 нет. Что она оптимизирует? С одной стороны оптимизируется процесс этапа обучения, например многоэтапное обучение, с другой стороны, добавляется много данных. Данные Llama2 и Llama3 отличаются на порядок. время приносит лучшие результаты для модели.

Но все эти хорошие эффекты созданы самой Meta, и нет возможности использовать возможности разработчиков, не говоря уже о процессе обратной связи с сообществом, например, о программном обеспечении с открытым исходным кодом.

Во-вторых, модель с открытым исходным кодом будет отставать все дальше и дальше, поскольку не существует хорошей бизнес-модели, обеспечивающей непрерывное ее обновление.

Обучение модели и аннотирование данных обходятся очень дорого, если у компании нет сильных ресурсов, таких как Meta, для поддержки устойчивого развития моделей с открытым исходным кодом, если это начинающая компания с моделями с открытым исходным кодом, она не сможет сформировать закрытый бизнес. петля. В то же время разработчики не могут способствовать эффективности вашей модели, поэтому стартапы должны при этом все больше и больше отставать. Судя по результатам, лучшей моделью на самом деле является Open AI, а все модели, находящиеся в верхней части текущего оценочного списка, являются моделями с закрытым исходным кодом.

Давайте поговорим о том, почему модель с открытым исходным кодом недешева.Применение больших моделей представляет собой комплексное решение, охватывающее «технологии + услуги». Предприятиям, применяющим большие модели, необходимо «рассчитать главную книгу».. Как рассчитать главную книгу?

Первый уровень заключается в расчете стоимости аппаратных ресурсов.. Поскольку бизнес-модели с закрытым исходным кодом будут оснащены соответствующими цепочками инструментов, включая цепочки инструментов для обучения и цепочки инструментов для вывода, производительность этих цепочек инструментов выше, чем у моделей с открытым исходным кодом. Для клиентов обучение может сэкономить около 10–20% затрат на оборудование. , вы экономите больше, рассуждая, и чем больше масштаб бизнеса, тем больше вы экономите.

Второй уровень – рассмотреть преимущества для бизнеса, которые дает данная модель.. Для моделей с той же шкалой параметров результаты с закрытым исходным кодом лучше. Некоторые клиенты не так чувствительны к точности 90% или 95%. Но в некоторых сферах бизнеса, например в коммерческой рекламе, разница между CPM и CTR составляет всего один балл. Для рекламной платформы в день могут наблюдаться десятки миллионов расхождений. В настоящее время компании с более высокими требованиями к эффектам модели. с большей готовностью идут. Купите модель с закрытым исходным кодом, которая работает лучше.

Третий уровень включает альтернативные издержки и затраты на рабочую силу.. Если вы используете бизнес-модель с закрытым исходным кодом для более быстрой конвергенции, вы сможете запускать новые продукты быстрее, чем ваши конкуренты. В бизнес-модели с закрытым исходным кодом производитель адаптировал модель и оборудование до оптимального состояния, а клиенты могут просто скопировать зрелый опыт. Но если вы используете открытый исходный код, вам придется адаптировать его самостоятельно, а затраты на вычислительные мощности и инженеров будут выше.

Поэтому мы говорим, что модели корпоративных приложений должны «рассчитывать главную книгу», и расчет этой главной книги будет сильно отличаться.

3. Почему с точки зрения стоимости оборудования открытый исходный код намного дороже закрытого?
Синьчжоу: Большинство корпоративных клиентов приобретут два или более типов оборудования, поскольку им необходимо учитывать безопасность и гибкость цепочки поставок. Если модель с открытым исходным кодом необходимо адаптировать для каждой части оборудования, стоимость будет очень высокой.

Это отражает преимущества бизнес-модели с закрытым исходным кодом, поскольку она позволяет разделить затраты на адаптацию программного и аппаратного обеспечения за счет крупномасштабных продаж. Более того, многоядерная адаптация — это очень технический вопрос для Baidu.Гетерогенная вычислительная платформа BaigeСпециально для многоядерной гетерогенности сделано множество оптимизаций, и она подходит для различного оборудования. Baige сам по себе может скрыть различные различия на аппаратном уровне. Существует множество библиотек ускорения, библиотек вывода и библиотек обучения. Baige также обеспечивает сквозную оптимизацию большой модели Wenxin.

Преимущество этого для клиентов состоит в том, что они могут работать быстро, независимо от того, какое оборудование они используют, а экономия времени и рабочей силы очень высока.

4. Для каких сценариев подходят модель с открытым исходным кодом и модель с закрытым исходным кодом соответственно?

Синьчжоу: Общая идея такова: если вы хотите попробовать и проверить в отдельных бизнес-сценариях, вы можете сначала запустить ее с моделью с закрытым исходным кодом, запустить ее «из коробки» и быстро проверить ее в каком-то серьезном бизнесе, который стоит миллионы или больше; десятки миллионов долларов. В проектах, требующих высокого масштаба и точности, бизнес-модели с закрытым исходным кодом по-прежнему являются лучшим выбором для предприятий. Только в некоторых бизнес-сценариях, которые не предъявляют высоких требований к эффектам и производительности, но требуют частного развертывания и особенно чувствительны к цене, рассмотрите возможность использования модели с открытым исходным кодом.

Открытый исходный код ценен для продвижения научных исследований и исследований, таких как инженерная оптимизация производительности вывода, влияние данных предварительного обучения и точной настройки на результаты и т. д. Если он может открыть исходный код большего количества вещей, таких как обучающий код, обучающие данные, и точная настройка инструкций. Данные и т. д. также открыты, и их ценность для академических исследований и технологических разработок будет выше. Даже если открыты только веса модели, это дает исследователям хорошую базовую модель.

5. Некоторые производители надеются, что можно одновременно использовать как открытый, так и закрытый исходный код. То есть модель с открытым исходным кодом привлекает пользователей для расширения экосистемы, а модель с закрытым исходным кодом отвечает за коммерциализацию. Работает ли эта логика?

Синьчжоу: Если вы этого не практиковали, это кажется осуществимым. Но реальность такова:

В публичном облаке среди объявленных различными производителями вызовов объем вызовов модели с закрытым исходным кодом намного выше, чем у модели с открытым исходным кодом, что показывает, что модель с открытым исходным кодом фактически не играет роли в привлечении пользователей для расширения экосистемы публичного облака.. Более того, когда точная настройка выполняется в общедоступном облаке, можно реализовать модели как с открытым, так и с закрытым исходным кодом, поэтому клиенты смогут напрямую выбирать лучшую модель в публичном облаке.

С точки зрения приватизированного размещения эта логика в определенной степени имеет смысл.. Многие компании сначала начинают с моделей с открытым исходным кодом для тестирования. Позже они обнаруживают, что результаты хорошие, и хотят их купить. Они выбирают модель с открытым исходным кодом, соответствующую модели с закрытым исходным кодом производителя, поскольку та же модель с исходным кодом более адаптируема. В данном случае эта логика верна.Но это значение постепенно сокращается.. Поскольку общие возможности моделей каждого производителя быстро улучшаются, затраты на переключение становятся все ниже и ниже, постепенно стирая наследие этой модели.

Есть также некоторые производители, которые запускают модели с открытым исходным кодом для продвижения оборудования. Например, Nvidia запускает модель с открытым исходным кодом. Ее бизнес-логика очень проста, и вам нужно купить карту, чтобы использовать эту модель.

6. Почему Baidu не запустила модель с открытым исходным кодом?

Синь Чжоу: Из объема развертываний различных производителей ясно видно, что коммерческие модели с закрытым исходным кодом с наибольшим объемом развертываний в общедоступном облаке не оказывают большого влияния на общедоступное облако.

На приватизированном рынке, поскольку осведомленность клиентов о больших моделях продолжает улучшаться, открытый и закрытый исходный код постепенно перестают быть ключевым фактором.. Пообщавшись со многими крупными корпоративными клиентами, я обнаружил, что существует множество факторов, определяющих, следует ли бизнес-лидерам использовать ту или иную модель. Обычно приоритеты следующие: эффект, производительность, безопасность и цена. Является ли модель открытым или закрытым исходным кодом, не является решающим фактором.

7. Вы упомянули, что наиболее важными факторами для предприятий при выборе моделей являются эффект, производительность, безопасность и цена. Является ли «Универсальная машина большой модели Qianfan», выпущенная Baidu Cloud, новой бизнес-моделью, которая объединяет программное обеспечение и? аппаратное обеспечение?

Синьчжоу: В настоящее время использование крупных моделей предприятиями все еще находится на исследовательской стадии, и существует острая потребность в недорогих готовых продуктах для быстрой проверки сценариев использования и эффектов больших моделей. «Комплексная машина большой модели Qianfan» очень подходит для нынешнего этапа, поскольку в Китае существует много требований к приватизированному внедрению. Наша универсальная машина открыта и может быть адаптирована к различному оборудованию, интегрируясь. все основные продукты на рынке чипы и модели. Крупная модель универсального устройства Qianfan от Baidu Smart Cloud обеспечивает две возможности:

Во-первых, предоставить интегрированную платформу для адаптации программного и аппаратного обеспечения., эта платформа имеет встроенные большие модели Wenxin, а также основные в отрасли большие модели с открытым исходным кодом и комнаты для образцов сценариев приложений. Популярные модели с открытым исходным кодом также были адаптированы и оптимизированы. Пользователи могут запускать их непосредственно на многофункциональном компьютере без необходимости самостоятельной настройки моделей. В то же время универсальная машина большой модели Qianfan может предоставлять интегрированные программные и аппаратные решения для больших моделей, включая базовое управление и контроль, структуру искусственного интеллекта, обучение моделей, прогнозное рассуждение и применение сценариев, предоставляя клиентам полнофункциональное программное обеспечение и аппаратные услуги.

второйУниверсальная машина большой модели Qianfan очень экономична благодаря сквозной оптимизации производительности и способности выжимать всю производительность оборудования. Клиенты могут использовать его быстро и с меньшими затратами.

С точки зрения общей цены, цена универсального устройства Qianfan намного ниже, чем покупка сервера, большой модели и платформы по отдельности. Клиенты могут использовать его прямо из коробки.

8. В настоящее время многие люди считают, что недостаточно просто использовать базовые большие модели. Нам все еще необходимо создавать отраслевые модели, чтобы по-настоящему реализовать промышленное внедрение больших моделей. Так сколько же в настоящее время стоит предприятию самостоятельное обучение отраслевой модели?

Синьчжоу: Стоимость очень высока. Во-первых, эта стоимость увеличивается линейно в зависимости от размера параметра обучаемой модели. Во-вторых, это зависит от того, насколько велик объем данных. Наконец, есть стоимость маркировки данных.

Если вы хотите обучить модель 70b с нуля, вам может потребоваться 30 миллионов эластичных облачных ресурсов. Если вы хотите обучить модель с большим количеством параметров, стоимость может составлять сотни миллионов. Этому должны обучать опытные люди. Если вы неопытны и в процессе пойдете в обход, стоимость будет выше.

9. Как при таких высоких затратах компания может определить, нужно ли ей строить отраслевую модель?

Синьчжоу: Мы не рекомендуем клиентам с самого начала создавать базовую отраслевую модель, независимо от прибыли. Независимо от выгод стоимость должна быть очень высокой. Мы поможем клиентам проанализировать их потребности в первую очередь.

Например, если вы рисуете систему координат, по оси абсцисс отображается чувствительность задачи, а по ординате — потребность в отраслевых данных. Так называемая чувствительность задачи относится к тому, тесно ли сцена связана с промышленностью и бизнесом. Например, в медицинской сфере это вполне профессиональные вопросы. Вертикальная ось — это спрос на отраслевые данные. Чем более закрыта отрасль и чем меньше данных в общедоступной сети, тем больше требуется предварительное обучение. Например, в области медицины некоторая десенсибилизированная информация из медицинских записей должна быть предварительно обработана в модели.

Благодаря анализу на этой оси координат нижний левый угол не имеет отраслевых характеристик и не требует отраслевых данных, поэтому общую модель можно использовать напрямую, но верхний правый угол чувствителен к бизнес-атрибутам этой отрасли и требует много отраслевых данных. Пришло время построить отраслевую модель.

Обычно мы рекомендуем компаниям сделать три шага.

Первый шаг — проверка стоимости. Предварительно постройте крупномасштабную модель программной и аппаратной инфраструктуры и постройте предварительную крупномасштабную модель отрасли. В сочетании с применением относительно зрелого генеративного ИИ результаты можно увидеть быстро. Например, через облегченную версию платформы больших моделей Qianfan добавляются зрелые приложения, такие как интеллектуальное обслуживание клиентов, управление корпоративными знаниями и цифровые люди.

Второй шаг — глубокое соединение различных приложений предприятия.. Инфраструктура больших моделей была дополнительно улучшена и обновлена ​​до версии Qianfan Large Model Ultimate Edition. Помимо обучения и настройки, связанных с большими моделями, она также включает платформу для создания приложений. Baidu и ее экологические партнеры активно участвуют в обучении и эксплуатации крупномасштабных моделей внутри компании, создании технической атмосферы, обучении соответствующих талантов и работе с компанией над решением сложных бизнес-проблем и повышением ценности компании.

Третий шаг — комплексные инновации и независимая управляемость.. Предприятия освоили соответствующие технологии разработки крупных моделей и приложений, а также имеют соответствующие эшелоны талантов, которые могут лучше обеспечить независимую и контролируемую разработку и начать комплексные инновации. Baidu будет оказывать долгосрочную техническую поддержку и консультанта, помогая в разработке и продолжая внедрять новые технологии и решения на предприятие.

10. Как вы оцениваете рынок больших моделей в следующем году?

Синьчжоу: У меня есть три суждения о тенденции развития в следующем году:

Во-первых, мультимодальность станет новой горячей точкой на рынке.

Во-вторых, произойдет большой взрыв приложений на основе больших моделей, и очень важным направлением является Агент.. Если большая модель выполняет только предписанные действия «ввода и вывода», она значительно ограничит свою ценность. Она должна быть больше похожа на человека, способного использовать инструменты, сотрудничать друг с другом, планировать и думать, а также размышлять и повторять. . Его необходимо комбинировать с различными компонентами и плагинами для удовлетворения потребностей конкретных бизнес-сценариев, поэтому агент станет ключом к производству каждой модели производителя в будущем.

В-третьих, появится больше возможностей для корпоративных приложений, таких как базы знаний, обслуживание клиентов, цифровые люди, написание вспомогательного кода и другие сценарии.Например, используя большие модели для написания кода, у Baidu есть продукт под названием «Wenxin Quick Code», который широко используется в Baidu. Уровень внедрения может достигать 46%, а доля сгенерированного нового кода достигла 30%, что составляет 30%. может помочь предприятиям значительно повысить эффективность развития. В то же время появится большое количество компаний, занимающихся разработкой приложений ИИ. Эти компании смогут снизить затраты на развертывание и копирование приложений до достаточно низкого уровня. Пока операционная эффективность будет достаточно высокой, они смогут выделиться.