В индустрии больших моделей вообще не существует «настоящего» открытого исходного кода?

2024-08-01

Автор | Чжоу Сяосяо
Электронная почта ｜ [email protected]

Рынок больших моделей с открытым исходным кодом в последнее время был очень оживленным. Сначала Apple открыла исходный код маленькой модели DCLM с 7 миллиардами параметров, а затем один за другим были открыты исходные коды тяжелых моделей Meta 3.1 и Mistral Large 2. Во многих тестах производительности Llama 3.1. превзошла модель SOTA с закрытым исходным кодом.

Однако дебаты между фракциями открытого и закрытого исходного кода не собираются прекращаться.

С одной стороны, после выпуска Llama 3.1 Мета заявила: «Теперь мы вступаем в новую эру, возглавляемую открытым исходным кодом». С другой стороны, Сэм Альтман написал статью в «Вашингтон Пост», прямо поднимая это противоречие. между открытым исходным кодом и закрытым исходным кодом на уровне страны и сознания.

Некоторое время назад на Всемирной конференции по искусственному интеллекту Робин Ли прямо заявил, что «открытый исходный код на самом деле является своего рода налогом на IQ», поскольку модели с закрытым исходным кодом, очевидно, более эффективны и требуют меньших затрат на рассуждения, что снова вызвало дискуссии.

Позже Фу Шэн также выразил свое мнение. Он считал, что два лагеря открытого и закрытого исходного кода конкурируют друг с другом и развиваются вместе. Он также опроверг мнение, что «открытый исходный код на самом деле является своего рода налогом на IQ»: «Модель большого языка с открытым исходным кодом бесплатна, как она получила налог IQ и кто собирает этот налог?», «Если сегодняшние компании используют платные модели с закрытым исходным кодом. Большие языковые модели, называемые «налогом на IQ», особенно очень высокие лицензионные сборы за модели и сборы за API, которые обходятся в сотни миллионов в год и в конечном итоге выкупаются в качестве декораций, и даже сотрудники не могут их использовать. вообще (модели)».

Ядро этой дискуссии касается направления и модели развития технологий, которая отражает взгляды и позиции различных заинтересованных сторон. Прежде чем говорить об открытых и закрытых моделях больших языков, нам необходимо уточнить термины «открытый исходный код» и «открытый исходный код». закрытый исходный код». Две основные концепции.

Термин «открытый исходный код» пришел из области программного обеспечения и относится к тому, чтобы сделать исходный код программного обеспечения открытым для общественности в процессе разработки, что позволяет любому просматривать, изменять и распространять его.программное обеспечение с открытым исходным кодомРазработка программного обеспечения обычно следует принципам взаимного сотрудничества и однорангового производства, способствуя улучшению производственных модулей, коммуникационных конвейеров и интерактивных сообществ. Типичными представителями являются Linux и Mozilla Firefox.

Программное обеспечение с закрытым исходным кодом (собственное программное обеспечение) По коммерческим или другим причинам исходный код не разглашается и предоставляются только программы, читаемые компьютером (например, в двоичном формате). Исходный код принадлежит и контролируется только разработчиком. Типичными представителями являются Windows и Android.

Открытый исходный код — это модель разработки программного обеспечения, основанная на открытости, совместном использовании и сотрудничестве. Она поощряет каждого участвовать в разработке и совершенствовании программного обеспечения и способствует постоянному прогрессу и широкому применению технологий.

Программное обеспечение, разработанное с закрытым исходным кодом, скорее всего, будет стабильным и целенаправленным продуктом, но программное обеспечение с закрытым исходным кодом обычно стоит денег, и если в нем есть какие-либо ошибки или недостающие функции, вам придется ждать, пока разработчик устранит проблему.

Что касается того, что такое большая модель с открытым исходным кодом, в отрасли не достигнуто четкого консенсуса, например, программного обеспечения с открытым исходным кодом.

Открытый исходный код больших языковых моделей и программное обеспечение с открытым исходным кодом схожи по своей концепции. Они оба основаны на открытости, совместном использовании и сотрудничестве, поощряя сообщество к участию в разработке и совершенствовании, содействуя технологическому прогрессу и повышению прозрачности.

Однако существуют существенные различия в реализации и требованиях.

Программное обеспечение с открытым исходным кодом в основном ориентировано на приложения и инструменты, а открытый исходный код требует более низких требований к ресурсам, в то время как открытый исходный код больших языковых моделей предполагает большой объем вычислительных ресурсов и высококачественных данных и может иметь больше ограничений на использование. Таким образом, хотя и открытый исходный код направлен на содействие инновациям, и распространение технологий, большая языковая модель с открытым исходным кодом сталкивается с более сложными задачами, и форма вклада сообщества также отличается.

Робин Ли также подчеркнул разницу между ними. Модель с открытым исходным кодом не означает открытый исходный код: «Модель с открытым исходным кодом может получить только набор параметров, и вам придется выполнить SFT (контролируемую тонкую настройку) и согласование безопасности. Даже если вы получаете соответствующий исходный код, вы не можете его получить». Знание того, сколько и какая доля данных используется для обучения этих параметров, не позволит каждому подлить масла в огонь. Получение этих вещей не позволит вам стоять на плечах гигантов и развиваться итеративно».

Полный открытый исходный код больших языковых моделей включает в себя создание открытого и прозрачного всего процесса разработки модели, от сбора данных, проектирования модели, обучения до развертывания. Этот подход не только включает раскрытие наборов данных и архитектуры модели, но также охватывает совместное использование кода процесса обучения и выпуск предварительно обученных весов модели.

В прошлом году наблюдался огромный рост числа крупных языковых моделей, многие из которых заявляют, что они имеют открытый исходный код, но насколько они открыты на самом деле?

Андреас Лизенфельд, исследователь искусственного интеллекта из Университета Радбауд в Нидерландах, и компьютерный лингвист Марк Дингеманс также обнаружили, что, хотя термин «открытый исходный код» широко используется, многие модели в лучшем случае являются лишь «открытыми весами», и большинство других вещей, связанных с построение системы Все аспекты скрыты.

Например, хотя такие технологии, как Meta и Microsoft, позиционируют свои большие языковые модели как «открытые», они не раскрывают важную информацию, связанную с базовой технологией. Что их удивило, так это то, что производительность компаний и учреждений, занимающихся искусственным интеллектом, располагающих меньшими ресурсами, была еще более похвальной.

Исследовательская группа проанализировала серию популярных проектов больших языковых моделей с открытым исходным кодом и оценила их фактическую открытость по множеству аспектов, таких как код, данные, веса, API и документация. В исследовании также использовался ChatGPT OpenAI в качестве ориентира для закрытого исходного кода, подчеркивая истинное состояние проектов с «открытым исходным кодом».

✔ означает открытое, ~ означает частично открытое, а X означает закрытое.

Результаты показывают существенные различия между проектами. Согласно этому рейтингу, OLMo от Allen Institute for AI является самой открытой моделью, за ней следует BloomZ от BigScience, обе из которых были разработаны некоммерческими организациями.

В документе говорится, что, хотя Llama от Meta и Gemma от Google DeepMind заявляют, что они имеют открытый исходный код или открыты, на самом деле они являются просто открытыми весами. Внешние исследователи могут получить доступ к предварительно обученным моделям и использовать их, но не могут проверять или настраивать модель и не знают, как это сделать. модель нацелена на конкретные задачи. Внесите точные корректировки.

Недавние выпуски LLaMA 3 и Mistral Large 2 привлекли большое внимание. С точки зрения открытости модели, LLaMA 3 предоставляет доступ к весам моделей и может использовать их. Кроме того, Meta также предоставляет некоторый базовый код для предварительного обучения модели и точной настройки инструкций. но полный код обучения не предоставляется, а данные обучения для LLaMA 3 не публикуются. Но на этот раз LMeta представила 93-страничный технический отчет по LLaMA 3.1 405B.

Ситуация с Mistral Large 2 аналогична. Он поддерживает высокую степень открытости с точки зрения весов моделей и API, но более низкую степень открытости с точки зрения полного кода и данных обучения. Он применяет стратегию, которая балансирует коммерческие интересы и открытость. разрешение исследовательского использования с ограничениями на коммерческое использование.

В Google заявили, что компания «очень точна в своих выражениях» при описании модели, и назвали Gemma открытым, а не открытым исходным кодом. «Существующие концепции открытого исходного кода не всегда напрямую применимы к системам искусственного интеллекта», — сказал он.

Важным контекстом для этого исследования является Закон ЕС об искусственном интеллекте, который, когда он вступит в силу, налагает более мягкие правила на модели, классифицируемые как открытые, поэтому определения открытого исходного кода могут стать более важными.

По словам исследователей, единственный способ внедрить инновации — это настроить модель, для чего вам нужно достаточно информации, чтобы создать свою собственную версию. Более того, модели необходимо тщательно изучать. Например, если модель обучается на большом количестве тестовых образцов, прохождение определенного теста может не считаться достижением.

Они также рады, что появилось так много альтернатив с открытым исходным кодом, а ChatGPT настолько популярен, что легко забыть что-либо о его обучающих данных или других закулисных трюках. Это ловушка для тех, кто хочет лучше понять модель или создать на ее основе приложения, в то время как альтернативы с открытым исходным кодом позволяют проводить важные фундаментальные исследования.

Silicon Star также предоставила статистику о ситуации с открытым исходным кодом некоторых отечественных моделей больших языков с открытым исходным кодом:

Из таблицы видно, что, как и в других странах, более тщательная модель с открытым исходным кодом в основном возглавляется исследовательскими институтами. Это главным образом потому, что целью исследовательских институтов является содействие прогрессу научных исследований и развитию промышленности, и они более значимы. склонны раскрывать результаты своих исследований.

Коммерческие компании используют свои ресурсные преимущества для разработки более мощных моделей и получения преимуществ в конкурентной борьбе посредством соответствующих стратегий с открытым исходным кодом.

От GPT-3 до BERT открытый исходный код придал важный импульс развитию экосистемы крупных моделей.

Обнародовав архитектуру и методы обучения, исследователи и разработчики смогут продолжить изучение и усовершенствование этих основ, что приведет к появлению более передовых технологий и приложений.

Появление крупных моделей с открытым исходным кодом значительно снизило порог разработки. Разработчики, а также малые и средние предприятия могут воспользоваться преимуществами этих передовых технологий искусственного интеллекта без необходимости создавать модели с нуля, что экономит много времени и ресурсов. Это позволяет быстрее внедрять более инновационные проекты и продукты, способствуя развитию всей отрасли. Разработчики активно делятся методами оптимизации и примерами применения на платформе с открытым исходным кодом, что также способствует зрелости технологий и их применению.

Для образования и научных исследований модели больших языков с открытым исходным кодом предоставляют ценные ресурсы. Изучая и используя эти модели, студенты и начинающие разработчики смогут быстро освоить передовые технологии искусственного интеллекта, сократить время обучения и привнести свежую кровь в отрасль.

Однако открытость больших языковых моделей — это не просто бинарное свойство. Архитектура системы на основе Трансформера и процесс ее обучения чрезвычайно сложны, и их сложно просто классифицировать как открытые или закрытые. Большая модель с открытым исходным кодом — это не просто ярлык, а скорее спектр, варьирующийся от полностью открытого исходного кода до частично открытого исходного кода в различной степени.

Открытие исходного кода больших языковых моделей — сложная и кропотливая задача, и не все модели должны быть открытыми.

Мы также не должны требовать полного открытого исходного кода в форме «морального похищения», поскольку это требует большого количества технологий, ресурсов и соображений безопасности, а также требует баланса между открытостью и безопасностью, инновациями и ответственностью. Как и в случае с другими аспектами технологий, разнообразные способы содействия создают более богатую технологическую экосистему.

Отношения между моделями с открытым и закрытым исходным кодом можно сравнить с сосуществованием программного обеспечения с открытым и закрытым исходным кодом в индустрии программного обеспечения.

Модель с открытым исходным кодом способствует широкому распространению и инновациям технологий и предоставляет больше возможностей исследователям и предприятиям, в то время как модель с закрытым исходным кодом способствует улучшению стандартов во всей отрасли. Здоровая конкуренция между ними вдохновляет на постоянное совершенствование и предоставляет пользователям разнообразный выбор.

Точно так же, как программное обеспечение с открытым исходным кодом и проприетарное программное обеспечение совместно сформировали современную экосистему программного обеспечения,Не существует бинарной оппозиции между большими моделями с открытым и закрытым исходным кодом. Сосуществование этих двух технологий является важной движущей силой постоянного развития технологий искусственного интеллекта и удовлетворения потребностей различных сценариев применения. В конечном итоге пользователи и рынок сделают тот выбор, который их устраивает.

Новости

В индустрии больших моделей вообще не существует «настоящего» открытого исходного кода?

Введение

моя контактная информация