Цзя Янцин: Модели больших размеров возвращаются к старому пути Маска: То же самое можно сказать и о Tesla

Цзя Янцин: Большие размеры моделей возвращаются к старому пути CNN: То же самое верно и в Tesla;

2024-08-01

Дом возник из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Размер большой модели Трансформера меняется, и он возвращается к старому пути CNN!

Видя, что всех привлекает LLaMA 3.1,Цзя ЯнцинТакое настроение.

Сравнивая развитие моделей больших размеров с развитием CNN, мы можем обнаружить очевидную тенденцию и явление:

В эпоху ImageNet исследователи и технические специалисты стали свидетелями быстрого роста размеров параметров, а затем начали переходить к меньшим и более эффективным моделям.

Похоже ли это на масштабирование параметров модели GPT? В отрасли в целом согласны с Законом масштабирования, а затем появляются GPT-4o mini, Apple DCLM-7B и Google Gemma 2B?

Цзя Янцин с улыбкой сказал: «Это из эпохи до больших моделей, и многие люди, возможно, плохо это помнят :)».

Более того, Цзя Янцин не единственный, кто это понимает.Мастер ИИ Капаси тоже так думает：

Конкуренция среди моделей больших размеров растет… но ситуация движется в противоположном направлении!
Модель должна сначала стремиться к «большему», а затем к «меньшему», потому что нам нужен этот процесс, чтобы помочь нам восстановить обучающие данные в идеальный синтетический формат.

Он даже уверен, что мы увидим модели, которые будут хороши и надежны для мышления.

И масштаб параметров очень мал.

Даже Маск неоднократно говорил в комментариях Капаси:

Вышесказанное, наверное, можно назвать «большие парни видят то же самое».

Развернуть и поговорить

Эмоции Цзя Янцина начинаются с LLaMA 3.1, который пробыл на сильнейшем троне всего короткий день.

Впервые была реализована формула «самая сильная модель с открытым исходным кодом = самая сильная модель». Неудивительно, что она привлекла большое внимание.

Однако тогда Цзя Янцин высказал свою точку зрения:

"Но я думаю,Индустрия действительно будет процветать на небольших вертикальных моделях.。”

Что касается небольших вертикальных моделей, Цзя Янцин также очень ясно дал это понять, например, те большие модели малого и среднего размера, представленные Iynx от Patrouns AI (модель компании по обнаружению галлюцинаций, которая превосходит GPT-4o в задачах по галлюцинациям).

Цзя Янцин сказал, что с точки зрения личных предпочтений ему лично очень нравится модель со 100 миллиардами параметров.

Но на самом деле он заметил, что большие модели с диапазоном параметров от 7B до 70B проще использовать каждому:

Их легче размещать, и для того, чтобы они были прибыльными, не требуется огромный трафик;
Если вы задаете четкие вопросы, вы можете получить результат достойного качества – вопреки некоторым предыдущим убеждениям.

В то же время он услышал, что последние, более быстрые модели OpenAI также начинают становиться меньше, чем «современные» более крупные модели.

«Если я правильно понимаю, то это определенно свидетельствует о тенденциях отрасли», — Цзя Янцин прямо изложил свою точку зрения, «то есть в реальном мире используйте модели, которые применимы, экономически эффективны и по-прежнему эффективны».

С тех пор Цзя Янцин вкратце разобрался в истории развития CNN.

Прежде всего, это эпоха подъема CNN.

Взяв за отправную точку AlexNet (2012), начался период примерно трех лет роста масштабов модели.

VGGNet, появившийся в 2014 году, представляет собой модель с очень мощной производительностью и масштабом.

Во-вторых, наступает период сокращения.

В 2015 году GoogleNet уменьшила размер модели с уровня «ГБ» до уровня «МБ», что является сокращением в 100 раз, однако производительность модели из-за этого не упала резко, а сохранила хорошую производительность;

Аналогичным тенденциям следует модель SqueezeNet, запущенная в 2015 году.

В течение некоторого времени основное внимание в разработке уделялось достижению баланса.

Последующие исследования, такие как ResNet (2015), ResNeXT (2016) и т. д., сохранили умеренный размер модели.

Стоит отметить, что контроль размера модели не приводит к уменьшению объема вычислений — фактически каждый готов вкладывать больше вычислительных ресурсов и стремиться к состоянию «те же параметры, но более эффективно».

За этим последовал период танцев CNN на стороне.

Например, MobileNet — интересная разработка, запущенная Google в 2017 году.

Что интересно, он занимает очень мало ресурсов, но имеет отличную производительность.

Буквально на прошлой неделе кто-то сказал Цзя Янцину: «Ух ты, мы до сих пор используем MobileNet, потому что он может работать на устройстве и обладает превосходной универсальностью внедрения функций».

Наконец, Цзя Янцин позаимствовал изображение из «Обзора эффективных сверточных нейронных сетей и аппаратного ускорения» Гимире и др.:

И еще раз задал свой вопрос:

Будут ли модели больших размеров следовать той же тенденции, что и в эпоху CNN?

Что думают пользователи сети?

На самом деле существует немало примеров, когда GPT-4o mini идет по пути развития крупных моделей, «не больших, а маленьких».

Когда вышеупомянутые люди выразили эту точку зрения, некоторые сразу же кивнули и привели другие подобные примеры, чтобы доказать, что они видят ту же тенденцию.

Кто-то тут же последовал:

У меня есть новый положительный пример! Gemma-2 превращает знания модели с размером параметра 27B в уменьшенную версию.

Некоторые пользователи сети заявили, что разработка более крупных моделей означает «интенсификацию» обучения последующих поколений меньших и более вертикальных моделей.

Этот итерационный процесс в конечном итоге создает то, что называется «идеальным обучающим набором».

Таким образом, меньшие по размеру большие модели могут быть такими же или даже умнее, чем сегодняшние большие модели с огромными параметрами в конкретных областях.

В двух словах,Модель сначала необходимо увеличить, прежде чем ее можно будет уменьшить.

Большинство людей, обсуждавших эту точку зрения, по-прежнему согласны с этой тенденцией. Некоторые прямо говорили: «Это хорошо, и это более практично и полезно, чем соревнование по параметру «Моя модель больше, чем ваша модель».

Но конечно!

Просматривая разделы онлайн-комментариев,Остальные издавали разные звуки.

Например, этот друг оставил сообщение под твитом Цзя Янцина:

Mistral Large (компания, стоящая за этим, Mistral AI), LLaMA 3.1 (компания, стоящая за ним, Meta) и OpenAI, компании с наиболее конкурентоспособными моделями, возможно, в настоящее время обучают более крупные модели.
Тенденции «технологических прорывов меньшими моделями» я не вижу.

Столкнувшись с этим вопросом, Цзя Янцин быстро ответил.

Вот что он сказал: «Правильно! Когда я говорю, что модели больших размеров могут идти по старому пути CNN, я определенно не имею в виду, что призываю всех прекратить обучение более крупных моделей».

Далее он пояснил, что первоначальная цель этих слов состоит в том, что по мере того, как технологии (включая CNN и большие модели) становятся все более широко внедряемыми, все начинают уделять все больше и больше внимания более экономически эффективным моделям. "

Поэтому, возможно, более эффективные малые и большие модели смогут дать новое определение «интеллекту» ИИ и бросить вызов предположению, что «чем больше, тем лучше».

Согласны ли вы с этой точкой зрения?

Справочные ссылки:
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497

Новости

Цзя Янцин: Большие размеры моделей возвращаются к старому пути CNN: То же самое верно и в Tesla;

Развернуть и поговорить

Что думают пользователи сети?

Введение

моя контактная информация