моя контактная информация
Почтамезофия@protonmail.com
2024-08-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Дом возник из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI
Размер большой модели Трансформера меняется, и он возвращается к старому пути CNN!
Видя, что всех привлекает LLaMA 3.1,Цзя ЯнцинТакое настроение.
Сравнивая развитие моделей больших размеров с развитием CNN, мы можем обнаружить очевидную тенденцию и явление:
В эпоху ImageNet исследователи и технические специалисты стали свидетелями быстрого роста размеров параметров, а затем начали переходить к меньшим и более эффективным моделям.
Похоже ли это на масштабирование параметров модели GPT? В отрасли в целом согласны с Законом масштабирования, а затем появляются GPT-4o mini, Apple DCLM-7B и Google Gemma 2B?
Цзя Янцин с улыбкой сказал: «Это из эпохи до больших моделей, и многие люди, возможно, плохо это помнят :)».
Более того, Цзя Янцин не единственный, кто это понимает.Мастер ИИ Капаси тоже так думает:
- Конкуренция среди моделей больших размеров растет… но ситуация движется в противоположном направлении!
- Модель должна сначала стремиться к «большему», а затем к «меньшему», потому что нам нужен этот процесс, чтобы помочь нам восстановить обучающие данные в идеальный синтетический формат.
Он даже уверен, что мы увидим модели, которые будут хороши и надежны для мышления.
И масштаб параметров очень мал.
Даже Маск неоднократно говорил в комментариях Капаси:
Вышесказанное, наверное, можно назвать «большие парни видят то же самое».
Эмоции Цзя Янцина начинаются с LLaMA 3.1, который пробыл на сильнейшем троне всего короткий день.
Впервые была реализована формула «самая сильная модель с открытым исходным кодом = самая сильная модель». Неудивительно, что она привлекла большое внимание.
Однако тогда Цзя Янцин высказал свою точку зрения:
"Но я думаю,Индустрия действительно будет процветать на небольших вертикальных моделях.。”
Что касается небольших вертикальных моделей, Цзя Янцин также очень ясно дал это понять, например, те большие модели малого и среднего размера, представленные Iynx от Patrouns AI (модель компании по обнаружению галлюцинаций, которая превосходит GPT-4o в задачах по галлюцинациям).
Цзя Янцин сказал, что с точки зрения личных предпочтений ему лично очень нравится модель со 100 миллиардами параметров.
Но на самом деле он заметил, что большие модели с диапазоном параметров от 7B до 70B проще использовать каждому:
В то же время он услышал, что последние, более быстрые модели OpenAI также начинают становиться меньше, чем «современные» более крупные модели.
«Если я правильно понимаю, то это определенно свидетельствует о тенденциях отрасли», — Цзя Янцин прямо изложил свою точку зрения, «то есть в реальном мире используйте модели, которые применимы, экономически эффективны и по-прежнему эффективны».
С тех пор Цзя Янцин вкратце разобрался в истории развития CNN.
Прежде всего, это эпоха подъема CNN.
Взяв за отправную точку AlexNet (2012), начался период примерно трех лет роста масштабов модели.
VGGNet, появившийся в 2014 году, представляет собой модель с очень мощной производительностью и масштабом.
Во-вторых, наступает период сокращения.
В 2015 году GoogleNet уменьшила размер модели с уровня «ГБ» до уровня «МБ», что является сокращением в 100 раз, однако производительность модели из-за этого не упала резко, а сохранила хорошую производительность;
Аналогичным тенденциям следует модель SqueezeNet, запущенная в 2015 году.
В течение некоторого времени основное внимание в разработке уделялось достижению баланса.
Последующие исследования, такие как ResNet (2015), ResNeXT (2016) и т. д., сохранили умеренный размер модели.
Стоит отметить, что контроль размера модели не приводит к уменьшению объема вычислений — фактически каждый готов вкладывать больше вычислительных ресурсов и стремиться к состоянию «те же параметры, но более эффективно».
За этим последовал период танцев CNN на стороне.
Например, MobileNet — интересная разработка, запущенная Google в 2017 году.
Что интересно, он занимает очень мало ресурсов, но имеет отличную производительность.
Буквально на прошлой неделе кто-то сказал Цзя Янцину: «Ух ты, мы до сих пор используем MobileNet, потому что он может работать на устройстве и обладает превосходной универсальностью внедрения функций».
Наконец, Цзя Янцин позаимствовал изображение из «Обзора эффективных сверточных нейронных сетей и аппаратного ускорения» Гимире и др.:
И еще раз задал свой вопрос:
Будут ли модели больших размеров следовать той же тенденции, что и в эпоху CNN?
На самом деле существует немало примеров, когда GPT-4o mini идет по пути развития крупных моделей, «не больших, а маленьких».
Когда вышеупомянутые люди выразили эту точку зрения, некоторые сразу же кивнули и привели другие подобные примеры, чтобы доказать, что они видят ту же тенденцию.
Кто-то тут же последовал:
- У меня есть новый положительный пример! Gemma-2 превращает знания модели с размером параметра 27B в уменьшенную версию.
Некоторые пользователи сети заявили, что разработка более крупных моделей означает «интенсификацию» обучения последующих поколений меньших и более вертикальных моделей.
Этот итерационный процесс в конечном итоге создает то, что называется «идеальным обучающим набором».
Таким образом, меньшие по размеру большие модели могут быть такими же или даже умнее, чем сегодняшние большие модели с огромными параметрами в конкретных областях.
В двух словах,Модель сначала необходимо увеличить, прежде чем ее можно будет уменьшить.
Большинство людей, обсуждавших эту точку зрения, по-прежнему согласны с этой тенденцией. Некоторые прямо говорили: «Это хорошо, и это более практично и полезно, чем соревнование по параметру «Моя модель больше, чем ваша модель».
Но конечно!
Просматривая разделы онлайн-комментариев,Остальные издавали разные звуки.
Например, этот друг оставил сообщение под твитом Цзя Янцина:
- Mistral Large (компания, стоящая за этим, Mistral AI), LLaMA 3.1 (компания, стоящая за ним, Meta) и OpenAI, компании с наиболее конкурентоспособными моделями, возможно, в настоящее время обучают более крупные модели.
- Тенденции «технологических прорывов меньшими моделями» я не вижу.
Столкнувшись с этим вопросом, Цзя Янцин быстро ответил.
Вот что он сказал: «Правильно! Когда я говорю, что модели больших размеров могут идти по старому пути CNN, я определенно не имею в виду, что призываю всех прекратить обучение более крупных моделей».
Далее он пояснил, что первоначальная цель этих слов состоит в том, что по мере того, как технологии (включая CNN и большие модели) становятся все более широко внедряемыми, все начинают уделять все больше и больше внимания более экономически эффективным моделям. "
Поэтому, возможно, более эффективные малые и большие модели смогут дать новое определение «интеллекту» ИИ и бросить вызов предположению, что «чем больше, тем лучше».
Согласны ли вы с этой точкой зрения?
Справочные ссылки:
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497