Новости

Эпоха больших моделей закончилась?Большой босс Ци предсказывает: модели ИИ, возможно, придется уменьшить, прежде чем их можно будет масштабировать

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Новый отчет мудрости

Редактор: уши

[Введение в новую мудрость]Завершится ли с появлением маленьких моделей «эра больших моделей»?

«Неделя малых моделей» прошла, и только что открылось новое поле битвы для маленьких моделей.

На прошлой неделе последовательно были выпущены GPT-4o mini и Mistral NeMo. Маленькие модели, которые «небольшие, но имеют все внутренние органы», стали новым направлением, на которое обращают пристальное внимание лидеры отрасли.

Итак, большие модели скоро выйдут из моды? Закон масштабирования скоро станет неэффективным?

Бывший исследователь OpenAI и Tesla в области искусственного интеллекта Андрей Карпати только что начал обучение искусственному интеллекту. «Учитель К» недавно опубликовал твит, в котором рассказывается о новой тенденции, лежащей в основе перехода технологических гигантов к исследованиям и разработкам небольших моделей: конкуренция больших моделей искусственного интеллекта. собирается повернуть вспять.

Он предсказывает, что будущие модели будут меньше, но все же умнее.

Гиганты искусственного интеллекта и некоторые новые «единороги» недавно выпустили модели искусственного интеллекта, которые более компактны, мощнее и доступнее, чем их аналоги. Последний пример — GPT-4o mini от OpenAI.

Карпати прогнозирует, что эта тенденция сохранится. «Держу пари, что мы увидим множество моделей, которые думают эффективно и надежно, но при этом очень маленьких размеров», — написал он.

Маленькие модели: стоим на плечах гигантов

На ранних этапах разработки LLM неизбежной тенденцией является обработка большего количества данных и увеличение размера модели. В основном это обусловлено следующими причинами:

Во-первых, потребности, основанные на данных.

В эпоху бурного роста данных большой объем богатых и разнообразных данных требует более мощных моделей для обработки и понимания.

Большие модели способны размещать и обрабатывать огромные объемы данных. Благодаря крупномасштабному обучению данных они могут обнаруживать глубокие закономерности и законы.

Во-вторых, улучшение вычислительной мощности.

Постоянное развитие аппаратных технологий и разработка высокопроизводительного вычислительного оборудования, такого как графические процессоры, обеспечивают мощную вычислительную мощность для обучения больших моделей. Позволяет обучать большие и сложные модели.

Кроме того, стремитесь к более высокой производительности и точности.

Большие модели обычно могут демонстрировать отличную производительность в нескольких областях, таких как понимание языка, генерация и распознавание изображений. Чем больше они понимают, тем точнее будут генерируемые ими результаты.

Наконец, способность к обобщению сильнее.

Большие модели могут лучше справляться с новыми проблемами и задачами, которые никогда раньше не встречались, могут делать разумные предположения и ответы на основе ранее полученных знаний и обладают более сильными возможностями обобщения.

В условиях жесткой конкуренции в области искусственного интеллекта различные исследовательские институты и гиганты стремятся разрабатывать более крупные и сильные модели, чтобы продемонстрировать свою техническую мощь и лидирующие позиции. Размер объемной модели, естественно, стал общим направлением развития LLM.

Карпати также объяснил масштаб самых мощных на данный момент моделей сложностью обучающих данных, добавив, что большие языковые модели превосходят возможности памяти, превосходя возможности человеческой памяти.

По аналогии, если вам предстоит сдавать экзамен по закрытой книге во время выпускной недели, экзамен требует, чтобы вы прочитали определенный абзац из книги на основе первых нескольких слов.

Это цель предварительного обучения современных больших моделей. Карпати сказал, что сегодняшние большие модели подобны жадным змеям, которые просто хотят проглотить все доступные данные.

Они могут не только повторять серию алгоритмов хеширования SHA для обычных чисел, но также могут запоминать знания всех полей, больших и малых.

Но такой способ обучения похож на запоминание всего из всей библиотеки и Интернета для проверки.

Нельзя отрицать, что те, кто может достичь такой способности памяти, являются гениями, но в конце концов на экзамене была использована только одна страница!

Таким одаренным студентам LLM сложно добиться большего, потому что в процессе обучения данные, демонстрация мышления и знания «переплетаются» воедино.

Более того, с одной стороны, с точки зрения практического применения, большие модели сталкиваются с высокими затратами и потреблением ресурсов при развертывании и запуске, включая вычислительные ресурсы, ресурсы хранения и энергопотребление.

Маленькие модели легче развертывать в различных устройствах и сценариях, они отвечают требованиям простоты использования и низкого энергопотребления.

С другой стороны, с точки зрения технологической зрелости, после того как природа и законы проблемы полностью изучены и поняты с помощью больших моделей, эти знания и закономерности могут быть уточнены и применены для проектирования и оптимизации небольших моделей.

Это позволяет небольшим моделям уменьшить масштаб и стоимость, сохраняя при этом ту же или даже лучшую производительность, чем большие модели.

Хотя разработка больших моделей столкнулась с узким местом, и маленькие модели постепенно стали новой тенденцией, Карпати подчеркнул, что большие модели по-прежнему необходимы, даже если они не подвергаются эффективному обучению, но маленькие модели конденсируются из больших моделей.

Карпати прогнозирует, что каждая модель будет продолжать совершенствоваться, генерируя обучающие данные для следующей модели, пока не будет создан «идеальный обучающий набор».

Даже такая готовая модель, как GPT-2, имеющая 1,5 миллиарда параметров, если вы тренируете GPT-2 с помощью этого идеального тренировочного набора, она может стать очень мощной и умной моделью по сегодняшним меркам.

Этот GPT-2, обученный с помощью идеального обучающего набора, может набрать немного меньший балл, например, в тесте Massive Multi-task Language разумеет (MMLU), который охватывает 57 задач, включая элементарную математику, историю США, информатику, право, и т. д., используемые для оценки охвата базовых знаний и способности понимания больших моделей.

Но в будущем более умные модели искусственного интеллекта не будут полагаться на объемы; они смогут более надежно извлекать информацию и проверять факты.

Точно так же, как лучший студент, сдающий экзамен с открытой книгой, хотя он и не полностью усвоил все знания, он может точно найти правильный ответ.

По имеющимся данным, проект OpenAI Strawberry направлен на решение этой проблемы.

«Похудение» «пухлой» крупной модели


Как сказал Карпати, большинство очень больших моделей (таких как GPT-4), обученных на массивных данных, на самом деле используются для запоминания большого количества несущественных деталей, то есть для запоминания информации наизусть.

Это связано с целью предварительного обучения модели. На этапе предварительного обучения модель должна как можно точнее произнести следующий контент, что эквивалентно запоминанию текста. Чем он точнее, тем выше показатель. счет.

Хотя модель может обучаться повторяющимся знаниям, иногда в данных встречаются ошибки и предвзятости, и модель должна сначала запомнить их все, прежде чем проводить точную настройку.

Карпати считает, что при наличии набора обучающих данных более высокого качества можно обучить меньшую, более производительную и более производительную модель.

С помощью очень больших моделей можно автоматически генерировать и очищать наборы обучающих данных более высокого качества.

Подобно GPT-4o mini, он обучается с использованием данных, очищенных GPT-4.

Сначала увеличьте модель, а затем «уменьшите» ее на этой основе. Это может быть новая тенденция в разработке моделей.

Если дать яркую метафору, это похоже на то, что текущая большая модель имеет проблему со слишком большим количеством наборов данных и слишком толстая. После очистки данных и обширного обучения она превращается в маленькую модель с поджарыми мышцами.

Этот процесс похож на пошаговую эволюцию, и каждое поколение моделей помогает генерировать следующее поколение обучающих данных, пока мы, наконец, не получим «идеальный обучающий набор».

Генеральный директор OpenAI Сэм Альтман также сделал аналогичные замечания, объявив «конец эры» крупных моделей ИИ еще в апреле 2023 года.

Более того, все больше признается, что качество данных является ключевым фактором успеха в обучении ИИ, будь то реальные или синтетические данные.

Альтман считает, что ключевой вопрос заключается в том, как системы искусственного интеллекта могут учиться больше, используя меньше данных.

Исследователи Microsoft пришли к такому же выводу при разработке модели Phi. Исследователи искусственного интеллекта Hugging Face также согласились с стремлением к получению высококачественных наборов данных и выпустили высококачественные наборы обучающих данных.

Это означает, что слепое расширение больше не является единственной технической целью технологических гигантов. Даже небольшие, высококачественные модели могут извлечь выгоду из большего количества, более разнообразных и более качественных данных.

Возврат к меньшим, более эффективным моделям можно рассматривать как цель следующего этапа интеграции, и выпуск модели OpenAI четко указывает направление будущего развития.

Область комментариев: правильно, уместно и кроваво

Карпати также упомянул аналогичный подход Tesla к сети автономного вождения.

У Tesla есть нечто, называемое «оффлайн-трекер», который генерирует более чистые данные обучения, запуская предыдущую, более слабую модель.

Как только он услышал, что технологии Теслы, как говорят, находятся в авангарде времени, Маск быстро бросился в область комментариев:

Пользователи сети в комментариях также выразили свою признательность Карпати за дальновидность, и я согласен!

Для будущего общего искусственного интеллекта меньшие по размеру и более эффективные модели искусственного интеллекта могут переопределить «интеллект» в искусственном интеллекте и бросить вызов предположению, что «чем больше, тем лучше».

Себастьян Рашка, автор книги «Машинное обучение Python», считает, что это похоже на дистилляцию знаний, когда маленькая модель, такая как Gemma-2, выделяется из большой модели 27B.

Он также напомнил нам, что тесты с несколькими вариантами ответов, такие как MMLU, могут проверять знания, но они не могут полностью отражать реальные способности.

Некоторые пользователи сети также очень изобретательны. Если маленькие модели работают хорошо, значит, в этой области есть специализация, почему бы не использовать больше маленьких моделей для генерации ответов одна за другой?

Вызовите 10 помощников ИИ, а затем позвольте самому умному подвести окончательный итог. Это просто ИИ-версия аналитического центра.

Итак, является ли AGI одной всемогущей крупной моделью или он возник в результате сотрудничества множества маленьких моделей?