новости

Microsoft и NVIDIA делают ставку на маленькие модели. Большие модели больше не популярны?

2024-08-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

В развитии искусственного интеллекта технологические гиганты когда-то конкурировали за разработку крупномасштабных языковых моделей, но теперь возникла новая тенденция: постепенно появляются малые языковые модели (SLM), бросающие вызов прошлой концепции «чем больше, тем лучше».

Визуальный Китай

21 августа по местному времени Microsoft и NVIDIA последовательно выпустили новейшие модели малого языка — Phi-3.5-mini-instruct и Mistral-NeMo-Minitron8B. Основным преимуществом обеих моделей является хороший баланс между использованием вычислительных ресурсов и функциональной производительностью. В некотором смысле их производительность может даже конкурировать с более крупными моделями.

Клем Деланг, генеральный директор стартапа Hugging Face в области искусственного интеллекта, отметил, что до 99% сценариев использования можно решить с помощью SLM, и предсказал, что 2024 год станет годом SLM. По неполной статистике, технологические гиганты, включая Meta, Microsoft и Google, в этом году выпустили 9 небольших моделей.

Затраты на обучение крупных моделей растут

Популярность SLM не случайна, а тесно связана с проблемами больших моделей (LLM) с точки зрения повышения производительности и потребления ресурсов.

Сравнение производительности, опубликованное в апреле стартапами в области искусственного интеллекта Vellum и Hugging Face, показало, что разрыв в производительности между LLM быстро сокращается, особенно в конкретных задачах, таких как вопросы с несколькими вариантами ответов, рассуждения и математические задачи, где различия между ведущими моделями чрезвычайно велики. . Маленький. Например, в вопросах с несколькими вариантами ответов Claude3 Opus, GPT-4 и Gemini Ultra достигли точности более 83 %, а в задачах вывода Claude3 Opus, GPT-4 и Gemini 1.5Pro достигли точности более 92%.

Гэри Маркус, бывший глава Uber AI, отметил: «Думаю, все сказали бы, что GPT-4 на шаг впереди GPT-3.5, но с тех пор более года не произошло качественного скачка».

По сравнению с ограниченным улучшением производительности, стоимость обучения LLM постоянно растет. Обучение этих моделей требует огромных объемов данных и сотен миллионов или даже триллионов параметров, что приводит к чрезвычайно высокому потреблению ресурсов. Вычислительная мощность и энергопотребление, необходимые для обучения и запуска LLM, ошеломляют, что затрудняет участие небольших организаций или отдельных лиц в основной разработке LLM.

По оценкам Международного энергетического агентства, потребление электроэнергии, связанное с центрами обработки данных, криптовалютой и искусственным интеллектом, к 2026 году будет примерно эквивалентно всему потреблению электроэнергии в Японии.

Генеральный директор OpenAI Альтман однажды заявил на мероприятии MIT, что обучение GPT-4 обойдется как минимум в 100 миллионов долларов, а генеральный директор Anthropic Дарио Амодей предсказал, что стоимость обучения модели в будущем может достичь 100 миллиардов долларов.

Кроме того, сложность инструментов и методов, необходимых для использования LLM, также увеличивает кривую обучения разработчика. Весь процесс от обучения до развертывания занимает много времени, что замедляет разработку. Исследование Кембриджского университета показывает, что на развертывание модели машинного обучения компаниям может потребоваться 90 и более дней.

Другая серьезная проблема LLM заключается в том, что он склонен к «иллюзиям», то есть результаты, генерируемые моделью, кажутся разумными, но на самом деле не являются правильными. Это связано с тем, что LLM обучен предсказывать следующее наиболее вероятное слово на основе закономерностей в данных, а не по-настоящему понимать информацию. В результате LLM может уверенно генерировать ложные утверждения, фабриковать факты или абсурдным образом комбинировать несвязанные понятия. Как обнаружить и уменьшить эти «иллюзии» — постоянная задача в разработке надежных и заслуживающих доверия языковых моделей.

Маленькие модели сокращают затраты

Обеспокоенность по поводу огромных энергетических потребностей LLM, а также рыночных возможностей предоставить предприятиям более разнообразные варианты ИИ побудили технологические компании постепенно обратить свое внимание на SLM.

Репортеры Daily Economic News заметили, что как AI-стартапы, такие как Arcee, Sakana AI и Hugging Face, так и технологические гиганты привлекают инвесторов и клиентов с помощью SLM и более экономичных методов.

Ранее Google, Meta, OpenAI и Anthropic выпустили небольшие модели, которые более компактны и гибки, чем флагманская LLM. Это не только снижает затраты на разработку и развертывание, но и предоставляет коммерческим клиентам более дешевое решение. Учитывая растущую обеспокоенность инвесторов по поводу высоких затрат и неопределенной доходности предприятий в области ИИ, все больше технологических компаний могут выбрать этот путь. Даже Microsoft и NVIDIA выпустили свои собственные небольшие модели (SLM).

SLM — это упрощенные версии LLM с меньшим количеством параметров и более простой конструкцией, требующие меньше данных и времени на обучение — всего несколько минут или часов. Это делает SLM более эффективным и простым в развертывании на небольших устройствах. Например, их можно встроить в мобильные телефоны, не занимая ресурсы суперкомпьютера, что снизит затраты и значительно улучшит скорость реагирования.

Еще одним важным преимуществом SLM является его специализация для конкретных приложений. УУЗР фокусируются на конкретных задачах или областях, что делает их более эффективными в практическом применении. Например, SLM часто превосходят модели общего назначения в анализе настроений, распознавании именованных объектов или ответах на вопросы, специфичные для предметной области. Такая настройка позволяет компаниям создавать модели, которые эффективно отвечают их конкретным потребностям.

SLM также менее склонны к «галлюцинациям» в конкретной области, поскольку они обычно обучаются на более узких и целевых наборах данных, что помогает модели изучить закономерности и информацию, наиболее соответствующую ее задаче. Целенаправленный характер УУЗР снижает вероятность получения нерелевантных, неожиданных или противоречивых результатов.

Несмотря на меньшие размеры, производительность SLM по некоторым аспектам не уступает более крупным моделям. Последняя мини-инструкция Phi-3.5 от Microsoft имеет всего 3,8 миллиарда параметров, но ее производительность лучше, чем у моделей с гораздо более высокими параметрами, чем у Llama3.18B и Mistral7B. Аарон Мюллер, эксперт по исследованиям языковых моделей в Северо-Восточном университете (ведущий частный исследовательский университет, расположенный в Бостоне, штат Массачусетс, США), отметил, что увеличение количества параметров — не единственный способ улучшить производительность модели, которую может дать обучение с использованием данных более высокого качества. также дают аналогичный эффект.

Генеральный директор OpenAI Альтман заявил на апрельском мероприятии, что, по его мнению, мы находимся в конце эпохи гигантских моделей и «мы будем улучшать их производительность другими способами».

Однако следует отметить, что хотя специализация УУЗР является большим преимуществом, она также имеет ограничения. Эти модели могут плохо работать за пределами своей конкретной области обучения, им не хватает широкой базы знаний и они неспособны генерировать релевантный контент по широкому кругу тем по сравнению с LLM. Это ограничение требует, чтобы пользователям приходилось развертывать несколько SLM для покрытия разных областей спроса, что усложняет инфраструктуру искусственного интеллекта.

С быстрым развитием области искусственного интеллекта стандарты для небольших моделей могут продолжать меняться. Дэвид Ха, соучредитель и генеральный директор токийского стартапа малых моделей Sakana, сказал, что модели искусственного интеллекта, которые несколько лет назад казались огромными, теперь кажутся «скромными». «Размер всегда относительен», — сказал Дэвид Ха.

ежедневные экономические новости

Отчет/Отзыв