Новости

Генеративный ИИ может открыть следующую тенденцию: модель ТТТ

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

В центре внимания следующего поколения генеративного искусственного интеллекта (ИИ) могут быть модели обучения во время тестирования, или сокращенно TTT.

Архитектура Transformers лежит в основе видеомодели OpenAI Sora и ядра моделей генерации текста, таких как Claude от Anthropic, Gemini от Google и флагманской модели OpenAI GPT-4o. Но теперь эволюция этих моделей начинает наталкиваться на технические препятствия, особенно связанные с вычислениями. Потому что Трансформеры не особенно эффективны при обработке и анализе больших объемов данных, по крайней мере, при работе на готовом оборудовании. Предприятия создают и расширяют инфраструктуру для удовлетворения потребностей трансформаторов, что приводит к резкому увеличению спроса на электроэнергию, который может быть не в состоянии устойчиво удовлетворить спрос.

В этом месяце исследователи из Стэнфордского университета, Калифорнийского университета в Сан-Диего, Калифорнийского университета в Беркли и компании Meta совместно объявили, что потратили полтора года на разработку архитектуры TTT. Исследовательская группа утверждает, что модель ТТТ не только может обрабатывать гораздо больше данных, чем Трансформеры, но и не потребляет столько вычислительной мощности, как Трансформеры.

Почему сторонние наблюдатели считают, что модель ТТТ более перспективна, чем «Трансформеры»? Первое, что нужно понять, это то, что фундаментальным компонентом Transformers является «скрытое состояние», которое по сути представляет собой длинный список данных. Когда Трансформатор что-то обрабатывает, он добавляет записи в скрытое состояние, чтобы «запомнить» то, что он только что обработал. Например, если модель обрабатывает книгу, скрытое значение состояния будет представлением слова (или части слова).

Ю Сун, научный сотрудник Стэнфордского университета, принимавший участие в вышеупомянутом исследовании ТТТ, недавно объяснил средствам массовой информации, что если Трансформатор рассматривать как интеллектуальную сущность, то таблица поиска и ее скрытое состояние являются мозгом Трансформера. Этот мозг реализует некоторые известные функции Transformer, такие как контекстное обучение.

Скрытое состояние помогает Трансформерам стать могущественными, но также препятствует их развитию. Например, Трансформеры только что прочитали книгу. Чтобы «сказать» хотя бы одно слово в этой книге, модель Трансформеров должна просмотреть всю таблицу поиска. Это вычислительное требование эквивалентно перечитыванию всей книги.

Поэтому Сан и другие исследователи из TTT задумались о замене скрытых состояний моделями машинного обучения — например, матрешками ИИ, моделью внутри модели. В отличие от справочных таблиц Transformers, внутренняя модель машинного обучения модели TTT не растет по мере обработки большего количества данных. Вместо этого он кодирует обработанные данные в репрезентативные переменные, называемые весами, поэтому модель TTT имеет высокую производительность. Независимо от того, сколько данных обрабатывает модель TTT, размер ее внутренней модели не меняется.

Сан считает, что будущие модели TTT смогут эффективно обрабатывать миллиарды фрагментов данных: от слов до изображений, от записей до видео. Это выходит за рамки возможностей существующих моделей. Система TTT может произнести X слов в книге без необходимости выполнять сложные вычисления по перечитыванию книги X раз. «Крупномасштабные видеомодели, основанные на Трансформерах, такие как Sora, могут обрабатывать только 10-секундные видеоролики, потому что у них есть только «мозг» справочной таблицы. Наша конечная цель — разработать систему, которая может обрабатывать длинные видео, аналогичные визуальному восприятию. в жизни человека»

Смогут ли модели ТТТ заменить трансформаторы? СМИ полагают, что это возможно, но выводы сейчас делать рано. Модель ТТТ в настоящее время не является прямой заменой Трансформеров. Исследователи разработали только две небольшие модели для исследования, поэтому в настоящее время трудно сравнивать ТТТ с результатами, достигнутыми некоторыми более крупными моделями Трансформеров.

Майк Кук, старший преподаватель кафедры информатики Королевского колледжа Лондона, не принимавший участия в вышеупомянутом исследовании ТТТ, отметил, что ТТТ — очень интересная инновация, если данные подтверждают идею о том, что она может повысить эффективность, это хорошая новость. , но он не может сказать, лучше ли ТТТ существующей архитектуры? Кук рассказал, что, когда он был студентом, старый профессор часто рассказывал анекдот: «Как решить любую задачу в области информатики?» Добавьте еще один уровень абстракции. Добавление нейросети к нейросети напомнило ему разгадку этой шутки.