новости

Новый метод исследований и разработок Meta: интеграция языковых и диффузных моделей искусственного интеллекта для сокращения объема вычислений, повышения эффективности вычислений и оптимизации генерации изображений.

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

24 августа IT House сообщил, что компания Meta AI недавно запустила новый метод под названием Transfusion, который может объединять языковые модели и модели генерации изображений в единую систему искусственного интеллекта.

IT Home процитировал слова команды, утверждающей, что Transfusion сочетает в себе преимущества языковых моделей при обработке дискретных данных, таких как текст, и способность моделей диффузии генерировать непрерывные данные, такие как изображения.

Мета объясняет, что современные системы генерации изображений обычно используют предварительно обученные кодировщики текста для обработки входных ключевых слов, которые затем объединяются с отдельной моделью распространения для генерации изображений.

Многие мультимодальные языковые модели работают аналогичным образом, объединяя предварительно обученные текстовые модели со специализированными кодировщиками для других модальностей.

Однако Transfusion использует единую унифицированную архитектуру Transformer, которая подходит для всех режимов и выполняет сквозное обучение на текстовых и графических данных. Текст и изображения используют разные функции потерь: текст использует предсказание следующего токена, а изображения — диффузию.

Для одновременной обработки текста и изображений изображения преобразуются в последовательности фрагментов изображений. Таким образом, модель может обрабатывать текстовые теги и фрагменты изображений одновременно в последовательности, а специальная маска внимания позволяет модели фиксировать взаимосвязи внутри изображения.

В отличие от существующих методов Meta, таких как Chameleon (который преобразует изображения в дискретные маркеры, а затем обрабатывает их так же, как текст), Transfusion сохраняет непрерывное представление изображений и позволяет избежать потери информации, вызванной квантованием.

Эксперименты также показывают, что Fusion масштабируется более эффективно, чем аналогичные методы. Что касается генерации изображений, он достигает результатов, аналогичных специализированным моделям, но со значительно меньшими вычислительными затратами, и, что удивительно, интеграция данных изображения также улучшает возможности обработки текста.

Исследователи обучили модель с 7 миллиардами параметров на 2 триллионах текстовых и графических тегов. Модель достигает результатов, аналогичных зрелым системам, таким как DALL-E 2, при создании изображений и одновременной обработке текста.