Неограниченное создание видео, планирование и принятие решений, принудительная диффузия, интеграция прогнозирования следующего токена и полная последовательность

Неограниченное создание видео, планирование и принятие решений, принудительная интеграция предсказания следующего токена и распространение полной последовательности.

2024-07-23

Отчет о сердце машины

Монтажер: Панда В.

В настоящее время во всем мире стали популярны авторегрессионные крупномасштабные языковые модели, использующие следующую парадигму предсказания токенов. В то же время большое количество синтетических изображений и видео в Интернете уже продемонстрировали нам силу диффузионных моделей.

Недавно исследовательская группа из MIT CSAIL (одной из которых является Чэнь Боюань, аспирант Массачусетского технологического института) успешно объединила мощные возможности модели диффузии полной последовательности и модели следующего токена и предложила парадигму обучения и выборки: Diffusion Forcing ( ДФ).

Название статьи: Форсирование диффузии: предсказание следующего токена соответствует диффузии полной последовательности
Адрес статьи: https://arxiv.org/pdf/2407.01392.
Сайт проекта: https://boyuan.space/diffusion-forceing
Адрес кода: https://github.com/buoyancy99/diffusion-forcing.

Как показано ниже, диффузионное принуждение значительно превосходит как полную последовательность диффузии, так и принуждение учителя с точки зрения последовательности и стабильности.

В этой структуре каждый токен связан со случайным независимым уровнем шума, и общая модель прогнозирования следующего токена или модель прогнозирования следующего токена может использоваться в соответствии с произвольной независимой схемой для каждого токена для шумоподавления.

Этот метод был основан на наблюдении, что процесс добавления шума к токену является формой частичной маскировки: нулевой шум означает, что токен не маскируется, тогда как полный шум полностью маскирует токен. Таким образом, DF заставляет модель изучить маску, которая удаляет любой переменный набор зашумленных токенов (рис. 2).

В то же время, параметризовав метод прогнозирования как комбинацию нескольких моделей прогнозирования следующего токена, система может гибко генерировать последовательности различной длины и комбинаторно обобщать их на новые траектории (рис. 1).

Команда реализовала DF для генерации последовательностей в Causal Diffusion Forcing (CDF), в котором будущие токены зависят от прошлых токенов через причинную архитектуру. Они обучили модель шумоподавлять все токены последовательности одновременно (где каждый токен имеет независимый уровень шума).

Во время выборки CDF постепенно удаляет шум из последовательности кадров гауссовского шума в чистые выборки, где разные кадры могут иметь разные уровни шума на каждом этапе шумоподавления. Подобно модели прогнозирования следующего токена, CDF может генерировать последовательности переменной длины, в отличие от прогнозирования следующего токена, производительность CDF очень стабильна — независимо от того, прогнозирует ли он следующий токен, тысячи токенов в будущем или даже непрерывный токен.

Кроме того, подобно диффузии полной последовательности, он также может получать указания, что позволяет получать высокие вознаграждения. Совместно используя причинно-следственную связь, гибкую область действия и планирование переменного шума, CDF обеспечивает новую функцию: управление деревом Монте-Карло (MCTG). По сравнению с моделью некаузальной диффузии полной последовательности, MCTG может значительно улучшить частоту выборки при генерации высокого вознаграждения. На рис. 1 представлен обзор этих возможностей.

эксперимент

Команда оценила преимущества диффузионного воздействия как модели генеративной последовательности в различных приложениях, включая прогнозирование видео и временных рядов, планирование и имитационное обучение.

Прогнозирование видео: последовательное и стабильное создание последовательности и бесконечное расширение

Для задачи генеративного моделирования видео они обучили сверточную реализацию RNN для причинно-следственной диффузии на основе игровых видеороликов Minecraft и навигации DMLab.

На рисунке 3 показаны качественные результаты диффузионного воздействия по сравнению с базовым уровнем.

Можно видеть, что диффузионное воздействие может стабильно расширяться, даже за пределы диапазона обучения, в то время как контрольные показатели воздействия учителя и полной последовательности диффузии будут быстро расходиться;

Планирование распространения: MCTG, причинно-следственная неопределенность, гибкий контроль объема

Способность рассеивать принуждение приносит уникальные преимущества в процессе принятия решений. Команда оценила недавно предложенную структуру принятия решений, используя D4RL, стандартную систему автономного обучения с подкреплением.

В таблице 1 представлены результаты качественной и количественной оценки. Как можно видеть, диффузионное воздействие превосходит Diffuser и все базовые показатели во всех 6 средах.

Генерация управляемой комбинации последовательностей

Команда обнаружила, что можно гибко комбинировать подпоследовательности последовательностей, наблюдаемых во время обучения, просто изменив схему выборки.

Они провели эксперименты с использованием двумерного набора данных о траекториях: на квадратной плоскости все траектории начинаются в одном углу и заканчиваются в противоположном углу, образуя своего рода крест.

Как показано на рисунке 1 выше, когда комбинированное поведение не требуется, DF можно разрешить сохранять полную память и копировать крестообразное распределение. Когда требуется комбинация, модель можно использовать для создания более короткого плана без памяти с использованием MPC, тем самым сшивая крестообразные подтраектории для получения V-образной траектории.

Робототехника: обучение имитации на большие расстояния и надежный зрительно-моторный контроль

Диффузионное воздействие также открывает новые возможности для визуального управления движением реальных роботов.

Обучение с имитацией — это широко используемый метод манипулирования роботами, который изучает сопоставления наблюдаемых действий, продемонстрированных экспертами. Однако недостаток памяти часто затрудняет имитационное обучение при выполнении долгосрочных задач. DF может не только устранить этот недостаток, но и сделать имитационное обучение более надежным.

Использование памяти для имитационного обучения. Удаленно управляя роботом Франка, команда собрала набор данных видео и движения. Как показано на рисунке 4, задача состоит в том, чтобы использовать третью позицию для обмена позициями яблок и апельсинов. Начальное положение плода случайно, поэтому существует два возможных состояния цели.

Более того, когда на третьей позиции находится фрукт, желаемый результат не может быть выведен из текущего наблюдения — политика должна запомнить начальную конфигурацию, чтобы решить, какой фрукт переместить. В отличие от широко используемых методов клонирования поведения, DF может естественным образом интегрировать воспоминания в свое скрытое состояние. Было обнаружено, что DF может достичь 80% успеха, в то время как стратегия диффузии (на данный момент лучший алгоритм обучения с имитацией без памяти) потерпела неудачу.

Кроме того, DF может быть более устойчивым к шуму и облегчать предварительное обучение робота.

Прогнозирование временных рядов: диффузионное воздействие является превосходной моделью общей последовательности.

Исследование группы показывает, что для задач прогнозирования многомерных временных рядов DF сопоставим с предыдущими диффузионными моделями и моделями на основе Transformer.

Пожалуйста, обратитесь к оригинальной статье для получения более подробной технической информации и экспериментальных результатов.

Новости

Введение

моя контактная информация