Новости

Цзя Янцин получил награду Time Test Award за одну из своих работ, но не попал в число 10 лучших статей Китая и на премию ICML 2024.

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Отчет о сердце машины

Редакция «Машинное сердце»

Полное название ICML — Международная конференция по машинному обучению. Она организована Международным обществом машинного обучения (IMLS) и является ведущей конференцией в области компьютерного искусственного интеллекта.

Конференция ICML в этом году является 41-й по счету и в настоящее время проходит в Вене, Австрия. На только что состоявшейся церемонии открытия ICML, которая с каждым годом становится все более популярной, объявила данные конференции в этом году и информацию о наградах.



На основную конференцию поступило в общей сложности 9473 действительных доклада, из которых было принято 2610 докладов с процентом принятия 27,5%, включая 144 устных доклада и 191 информационный доклад.



Ключевые слова в принятых статьях: большая языковая модель, обучение с подкреплением, глубокое обучение, графовая нейронная сеть, машинное обучение, федеративное обучение, диффузионная модель, трансформатор, LLM, обучение представлению, генеративная модель... Эти ключевые слова также представляют текущую Самое популярное направление исследований в области искусственного интеллекта.

Помимо этих данных, на конференции также были объявлены награды Time Test Awards и лучшие статьи этого года. DeCAF, работа, которую Цзя Янцин закончил в Беркли десять лет назад, выиграла в этом году премию Time Test Award. По сравнению с 6 в прошлом году, в этом году лучшей статьей стали 10 исследований, в том числе модель мира Google DeepMind Genie, видеомодель VideoPoet и т. д., ставшие популярными некоторое время назад.

Награда «Проверено временем»

Что касается получения награды DeCAF, Цзя Янцин сказал в кругу друзей: «Используя сегодняшнюю терминологию, DeCAF должен стать фундаментальной функцией и глубоким внедрением в область зрения, а также придать области компьютерного зрения обобщающую особенность. Работа DeCAF позже породила General. Фреймворк обнаружения объектов R-CNN, высокопроизводительный гетерогенный вычислительный фреймворк Caffe, косвенно способствовал сотрудничеству Беркли и NVidia в написании фреймворка ускорения первого поколения CuDNN, крупномасштабного распределенного обучения CaffeOnSpark, созданного Yahoo Labs. и ряд других работ, закрепивших лидирующие позиции Беркли в волне глубокого обучения».



Подробнее: DeCAF: глубокая сверточная функция активации для общего визуального распознавания

В ролях: Джеффри Донахью, Янцин Цзя, Ориол Виньялс, Джуди Хоффман, Нин Чжан, Эрик Ценг, Тревор Даррелл

Учреждение: Калифорнийский университет в Беркли и ICSI, Беркли, Калифорния, США.

Ссылка на документ: https://arxiv.org/pdf/1310.1531.

Исследовательская группа оценила, могут ли функции, извлеченные из активаций глубоких сверточных сетей, обученных полностью контролируемым образом на крупномасштабном фиксированном наборе задач распознавания объектов, быть перепрофилированы для новых задач общего назначения. Эти общие задачи могут существенно отличаться от тех, для решения которых они изначально были обучены, и может оказаться недостаточно размеченных или неразмеченных данных для регулярного обучения или адаптации глубоких архитектур к новым задачам. Они изучают и визуализируют семантическую кластеризацию глубоких сверточных функций в различных задачах, включая распознавание сцен, адаптацию предметной области и задачи мелкозернистого распознавания. Исследователи сравнили эффекты использования разных уровней сети для определения фиксированных функций и сообщили о новых результатах, которые значительно превосходят существующие методы в решении нескольких важных визуальных задач. Они выпустили DeCAF, реализацию функций глубокой сверточной активации с открытым исходным кодом, которая содержит все необходимые сетевые параметры, что позволяет исследователям зрения экспериментировать с глубокими представлениями в различных парадигмах обучения визуальным концепциям.

лучшая статья

Документ 1: Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения

В ролях: Патрик Эссер, Сумит Кулал, Андреас Блаттманн, Рахим Энтезари, Йонас Мюллер, Гарри Сайни, Ям Леви, Доминик Лоренц, Аксель Зауэр, Фредерик Бозель, Дастин Поделл, Тим Докхорн, Сион Инглиш, Робин Ромбах

Организация: Стабильность ИИ

Адрес статьи: https://proceedings.mlr.press/v235/esser24a.html.

Отчет Machine Heart: Наконец-то вышла статья о Stable Diffusion 3, и раскрыты детали архитектуры. Поможет ли она воспроизвести Сору?

Эта статья является в точности статьей «Стабильная диффузия 3». По сравнению с предыдущей версией качество изображений, создаваемых Stable Diffusion 3, было значительно улучшено, поддерживаются многотемные подсказки, а эффект написания текста также стал лучше.



Архитектура модели Stable Diffusion 3.

Модели диффузии, которые создают данные из шума путем инвертирования его прямого пути в шум, стали мощным методом генеративного моделирования для многомерных сенсорных данных, таких как изображения и видео. Rectified Flow (RF) — это новейшая формулировка генеративной модели, которая соединяет данные и шум прямой линией. Несмотря на его лучшие теоретические свойства и концептуальную простоту, он еще не утвердился в качестве стандартной практики.

Это исследование улучшает существующие методы выборки шума путем обучения радиочастотных моделей, смещая их в сторону масштабов, значимых для восприятия. Благодаря крупномасштабному исследованию это исследование демонстрирует превосходную производительность этого подхода по сравнению с существующими диффузионными формулировками для синтеза текста в изображение высокого разрешения.

Кроме того, исследование также предлагает новую архитектуру на основе Transformer для генерации текста в изображение, которая использует отдельные веса для двух режимов и обеспечивает двунаправленный поток информации между изображением и текстовыми токенами, тем самым улучшая понимание текста, рейтинги человеческих предпочтений и т. д. . Исследование показывает, что архитектура следует предсказуемой тенденции масштабирования, и отмечается, что потери при проверке плавно уменьшаются с увеличением размера модели и этапов обучения.



Улучшенный мультимодальный диффузионный Трансформатор: блок ММДиТ.

Документ 2: Genie: генеративная интерактивная среда

В ролях: Джейк Брюс, Майкл Деннис, Эшли Эдвардс, Джек Паркер-Холдер, Югэ Ши, Эдвард Хьюз и др.

Учреждение: Google DeepMind, Университет Британской Колумбии.

Адрес статьи: https://arxiv.org/pdf/2402.15391.pdf.

В данной статье определяется новая парадигма генеративного ИИ — Generative Interactive Environments — Genie (Генераторные интерактивные среды). Genie — это базовая модель мира с 11 миллиардами параметров, которая может создавать игровые интерактивные среды из одной подсказки изображения.

Отчет Machine Heart: только что Google выпустил базовую модель мира: 11B параметров, которая может генерировать интерактивный виртуальный мир.

Некоторые компоненты архитектуры Genie построены на базе Vision Transformer (ViT). Стоит отметить, что из-за стоимости вторичной памяти Transformer, которая усложняет работу с видео, видео могут содержать до (10^4) токенов. Поэтому Google использует архитектуру ST-трансформатора с эффективным использованием памяти во всех компонентах модели, чтобы сбалансировать емкость модели и вычислительные ограничения.



Genie состоит из трех ключевых компонентов (как показано на рисунке ниже):

1) Модель скрытого действия (LAM), используемая для определения потенциальных действий между каждой парой кадров;

2) Токенизатор видео (Tokenizer), используемый для преобразования исходных видеокадров в дискретные токены;

3) Динамическая модель с учетом потенциальных действий и токенов прошлых кадров используется для прогнозирования следующего кадра видео.



Чтобы добиться управляемой генерации видео, Google использует действия, предпринятые в предыдущем кадре, как условия для прогнозирования будущих кадров. Однако такие метки действий редко встречаются в видеороликах в Интернете, а стоимость получения аннотаций действий может быть высокой. Вместо этого Google изучает потенциальные действия совершенно бесконтрольно.



Документ 3: Рекомендации по дифференцированному частному обучению с крупномасштабной публичной предварительной подготовкой

Авторы: Флориан Трамер, Гаутам Камат, Николас Карлини

Учреждения: ETH Zurich, Университет Ватерлоо, Google DeepMind.

Адрес статьи: https://arxiv.org/abs/2212.06470.

Производительность дифференциально-частного машинного обучения можно значительно улучшить, используя возможности трансферного обучения нечастных моделей, предварительно обученных на больших общедоступных наборах данных. В документе задается вопрос, следует ли считать использование больших наборов данных, извлеченных из Интернета, дифференциально конфиденциальным.

Исследование полагает, что установка этих моделей, предварительно обученных на сетевых данных, как «частных» моделей может нанести ущерб и ослабить доверие общества к дифференциальной конфиденциальности. Помимо соображений конфиденциальности при использовании общедоступных данных, исследование ставит под сомнение полезность этой парадигмы. В исследовании изучается, подходят ли существующие тесты машинного обучения для измерения способности предварительно обученных моделей обобщать чувствительные области, которые может быть трудно представить в данных общедоступных сетей.

Кроме того, в исследовании отмечается, что развертывание больших моделей может привести к чистой потере конфиденциальности из-за необходимости передавать частные данные третьим сторонам с большей вычислительной мощностью.

Документ 4: Дискретное диффузионное моделирование путем оценки коэффициентов распределения данных

Автор: Аарон Лу, Ченлин Мэн, Стефано Эрмон

Учреждение: Стэнфордский университет, Pika Labs

Адрес статьи: https://proceedings.mlr.press/v235/lou24a.html.

Хотя диффузионные модели хорошо справляются со многими задачами генеративного моделирования, они не работают должным образом в дискретных областях данных, таких как естественный язык. Стандартные модели диффузии опираются на хорошо зарекомендовавшую себя теорию сопоставления оценок, но попытки обобщить ее на дискретные структуры не привели к таким же эмпирическим достижениям.

В этой работе исследовательская группа восполняет этот пробел, предлагая новую потерю, называемую набранной энтропией. Оцененная энтропия естественным образом расширяет сопоставление оценок в дискретном пространстве, легко интегрируется для построения дискретных диффузионных моделей и значительно повышает производительность.

В своих экспериментах они протестировали модель дискретной диффузии энтропии (SEDD) на стандартной задаче моделирования языка. При сопоставимых размерах моделей SEDD превосходит существующие парадигмы языковой диффузии (снижение недоумения на 25-75%) и конкурирует с авторегрессионными моделями, особенно превосходя GPT-2. Кроме того, по сравнению с моделями авторегрессии, SEDD способен генерировать реальный текст (генерируя недоумение примерно в 6-8 раз выше, чем неотожженный GPT-2) без необходимости использования методов распределенного отжига (таких как температурное масштабирование) и может использоваться в компромиссах. между вычислительными усилиями и качеством (достигайте аналогичного качества с в 32 раза меньшим количеством сетевых оценок) и поддерживает контролируемое заполнение (соответствие качеству выборки ядра, позволяя при этом использовать другие стратегии, кроме хинтинга слева направо).

Документ 5: Вероятностный вывод в языковых моделях с помощью витого последовательного метода Монте-Карло

В ролях: Стивен Чжао, Роб Брекелманс, Алиреза Махзани, Роджер Гросс

Учреждение: Университет Торонто, Институт Вектора.

Адрес статьи: https://proceedings.mlr.press/v235/zhao24c.html.

Многочисленные возможности и методы безопасности больших языковых моделей (LLM), включая RLHF, автоматическое тестирование красной команды, разработку подсказок и заполнение, можно рассматривать как выборку из денормализованного целевого распределения, определенного заданным вознаграждением или скрытой функцией. В этой работе авторы используют богатый набор инструментов последовательного Монте-Карло (SMC) для решения этих задач вероятностного вывода. В частности, они используют изученную функцию деформации для оценки потенциальных ожидаемых будущих значений на каждом временном шаге, что позволяет вычислениям во время вывода сосредоточиться на перспективных частях последовательности.

Мы предлагаем новый контрастный подход к изучению функций деформации и связываемся с богатой литературой по обучению с мягким подкреплением. В качестве дополнительного применения структуры Twisted SMC они предлагают метод оценки точности методов вывода языковой модели для функций разделения журналов с использованием новой двунаправленной границы SMC. Эти границы можно использовать для оценки двустороннего расхождения KL между распределением вывода и целевым распределением. Применяя методы оценки вывода, они демонстрируют, что Twisted SMC эффективен при отборе нежелательных результатов из предварительно обученных моделей (полезно для безобидного обучения и автоматического тестирования красной команды), создании обзоров с различным настроением и выполнении задач по заполнению.

Документ 6: Дебаты с более убедительными магистрами права приводят к более правдивым ответам

В ролях: Акбир Хан, Джон Хьюз, Дэн Валентайн, Лаура Руис, Кшитидж Сачан, Анш Радхакришнан, Эдвард Грефенстетт, Сэмюэл Боуман, Тим Роктешель, Итан Перес

Учреждения: Университетский колледж Лондона, Speechmatics, MATS, Anthropic, FAR AI.

Адрес статьи: https://proceedings.mlr.press/v235/kan24a.html

Общие подходы к согласованию больших языковых моделей (LLM) с желаемым поведением в значительной степени основаны на данных, размеченных человеком. Однако по мере того, как модели становятся более сложными, они будут превосходить человеческие знания, и роль людей-оценщиков будет превращаться в роль неспециалистов, контролирующих экспертов. Основываясь на этом ожидании, исследователи задали вопрос: может ли более слабая модель оценить правильность более сильной модели? Они изучали эту проблему, создав аналогичный сценарий: в котором более сильная модель (эксперт) имела исходную информацию, необходимую для ответа на вопрос, в то время как более слабая модель (неэксперт) не имела этой информации. В качестве метода тестирования исследователи выбрали дебаты, то есть позволили двум экспертам LLM защищать разные ответы, а неспециалистам выбрать окончательный ответ.

Исследовательская группа обнаружила, что дебаты эффективно помогают моделям, не являющимся экспертами, и людям отвечать на вопросы, достигая точности 76% и 88% соответственно (исходный базовый уровень составлял 48% и 60% соответственно).



Более того, оптимизация убедительности экспертов в дебатах без присмотра улучшает способность неспециалистов определять истину в дебатах. Этот результат служит отправной точкой для обсуждения возможности согласованных моделей в отсутствие ярлыков, подтверждающих истину.

Тема 7: Информационная сложность стохастической выпуклой оптимизации: приложения к обобщению, запоминанию и отслеживанию

В ролях: Идан Аттиас, Гинтаре Каролина Дзиугайте, Махди Хагифам, Рой Ливни, Дэниел Рой

Учреждения: Университет Бен-Гуриона, Университет Торонто, DeepMind и др.

Адрес статьи: https://proceedings.mlr.press/v235/attias24a.html.

В этой работе авторы изучают взаимодействие между памятью и обучением в контексте стохастической выпуклой оптимизации (SCO). Они определяют память, изучая информацию, которую алгоритм раскрывает о своих точках данных обучения, и количественно оценивают эту информацию, используя структуру условной взаимной информации (CMI), предложенную Стейнке и Закинтину (2020).

Основной результат этого исследования — точно охарактеризовать компромисс между точностью алгоритма обучения и его CMI, отвечая на открытый вопрос, заданный Ливни (2023). В этой статье показано, что в условиях L², ограниченных по Липшицу, и в условиях сильной выпуклости CMI каждого учащегося с чрезмерной ошибкой ϵ ограничен снизу значениями Ω(1/ϵ²) и Ω(1/) соответственно. Авторы далее демонстрируют незаменимую роль памяти в проблеме SCO, создавая противника, который может точно идентифицировать большое количество обучающих выборок в конкретной задаче SCO. Наконец, они ссылаются на несколько последствий результатов, таких как ограничения границ обобщения на основе CMI и несжимаемость выборок в проблеме SCO.

Документ 8. Измеряйте разнообразие наборов данных, а не просто заявляйте об этом

В ролях: Дора Чжао, Джерон Эндрюс, Орестис Папакириакопулос, Элис Сян

Учреждения: Стэнфордский университет, Sony AI (Лондон, Великобритания), Мюнхенский технический университет, Sony AI (Сиэтл, США)

Адрес статьи: https://arxiv.org/html/2407.08188v1.

Наборы данных машинного обучения (ML) часто считаются нейтральными, но они по своей сути содержат абстрактные и спорные социальные конструкции. Кураторы наборов данных часто используют ценностные термины, такие как разнообразие, предвзятость и качество, для описания наборов данных. Хотя эти термины широко используются, им не хватает четкого определения и обоснования. В ходе исследования исследовательская группа изучила влияние этой проблемы, проанализировав «разнообразие» в 135 наборах изображений и текстовых данных. Опираясь на социальные науки, принципы теории измерения применяются для выявления соображений и предоставления рекомендаций по концептуализации, практическому использованию и оценке разнообразия в наборах данных. Их результаты имеют широкое значение для исследований в области машинного обучения, призывая к более тонкому и точному подходу при работе с ценными атрибутами при построении наборов данных.

Документ 9: VideoPoet: большая языковая модель для создания видео с нулевым кадром

В ролях: Дэн Кондратюк, Лицзюнь Юй, Сюе Гу, Хосе Лезама, Джонатан Хуан, Грант Шиндлер, Рэйчел Хорнунг, Вигнеш Н Биродкар, Джимми Ян, Минг-Чанг Чиу, Кришна Сомандепалли, Хасан Акбари, Яир Алон, Йонг Ченг 、Джошуа V Диллон 、Агрим Гупта,Мира Хан,Анья Хаут,Дэвид Хендон,Алонсо Мартинес,Дэвид Миннен,Михаил Сиротенко,Кихюк Сон,Сюань Ян,Хартвиг ​​Адам,Минг-Сюан Ян,Ирфан Эсса, Хуэйшэн Ван, Дэвид Росс, Брайан Сейболд, Лу Цзян

Организация: Google, Университет Карнеги-Меллон.

Адрес статьи: https://proceedings.mlr.press/v235/kondratyuk24a.html

Ссылка на проект: http://sites.research.google/videopoet/

Отчет Machine Heart: Может ли генерация видео быть бесконечно долгой?Большая модель Google VideoPoet онлайн, пользователи сети: революционная технология

Исследовательская группа выпустила VideoPoet, языковую модель, способную синтезировать высококачественное видео из нескольких условных сигналов. VideoPoet использует архитектуру Transformer, предназначенную только для декодера, для обработки мультимодальных входных данных, включая изображения, видео, текст и аудио.



Протокол обучения соответствует конвейеру больших языковых моделей (LLM) и состоит из двух этапов: предварительное обучение и адаптация к конкретной задаче. На этапе предварительного обучения VideoPoet объединяет цели мультимодальной генерации в рамках авторегрессионной структуры Transformer. Предварительно обученный LLM служит основой и может быть адаптирован к ряду задач по созданию видео. Они демонстрируют современные возможности модели в создании видео с нулевым кадром, в частности, способность генерировать движение с высокой точностью.

Документ 10: Кража части модели производственного языка

В ролях: Николас Карлини, Дэниел Палека, Кришнамурти Двиджотам, Томас Стейнке, Джонатан Хаясе, А. Федер Купер, Кэтрин Ли, Мэттью Ягельски, Милад Насресфахани, Артур Конми, Эрик Уоллес, Дэвид Ролник, Флориан Треймер

Учреждения: OpenAI, Google DeepMind, ETH Zurich, Вашингтонский университет, Университет Макгилла.

Адрес статьи: https://arxiv.org/pdf/2403.06634.

В этой статье предлагается новый метод атаки на модели ИИ. Он может точно извлекать информацию из генеративной языковой модели черного ящика ChatGPT OpenAI или PaLM-2 Google. Этот метод может проникнуть во встроенный слой проекции Transformer (который является ключевой частью понимания языка модели) и требует только доступа к API через веб-сайт или приложение и общения с моделью, чтобы «победить» ее. Основываясь на методе, описанном в статье, исследователи взломали всю матрицу проекций двух основных моделей серии GPT, Ады и Бэббиджа. Ключевая информация, такая как скрытые измерения, также была взломана напрямую: одна — 1024, а другая — 2048. Еще они пробили скрытые размеры gpt-3.5-turbo, и если вы захотите восстановить всю проекционную матрицу модели, стоимость не превысит 2000 долларов. Исследователи предложили ряд защитных мер и стратегий смягчения последствий для предотвращения таких атак.