Десятилетняя классика Цзя Янцина получила награду Time Test Award! Розыгрыш десяти лучших работ ICML 2024, популярный SD3, Gu

Десятилетняя классика Цзя Янцина получила награду Time Test Award! Розыгрыш десяти лучших бумажных призов ICML 2024, популярный SD3, Гу

2024-07-24

Новый отчет мудрости

Редактор: Таоцзы такой сонный.

[Введение в новую мудрость] Наконец-то объявлена ежегодная высшая награда ICML! В этом году в общей сложности десять работ получили награду за лучшую статью, и три из них стали общеизвестными — модель генерации изображений SD3, модель генерации видео VideoPoet и базовая мировая модель Genie. Кроме того, награду Time Test Award получила концепция DeCAF, предложенная Цзя Янцином и его командой десять лет назад.

Недавно объявлено вручение наград ICML 2024!

Только что официально состоялась церемония открытия ICML. На встрече были объявлены 10 лучших работ, а статья десятилетней давности получила награду Time Test Award.

Среди лучших статей есть несколько популярных работ в области генерации изображений и видео с помощью ИИ, в том числе технический отчет SD3, видеомодель CMU Google AI VideoPoet и базовая модель мира Google Genie.

Стоит отметить, что статья DeCAF, опубликованная гуру искусственного интеллекта Цзя Янцином и другими в октябре 2013 года, получила награду Time Test Award.

Только что он написал, что для него большая честь получить эту честь.

Расс Салахутдинов, профессор КМУ и вице-президент Meta GenAI, подвел общие итоги набора персонала ICML 2024:

На эту конференцию поступило в общей сложности 9 473 доклада, из которых 2610 были приняты, при этом процент принятия составил 27,55%. 144 статьи — Oral, 191 статья — Spotlight.

В этом году были представлены 286 докладов, 75 из них были приняты (26%). 15 статей — устные и 11 статей — Spotlight.

Кроме того, на семинаре было подано 145 предложений, 30 из которых были приняты. В учебник поступило 55 предложений, 12 из них были приняты.

В этом году это 41-я ежегодная конференция ICML 2024 (один раз в год), которая пройдет в Вене, Австрия, с 21 по 27 июля.

На собрание одно за другим пришли 8675 человек, а мест в зале не было.

Обзор саммита ICML 2024

Прежде чем вручить награды, оргкомитет сначала представил общую ситуацию с конференцией в этом году:

· 9 дискуссий ЭКСПО

· 12 обучающих программ

· 6 приглашенных спикеров

· 2610 докладов (основная конференция)

· 30 мастер-классов

· 12 345 авторов и докладчиков

· 39% участников — студенты

· 10 социальных мероприятий в автономном режиме

· 3 мероприятия по интересам

· 52 волонтера

· 97 старших руководителей зон (SAC), 492 председателя зон (AC), 7473 рецензента

· 9 406 зарегистрированных участников (8 675 из них присутствовали на месте)

На основе принятых статей ICML обобщил появившиеся высокочастотные слова, которые также являются горячими словами этого года:

Крупные модели появляются чаще всего, более 600+ раз.

Далее следует обучение с подкреплением, глубокое обучение, графовая нейронная сеть, машинное обучение, федеративное обучение, диффузионная модель, трансформатор, LLM, обучение представлению, генеративная модель и т. д.

По количеству зарегистрированных стран/регионов в США проживает 2463 человека, а на втором месте находится Китай с населением более 1100 человек.

Награда «Проверено временем»

Вообще говоря, награда Time Test Award присуждается научным работам, которые оказали важное и продолжительное влияние на протяжении более 10 лет.

Эта статья также является классической работой Цзя Янцина, отца Caffe, который учился в Калифорнийском университете в Беркли и сотрудничал с командой во время стажировки в Google.

Однажды он сказал в интервью, что выпил слишком много кофе во время стажировки в Google в 2013 году, поэтому назвал его DeCAF, чтобы убедить себя бросить пить кофе.

Работая сверхурочно, он написал: «DeCAF должен стать фундаментом и глубоко встраиваться в поле зрения, а также придать области компьютерного зрения обобщающую функцию…»

Результатом исследования DeCAF стало то, что оно породило общую структуру обнаружения объектов R-CNN, высокопроизводительную среду гетерогенных вычислений Caffe, а также косвенно способствовало сотрудничеству между Беркли и NVIDIA по написанию платформы ускорения первого поколения CuDNN и широкомасштабное распространение творений Yahoo Labs. Ряд работ, таких как обучение CaffeOnSpark, утвердил Беркли лидирующую позицию в волне глубокого обучения.

Название: DeCAF: Глубокая сверточная функция активации для общего визуального распознавания

В ролях: Джефф Донахью, Янцин Цзя, Ориол Виньялс, Джуди Хоффман, Нин Чжан, Эрик Ценг, Тревор Даррелл

Учреждение: Калифорнийский университет, Беркли.

Адрес статьи: https://arxiv.org/abs/1310.1531

Чтобы использовать лучшую вероятностную структуру для выражения человеческого поведения, команда лично написала первую структуру — DeCAF.

В этой работе авторы оценивают, могут ли функции, извлеченные из глубокой сверточной сети, обученной полностью контролируемым образом на большом наборе фиксированных задач распознавания объектов, быть перепрофилированы для новых задач общего назначения.

Эти общие задачи могут значительно отличаться от исходных задач обучения, и им может не хватать достаточного количества аннотированных данных или вообще не иметь аннотированных данных, поэтому традиционные методы не могут быть использованы для обучения или точной настройки глубокой сети для адаптации к новой задаче.

Кроме того, автор также визуализировал семантическую кластеризацию глубоких сверточных признаков в таких задачах, как распознавание сцен, адаптация предметной области и детальное распознавание, и, сравнивая эффекты определения фиксированных признаков, которые зависят от разных уровней сети, предложил несколько важные новые достижения SOTA в визуальных задачах.

Наконец, авторы выпускают реализацию этих функций глубокой сверточной активации с открытым исходным кодом — DeCA, вместе со всеми связанными сетевыми параметрами. Это помогает авторам визуальных эффектов экспериментировать с глубокими представлениями в различных парадигмах изучения визуальных концепций.

Десять лучших статей

В этом году десять лучших работ.

Все приведенные выше рейтинги расположены в порядке устного представления.

Подробнее: Моделирование дискретной диффузии путем оценки коэффициентов распределения данных

Автор: Аарон Лу, Ченлин Мэн, Стефано Эрмон

Учреждение: Стэнфордский университет, Pika Labs

Адрес статьи: https://arxiv.org/abs/2310.16834.

В этом исследовании предлагается новая модель машинного обучения SEDD (Score Entropy Discrete Diffusion), которая в основном ориентирована на задачи дискретной генерации данных.

В настоящее время диффузионные модели демонстрируют революционную производительность во многих задачах генеративного моделирования, но они плохо работают в дискретных полях данных, таких как естественный язык.

В статье автор предложил концепцию энтропии оценок, чтобы преодолеть этот разрыв.

Это новая функция потерь, которая естественным образом расширяет сопоставление оценок на дискретное пространство, легко интегрируется для построения дискретных моделей диффузии и значительно повышает производительность.

В процессе экспериментальной оценки SEDD показала себя лучше, чем существующие модели языковой диффузии (недоумение снизилось на 25–75%).

Более того, в некоторых аспектах он превосходит авторегрессионные модели, такие как GPT-2.

Подводя итог, преимуществами SEDD являются:

- Высококачественный текст можно генерировать без использования таких методов, как температурное масштабирование (генерация недоумения примерно в 6-8 раз лучше, чем у неотожженного GPT-2)

- Гибкий компромисс между вычислительными ресурсами и качеством вывода (используется в 32 раза меньше сетевых оценок для достижения аналогичной производительности)

- Поддерживает управляемое заполнение текста, обеспечивая большую гибкость. (соответствие качеству отбора проб ядра, при поддержке стратегий, отличных от подсказок слева направо).

Документ 2: Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения

В ролях: Патрик Эссер, Сумит Кулал, Андреас Блаттманн, Рахим Энтезари, Йонас Мюллер, Гарри Сайни, Ям Леви, Доминик Лоренц, Аксель Зауэр, Фредерик Бозель, Дастин Поделл, Тим Докхорн, Зион Инглиш, Кайл Лейси, Алекс Гудвин, Янник Марек, Робин Ромбах

Организация: Стабильность ИИ

Адрес статьи: https://arxiv.org/abs/2403.03206.

Как упоминалось в начале, эта статья представляет собой технический отчет о популярной Stable Diffusion 3.

Подобно Sora, SD3 использует улучшенную версию модели Diffusion и новую архитектуру, основанную на графе Винсента DiT.

В частности, авторы использовали три разных текстовых кодировщика — две модели CLIP и T5 — для обработки текстовой информации, а также более совершенную модель автокодирования для обработки информации изображения.

Недавно предложенная архитектура мультимодального диффузионного преобразователя (MMDiT) использует независимые наборы весов для представления изображения и языка соответственно. По сравнению с ранней версией SD3 она значительно улучшает понимание текста и возможности написания текста.

Результаты оценки показывают, что SD3 достигает или превосходит современную технологию создания диаграмм Винсента с точки зрения точности следования подсказкам, четкого представления текста и визуальной красоты изображений.

Подробнее: Вероятностный вывод в языковых моделях с помощью скрученного последовательного Монте-Карло

В ролях: Стивен Чжао, Роб Брекелманс, Алиреза Махзани, Роджер Гросс

Учреждение: Университет Торонто, Институт Вектора.

Адрес статьи: https://arxiv.org/abs/2404.17546.

Это исследование сосредоточено на проблемах выборки и вывода в больших моделях.

Многие возможности и технологии безопасности LLM, такие как RLHF, автоматическое тестирование красной командой, быстрое проектирование и дополнение, можно рассматривать:

Учитывая вознаграждение или потенциальную функцию, выберите из определенного ненормализованного целевого распределения. Это распределение определено для полной последовательности.

В статье автор предлагает использовать последовательный метод Монте-Карло (SMC) для решения этих проблем вероятности выборки.

В связи с этим автор предложил твист-функции для оценки потенциальных будущих значений на каждом временном шаге, чтобы оптимизировать процесс выборки.

Кроме того, они также предложили метод использования новых двунаправленных границ SMC для оценки точности методов вывода LLM.

Окончательные результаты показывают, что Twisted SMC демонстрирует высокую эффективность в выборке плохих результатов из предварительно обученных моделей, создании обзоров с разным настроением и выполнении дополнительных задач.

Документ 4: Позиция: измеряйте разнообразие наборов данных, а не просто заявляйте об этом

В ролях: Дора Чжао, Джерон Т.А. Эндрюс, Орестис Папакириакопулос, Элис Сян

Учреждения: Стэнфордский университет, Мюнхенский технический университет, Sony AI.

Адрес статьи: https://arxiv.org/abs/2407.08188.

В настоящее время многие наборы данных называют себя разнообразием, но на самом деле они воплощают абстрактные и противоречивые социальные концепции.

В этой работе авторы исследуют этот вопрос, анализируя «разнообразие» в 135 наборах изображений и текстовых данных.

Как показано ниже, авторы используют теорию измерения из теории социальных наук в качестве факторов, которые следует учитывать, и вносят предложения по концептуализации, практическому использованию и оценке разнообразия в наборах данных.

Конечная цель этого исследования — призвать ученых, занимающихся искусственным интеллектом, использовать более подробные и точные методы обработки атрибутивных данных с оценочными суждениями в исследованиях машинного обучения, особенно в процессе построения наборов данных.

Документ 5: Кража части рабочей языковой модели

В ролях: Николас Карлини, Дэниел Палека, Кришнамурти Диджей Двиджотам, Томас Стейнке, Джонатан Хаясе, А. Федер Купер, Кэтрин Ли, Мэттью Ягельски, Милад Наср, Артур Конми, Итай Йона, Эрик Уоллес, Дэвид Рольник, Флориан Трамер

Учреждения: ETH Zurich, Вашингтонский университет, Университет Макгилла, Google DeepMind, OpenAI.

Адрес статьи: https://arxiv.org/abs/2403.06634.

В этой работе авторы представляют первую атаку по краже модели, способную извлекать точную и сложную информацию из языковых моделей «черного ящика», таких как ChatGPT OpenAI или PaLM-2 от Google.

В частности, эта атака способна реконструировать встроенный проекционный слой модели Трансформера (в условиях симметрии) посредством обычного доступа к API.

И менее чем за 20 долларов вы можете извлечь всю матрицу проекции языковых моделей OpenAI Ada и Babbage. Это впервые подтвердило, что эти две модели черного ящика имеют скрытые размеры 1024 и 2048 соответственно.

Кроме того, автор также восстановил точные скрытые размерные размеры модели gpt-3.5-turbo. На этот раз стоимость извлечения всей матрицы прогноза составила всего 2000 долларов США.

Наконец, авторы предлагают потенциальные меры защиты и смягчения последствий и обсуждают последствия для будущей работы.

Подробнее: Информационная сложность стохастической выпуклой оптимизации: приложения к обобщению и запоминанию

В ролях:Идан Аттиас, Гинтаре Каролина Дзиугайте, Махди Хагифам, Рой Ливни, Дэниел М. Рой

Учреждения: Университет Бен-Гуриона, Северо-Восточный университет, Тель-Авивский университет, Университет Торонто, Институт Вектора, Google DeepMind

Адрес статьи: https://arxiv.org/abs/2402.09327.

В этой работе авторы изучают взаимодействие между мемоизацией и обучением в контексте задач стохастической выпуклой оптимизации (SCO).

Во-первых, мемоизация определяется алгоритмами обучения, которые раскрывают информацию о точках обучающих данных. Затем для количественной оценки используется структура условной взаимной информации (CMI). Таким образом, достигается точное описание компромисса между точностью алгоритма обучения и его CMI.

Результаты показывают, что при ограниченной липшицевой настройке L^2 и строгих условиях выпуклости CMI каждого учащегося с избыточной ошибкой ε имеет нижние границы на уровне Ω(1/ε^2) и Ω(1/ε) соответственно.

Кроме того, авторы демонстрируют важную роль мемоизации в задачах обучения SCO, создавая противника, который может точно идентифицировать большинство обучающих выборок в конкретной задаче SCO.

Наконец, авторы приводят несколько важных последствий, таких как ограничения границ обобщения на основе CMI и несжимаемость образца в проблеме SCO.

Тема: Позиция: Соображения относительно дифференцированного частного обучения с крупномасштабной государственной предварительной подготовкой

Авторы: Флориан Трамер, Гаутам Камат, Николас Карлини

Учреждения: ETH Zurich, Университет Ватерлоо, Институт Вектора, Google DeepMind.

Адрес статьи: https://arxiv.org/abs/2212.06470.

Производительность дифференциально-частного машинного обучения можно значительно улучшить, используя возможности трансферного обучения нечастных моделей, предварительно обученных на больших общедоступных наборах данных.

В этой работе авторы задаются вопросом, соответствует ли использование больших наборов данных, извлеченных из Интернета, дифференцированной защите конфиденциальности. Он также предупредил, что называть эти модели, предварительно обученные на сетевых данных, «частными», может принести много вреда, например, ослабить доверие общества к концепции дифференцированной конфиденциальности.

Помимо соображений конфиденциальности при использовании общедоступных данных, авторы также ставят под сомнение практичность этого подхода.

Влияние предварительного обучения особенно заметно для моделей, которые слишком велики для того, чтобы конечные пользователи могли запускать их на собственных устройствах. Поскольку это потребует передачи личных данных третьей стороне с большей вычислительной мощностью, внедрение такой модели приведет к чистой потере конфиденциальности.

Наконец, авторы обсуждают потенциальные пути развития области конфиденциального обучения, поскольку публичное предварительное обучение становится все более популярным и эффективным.

Документ 8: Дебаты с более убедительными магистрами права приводят к более правдивым ответам

В ролях: Акбир Хан, Джон Хьюз, Дэн Валентайн, Лаура Руис, Кшитидж Сачан, Анш Радхакришнан, Эдвард Грефенстетт, Сэмюэл Р. Боуман, Тим Роктешель, Итан Перес

Учреждения: Университетский колледж Лондона, Speechmatics, MATS, Anthropic, FAR AI.

Адрес статьи: https://arxiv.org/abs/2402.06782.

В настоящее время широко используемые методы выравнивания LLM в значительной степени полагаются на данные, аннотированные вручную.

Однако по мере усложнения моделей они превзойдут человеческий опыт, и роль людей-оценщиков превратится в роль неспециалистов, контролирующих экспертов.

Исходя из этого, автор поставил вопрос: может ли более слабая модель оценить корректность более сильной модели?

По замыслу более сильные модели (эксперты) обладают необходимой информацией для ответа на вопрос, тогда как более слабые модели (неэксперты) лишены этой информации.

Метод оценки — дебаты, в которых каждый из двух экспертов LLM отстаивает разные ответы, а не эксперты выбирают ответы.

Результаты показали, что дебаты неизменно помогали моделям, не являющимся экспертами, и людям лучше отвечать на вопросы, достигая точности 76% и 88% соответственно (исходный уровень составлял 48% и 60% соответственно).

Более того, оптимизация убедительности экспертов-дебатистов с помощью неконтролируемых средств улучшает способность неэкспертов определять истину в дебатах.

Документ 9: Genie: генеративная интерактивная среда

В ролях: Джейк Брюс, Майкл Деннис, Эшли Эдвардс, Джек Паркер-Холдер, Юге Ши, Эдвард Хьюз, Мэттью Лай, Адити Маваланкар, Ричи Штайгервальд, Крис Аппс, Юсуф Айтар, Сара Бечтл, Ферьял Бехбахани, Стефани Чан , Николас Хесс, Люси Гонсалес, Саймон Осиндеро, Шерджил Озаир, Скотт Рид, Цзинвэй Чжан, Конрад Золна, Джефф Клун, Нандо де Фрейтас, Сатиндер Сингх, Тим Роктешель

Учреждение: Колумбийский университет, Google DeepMind.

Адрес статьи: https://arxiv.org/pdf/2402.15391.

Базовая модель мира, выпущенная командой Google DeepMind — Джинн «Эльф».

Из изображения, фотографии, эскиза он может создать бесконечный мир.

Самое безумное в Genie то, что он учился на 200 000 часов неразмеченных интернет-видео и тренировался без присмотра.

Без каких-либо аннотаций действий можно определить, кто является главным героем, и предоставить пользователю контроль над ним в сгенерированном мире.

В частности, он реализуется с помощью трех основных компонентов: модели скрытого действия, сегментатора видео и динамической модели авторегрессии.

Получающееся в результате обученное пространство скрытых действий не только обеспечивает взаимодействие с пользователем, но и помогает обучать агентов имитировать поведение в невидимых видеороликах.

В целом, Genie открывает новый способ развития будущих агентов широкого профиля и меняет ландшафт интерактивных генеративных сред.

Документ 10: VideoPoet: большая языковая модель для создания видео с нулевым кадром

В ролях: Дэн Кондратюк, Лицзюнь Ю, Сюе Гу, Хосе Лезама, Джонатан Хуан, Грант Шиндлер, Рэйчел Хорнунг, Вигнеш Биродкар, Джимми Ян, Минг-Чанг Чиу, Кришна Сомандепалли, Хасан Акбари, Яир Алон, Йонг Ченг , Джош Диллон, Агрим Гупта, Мира Хан, Аня Хаут, Дэвид Хендон, Алонсо Мартинес, Дэвид Миннен, Михаил Сиротенко, Кихюк Сон, Суан Ян, Хартвиг Адам, Минг-Сюан Ян, Ирфан Эсса, Хуэйшэн Ван, Дэвид А. Росс, Брайан Сейболд, Лу Цзян

Учреждение: Университет Карнеги-Меллона, Google

Адрес статьи: https://arxiv.org/pdf/2312.14125.

Перед выпуском Sora Google и команда CMU запустили VideoPoet, технологию генерации видео, аналогичную Sora, в техническом плане в декабре 2023 года.

VideoPoet может генерировать 10-секундное сверхдлинное связное видео с крупными действиями за раз, и для создания видео не требуется никаких конкретных данных.

В частности, VideoPoet в основном включает в себя следующие компоненты:

- Предварительно обученный токенизатор видео MAGVIT V2 и токенизатор аудио SoundStream могут преобразовывать изображения, видео и аудиоклипы различной длины в дискретные кодовые последовательности в едином словаре. Эти коды совместимы с моделями текстового языка и могут легко комбинироваться с другими модальностями, такими как текст.

- Модель авторегрессионного языка может выполнять кросс-модальное обучение между видео, изображением, аудио и текстом, а также прогнозировать следующий видео- или аудио-токен в последовательности авторегрессионным способом.

- В рамках обучения большой языковой модели представлены различные цели обучения мультимодальной генерации, включая преобразование текста в видео, преобразование текста в изображение, преобразование изображения в видео, продолжение видеокадра, восстановление/расширение видео, стилизацию видео, преобразование видео в аудио и т. д. . Более того, эти задачи можно комбинировать друг с другом для достижения дополнительных возможностей нулевой выборки (например, преобразования текста в аудио).

В отличие от ведущих моделей, VideoPoet основан не на диффузной модели, а на большой мультимодальной модели, которая может иметь T2V, V2A и другие возможности.

Короче говоря, VideoPoet имеет три основных преимущества: создание более длинных видеороликов, более точное управление и мощные движения камеры.

Премия лучшему рецензенту

Самое приятное, что на конференции ICML 2024 также была объявлена премия «Лучший рецензент».

Использованная литература:

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211

Новости

Десятилетняя классика Цзя Янцина получила награду Time Test Award! Розыгрыш десяти лучших бумажных призов ICML 2024, популярный SD3, Гу

Введение

моя контактная информация