Новости

Оксбриджу не удалось «отравить» ИИ, и он девять раз появился на обложке журнала Nature, вызвав бурные споры в академических кругах.

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  Новый отчет мудрости

Монтажер: Эней такой сонный
[Введение в новую мудрость] Статья Оксфорда и Кембриджа о девяти отравлениях, которые привели к краху модели, вызвала много критики: можно ли это также включить в журнал Nature? Это далее обсуждается в академических кругах, и все придерживаются одной точки зрения: синтетические данные многими рассматриваются как панацея, но бесплатных обедов в мире не существует.

В эпоху искусственного интеллекта данные — это новая нефть. В эпоху, когда глобальные данные о людях постепенно истощаются, являются ли синтетические данные нашим будущим?
Недавний спор, вызванный статьей на обложке журнала Nature, заставил нас понять: важны не «синтетические данные», а «правильное использование синтетических данных».
В четверг на обложке журнала Nature появилась статья из Оксфорда, Кембриджа, Имперского колледжа, Университета Торонто и других учреждений.
Однако чего люди не ожидали, так это того, что после публикации статьи она вызвала множество дискуссий в сообществе ИИ.
Некоторые считают, что суть проблемы не в «синтетических данных», а в «качестве данных».
Даже если будут использоваться все искусственные данные, если качество будет слишком плохим, результатом будет «мусор на входе, мусор на выходе».
Некоторые даже думают, что исследователи намеренно использовали методы, которые не соответствуют реальной операции и на самом деле являются «выставленными напоказ».
В связи с этим профессор Ма И сказал, что сейчас мы вступили в эпоху, в которой отсутствуют научные идеи и методы——
Многие исследования представляют собой не что иное, как повторное открытие некоторого научного здравого смысла.

Как избежать краха модели?


Итак, вопрос в том, как мы можем избежать коллапса модели при использовании ИИ для синтеза данных?

Гибридные данные — это будущее

Со статьей на обложке журнала Nature Александр Ванг, генеральный директор Scale AI, полностью согласен.
Он заявил, что использование чисто синтетических данных для обучения моделей не принесет информативной выгоды.
Обычно, когда метрика оценки повышается из-за самоочистки, это, скорее всего, происходит из-за некоторых более тонких компромиссов:
  • Синтетические данные могут улучшить оценки в краткосрочной перспективе, но затем вы платите цену за крах модели.
  • В процессе обучения или доводки модели вы накапливаете невидимый долг, который будет сложно погасить.

В частности, в последующих поколениях синтетического обучения ошибки в основном возникают по трем аспектам:
  • статистическая ошибка аппроксимации
  • ошибка функциональной выразительности
  • ошибка функциональной аппроксимации

То есть каждый раз, когда вы обучаете новую модель, используя данные, сгенерированные предыдущей моделью, вы теряете некоторую информацию и точность, в результате чего модель становится все более пустой и в конечном итоге перестает работать должным образом.
Хотя эти эксперименты проводились на мелкомасштабной модели (параметры 100M), наблюдаемые основные эффекты со временем проявятся и на более крупномасштабных моделях.
Например, сегодня большинство моделей не могут создавать сообщения в блогах в стиле Slate Star Codex, опять же из-за сбоев модели. Поскольку мы постоянно обучаем модели, они постепенно теряют способность делать прогнозы в широком масштабе.
По мнению Ванга, гибридные данные — это будущее направление развития, которое позволит избежать всех острых проблем, связанных с коллапсом модели.
То есть в процессе синтеза данных они должны генерироваться через какой-то новый источник информации:

(1) Используйте реальные данные в качестве исходных данных.

(2) Участвуют эксперты-люди

(3) Формальная логическая машина
Напротив, разработчики, которые случайно обучают свои модели на синтетических данных без какой-либо информации, в конечном итоге обнаружат, что их модели со временем становятся все более странными и глупыми.

Обучение с подкреплением — это все, что вам нужно

Исследователи из Меты, Нью-Йоркского университета и Пекинского университета предложили метод «обратной связи с сокращением рейтинга» с использованием людей или более слабых моделей, который может восстановить или даже превзойти первоначальную производительность модели.
Что касается этого исследования, ЛеКун также отправил его, чтобы выразить свою поддержку.
Как мы все знаем, людям и машинам гораздо легче отличить хорошие примеры от плохих, чем создавать высококачественные образцы с нуля.
На основании этого автор предлагает совершенно новый метод предотвращения коллапса модели за счет обратной связи синтетических данных.

Чтобы исследовать этот вопрос, авторы сначала предоставляют аналитические результаты в теоретической постановке.
Здесь авторы предлагают модели гауссовской смеси и линейные модели в многомерном пределе в качестве классификаторов и позволяют верификатору (например, человеку или оракулу) выбирать или сокращать сгенерированные данные.
Результаты показывают, что когда количество точек синтетических данных приближается к бесконечности, модели, обученные на выбранных данных, могут достичь оптимальных результатов, сравнимых с моделями, обученными на необработанных данных.
Моделирование синтетических данных показывает, что надзор оракула неизменно дает почти оптимальные результаты по сравнению с использованием необработанных аннотаций.
Более того, поскольку различение высококачественных данных посредством человеческого контроля проще и дешевле, чем прямое аннотирование человеком, это является убедительным доказательством эффективности человеческого контроля.
Модель гауссовой смеси с линейным генератором и линейным фильтром: фильтр повышает производительность за счет выборочного усиления синтетических данных.
Далее авторы провели два масштабных эксперимента:
1. Обучите Трансформатор решению арифметической задачи (прогнозирование собственных значений матрицы) и используйте расстояние от реального значения для сокращения больших объемов синтетических данных.
2. Обобщение новостей с использованием большой языковой модели (Llama 2) и ограниченных синтетических данных.
Результаты показывают, что в обоих случаях использование исключительно сгенерированных данных приводит к снижению производительности и сбоям модели даже при увеличении объема данных.
Более того, выбор лучшего решения из пула генерации только на основе недоумения не улучшает производительность, то есть сама модель не имеет возможности выбирать лучший прогноз на основе недоумения.
Напротив, под наблюдением оракула можно получить синтетический набор данных с обратной связью, производительность которого превосходит производительность исходного набора данных по мере увеличения объема данных.

Дополнение человеком и моделью повышает производительность и предотвращает сбои в работе модели, возникающие без дополнения;
Поэтому при обучении новой модели синтетическими данными следует ориентироваться не только на качество генератора, но и на качественный верификатор для отбора данных.
Подводя итог в одном предложении: усиление – это все, что вам нужно!

Реальные данные + синтетические данные

Что касается жалоб читателей на обложку журнала Nature, Райлан Шеффер, докторант Стэнфордского университета, выразил свое понимание.
Он отметил, что крах модели часто происходит, когда исследователи намеренно применяют методы, не соответствующие реальной практике.
Накопление данных может рухнуть, а может и не рухнуть, все зависит от конкретных особенностей эксплуатации.
你们故意把它弄崩溃,它当然就会崩溃了。😂
В статье, написанной в соавторстве Стэнфордом, Мэрилендом и Массачусетским технологическим институтом, Шеффер исследует, как накопление данных влияет на коллапс модели.
После экспериментов они подтвердили, что замена исходных реальных данных синтетическими данными в каждом поколении действительно приведет к краху модели.
Однако коллапса модели можно избежать, если наряду с исходными реальными данными накапливать последовательные поколения синтетических данных.

Адрес статьи: https://arxiv.org/abs/2404.01413
На практике будущие поколения LLM будут обучаться увеличению объемов данных с течением времени. Например, для Llama 1 требуется 1,4 триллиона токенов, для Llama 2 — 2 триллиона токенов, а для Llama 3 — 15 триллионов токенов.
В каком-то смысле такая настройка сбора данных крайне пессимистична.
В этом гипотетическом будущем синтетические данные бесконтрольно сбрасываются в Интернет и используются для обучения следующей итерации модели.

Как показано в правой части рисунка, накопление данных позволяет избежать коллапса модели.
Исследователи использовали три различных экспериментальных параметра: причинный преобразователь, диффузионную модель и автовариационный кодировщик, а также обучались на реальном наборе данных текста, молекулярной конформации и изображения соответственно.
Они обнаружили, что замена данных приводила к коллапсу модели для всех моделей и для всех наборов данных, тогда как накопление данных предотвращало коллапс модели.
Причинно-языковое моделирование на основе Transformer
Сначала они обучили каузальный Трансформер на текстовых данных.
В частности, параметр 9M GPT-2 одной эпохи и модель языка Llama 2 с параметрами 12M, 42M и 125M были предварительно обучены на TinyS-ториях.
Первый представляет собой набор данных рассказов объемом 470 миллионов токенов, созданный GPT-3.5/4 на уровне чтения в детском саду.
Для каждой итерации подбора модели n ≥ 2 мы выбираем новый набор данных того же размера, что и TinvStories, из лингвистических типов предыдущей итерации, а затем заменяем или объединяем предыдущий набор данных с новым сгенерированным набором данных.
На каждой итерации подбора модели они предварительно обучают новую инициализированную модель на основе замены или объединенного набора данных из предыдущей итерации.
Результаты показывают, что для всех архитектур, количества параметров и температур выборки замена данных приводит к увеличению перекрестной энтропии тестов по мере увеличения количества итераций подгонки модели (рис. 2 слева).
Они также обнаружили, что для всех архитектур, количества параметров и температур выборки по мере увеличения количества итераций подбора модели накопленные данные приводят к тому, что кросс-энтропия теста становится равной или меньшей (рис. 2, справа).
На рисунке 3 представлена ​​кривая обучения для каждой итерации подбора модели при многократной замене данных (вверху) и накоплении данных (внизу).
Результаты показывают, что накопление данных позволяет избежать коллапса модели при языковом моделировании.
И 125М Лама2, и 9М ГПТ-2 показали ухудшение качества при замене данных (R), но сохранили высокое качество генерации текста при накоплении данных (А).
Модели диффузии для молекулярных конформационных данных
Затем они обучили последовательность моделей диффузии на данных о молекулярной конформации.
В частности, исследователи обучили GeoDiff, геометрическую диффузионную модель для генерации молекулярных конформаций, на наборе данных GEOMDrugs.
Они сократили обучающую часть набора данных GEOM-Drugs до 40 000 молекулярных конформаций, использовали ее в качестве начального обучающего набора и выполнили 50 шагов диффузии для каждого прогноза.
Результаты. После 8 итераций подбора модели исследователи обнаружили, что потери в тестах увеличивались при замене данных, что соответствовало нашим экспериментам с языковой моделью, а потери в тестах оставались относительно постоянными при накоплении данных (рис. 4).
В отличие от языковых моделей они обнаружили, что при замене данных производительность значительно ухудшается на первой итерации подгонки модели обучения на синтетических данных и не падает существенно в последующих итерациях.
Автовариационный кодер для данных изображения
В конце эксперимента исследователи обучили последовательность вариационного кодировщика (VAE) на CelebA. Набор данных содержит 200 000 изображений лиц и разделен на обучающий набор и тестовый набор.
Этот выбор обеспечивает баланс между реалистичными наборами данных с множеством образцов, цветными изображениями и разрешениями и вычислительной возможностью обучения модели для многих итераций на накопленных данных.
В результате они обнаружили, что замена данных на каждой итерации снова приводила к коллапсу модели —
Ошибка теста быстро возрастает с каждой дополнительной итерацией, и каждая итерация приводит к снижению качества и уменьшению разнообразия лиц, пока вся генерация модели не будет представлять собой единый шаблон.
Напротив, накопление данных на каждой итерации значительно замедляет коллапс модели.
Ошибка теста увеличивается значительно медленнее с каждой дополнительной итерацией.
Хотя разнообразие поколений действительно уменьшается по сравнению со средней и правой панелями рисунка 6, оно по-прежнему представляет основные оси вариаций в наборе данных, такие как пол, но модель больше не генерирует других по более коротким осям данных. Разнообразные детали, такие как очки и аксессуары.
Еще одним интересным явлением является то, что, в отличие от языкового моделирования, ошибка теста на накопленных данных увеличивается с количеством итераций (хотя и гораздо медленнее, чем на замещающих данных).
Почему существует эта разница? Это направление исследований оставлено будущему.
Использованная литература:
https://arxiv.org/abs/2406.07515