Новости

Природная обложка: ИИ тренирует ИИ, чем больше он тренируется, тем глупее он становится

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Байцзяо родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Обучение ИИ ИИ может сделать ИИ глупым? !

Исследователи из Оксфорда, Кембриджа и других учреждений недавно обнаружили, что большие модели могут разрушаться при обучении на синтетических данных.Результаты его исследований были выбраны как новейшие.Природное покрытие

Прямой:МУСОР ВОН!



Знаете, большинство крупных моделей технологических компаний сейчас используют синтетические данные, чтобы смягчить «дефицит данных». Это, несомненно, волна холодной воды, облившая всю отрасль.

Исследовательская группа привела такой пример.

Они протестировали модель ОПТ-125м компании «Мета» и запросили информацию о средневековой архитектуре.



Каждая точная настройка обучается на данных, сгенерированных в последний раз. Ответы в первых нескольких раундах оказались довольно хорошими. В итоге на девятый раз я начал говорить чушь...

Что это за кролики? !

Ведущий автор статьи сказал, что они считали, что синтетические данные могут внести ошибки в большие модели, но не ожидали, что модели будут ухудшаться так быстро.

Три ошибки приводят к краху модели

Сначала команда определила, что такое крах модели.

Коллапс модели — это процесс деградации, при котором созданный моделью контент загрязняет наборы обучающих данных следующего поколения. После обучения на загрязненных данных модели нового поколения склонны к неправильному пониманию реальности.

Этот цикл продолжается и продолжается, каждое поколение становится хуже предыдущего.



С течением времени в основном существуют две ситуации: ранний крах модели и поздний крах модели.

При раннем коллапсе модели модель начинает терять некоторую хвостовую информацию. (Аналогично некоторым событиям с низкой вероятностью в распределении вероятностей.) И при позднем коллапсе модели модель сходится и почти не имеет сходства с исходным распределением.

Возникновение этого процесса связано с дизайном модели, процессом обучения и качеством используемых данных.

Что касается теории, она в основном включает в себя отклонение большой модели от исходной модели, вызванное этими тремя ошибками.

  • статистическая ошибка аппроксимации . Это основной тип ошибок, который возникает из-за ограниченности размера выборки и исчезает при стремлении размера выборки к бесконечности. Это связано с тем, что информация может быть потеряна на каждом этапе повторной выборки с ненулевой вероятностью.
  • ошибка выразительности функции . Эта ошибка вызвана ограниченными возможностями выражения аппроксимации функции. В частности, нейронные сети являются универсальным приближением только тогда, когда их размер достигает бесконечности. Однако в отсутствие двух других ошибок эта ошибка возникнет только в первом поколении.
  • ошибка аппроксимации функции . В основном вызвано ограничениями процесса обучения, такими как структурные отклонения при стохастическом градиентном спуске или выборе целей. Эту ошибку можно рассматривать как ошибку, возникающую в случае бесконечности данных и совершенной выразительной силы в каждом поколении.
Влияние на языковые модели

Затем исследователи оценили влияние коллапса модели на языковую модель. Поскольку обучение большой модели с нуля обходится очень дорого, они решили оценить наиболее распространенную настройку языковых моделей:Точные настройки

Каждый цикл обучения начинается с предварительно обученной модели с использованием последних данных. Данные обучения поступают из другой точно настроенной предварительно обученной модели.

Они использовали метакаузальную языковую модель OPT-125m, которая была доработана на wikitext2.

Чтобы получить данные из обученной модели, команда использовала пятисторонний поиск луча. Они установили длину обучающей последовательности в 64 токена, затем для каждой последовательности токенов в обучающем наборе модели было предложено предсказать следующие 64 токена;

Они просматривают все исходные наборы обучающих данных и генерируют искусственный набор данных того же размера.Если ошибка модели равна 0, она генерирует исходный набор данных wikitext2.

Чтобы еще больше почувствовать разницу, они использовали две разные настройки: одна группа, за исключением первоначального обучения, не имеет исходных данных обучения в последующем процессе, другая группа сохраняет 10% исходных данных;



Результаты показали, что ошибки, создаваемые моделью, со временем увеличивались. Это также заставляет модель забывать события с низкой вероятностью в наборе данных, и их выходные данные становятся более однородными, прежде чем модель полностью выйдет из строя. В конце концов появился феномен начала.

Кроме того, аналогичные явления коллапса моделей наблюдались в моделях VAE и GMM.





Профессор Эмили Венгер из Университета Дьюка сказала, что смягчить проблему пока непросто.

Ведущие технологические компании внедрили технологию внедрения «водяных знаков».

Пометьте контент, созданный искусственным интеллектом, чтобы исключить его из обучающих данных. Трудность в том, что это требует координации между технологическими компаниями и, следовательно, менее коммерчески жизнеспособно.

Таким образом, компании, получающие данные из Интернета, могут обучать модели, более репрезентативные для реального мира. Таким образом, первоначальная волна крупных моделей имела преимущество первопроходца.

Что вы думаете об этой точке зрения?

Справочные ссылки:
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y