Ученые раскрывают линейные свойства глубоких нейронных сетей, помогая создавать лучшие алгоритмы объединения моделей

Ученые раскрывают линейные свойства глубоких нейронных сетей, помогая создавать более эффективные алгоритмы объединения моделей

2024-07-15

Хотя глубокое обучение добилось больших успехов в последние годы, понимание его теории людьми все еще отстает.

По этой причине темы исследований, которые пытаются объяснить функцию потерь и процесс оптимизации глубокого обучения с теоретической точки зрения, получили больше внимания.

Хотя функции потерь, используемые в глубоком обучении, часто рассматриваются как многомерные сложные функции черного ящика, считается, что эти функции, особенно те, которые встречаются в реальных траекториях обучения, содержат сложные доброкачественные структуры, которые могут эффективно способствовать процессу оптимизации на основе градиента.

Как и во многих других научных дисциплинах, ключевым шагом в построении теории глубокого обучения является понимание нетривиальных явлений, обнаруженных в ходе экспериментов, для выяснения лежащих в их основе механизмов.

Недавно ученые в этой области обнаружили поразительный феномен — режим подключения.

То есть разные оптимальные точки, полученные с помощью двух независимых оптимизаций градиента, могут быть соединены простым путем в пространстве параметров, при этом потери или точность на пути остаются практически постоянными.

Это явление, несомненно, удивительно, поскольку разные оптимальные точки невыпуклой функции, вероятно, будут расположены в разных изолированных «долинах».

Однако для найденных на практике оптимальных точек этого не происходит.

Что еще более интересно, некоторые исследователи обнаружили, что связь в линейном режиме более сильна, чем связь в режиме.

Исследования связности в линейном режиме показывают, что различные оптимальные точки могут быть соединены линейными путями.

Хотя две полностью независимые сети обычно не удовлетворяют требованиям связности в линейном режиме, существует два способа получить сеть, которая удовлетворяет этим требованиям:

Первая сеть — метод нереста.

Когда сеть начинается с инициализации и обучается небольшое количество эпох, параметры копируются для получения двух сетей. Затем две сети продолжили независимое обучение при различных стохастических условиях.

Вторая сеть — метод перестановки.

То есть две сети сначала обучаются независимо, а затем нейроны одной сети перестраиваются, чтобы соответствовать нейронам другой сети.

В своей предыдущей работе доктор Чжоу Чжаньпэн из Шанхайского университета Цзяо Тонг и сотрудники Шанхайской лаборатории искусственного интеллекта надеялись объяснить связь в линейном режиме с точки зрения обучения функциям.

И ставит вопрос: что происходит с внутренними функциями при линейной интерполяции весов двух обученных сетей?

Изображение | Чжоу Чжаньпэн (Источник: Чжоу Чжаньпэн)

В ходе исследования они обнаружили, что объекты почти во всех слоях также удовлетворяют строгой форме линейной связи: то есть карты объектов в сети весовой интерполяции примерно такие же, как линейная интерполяция карт объектов в двух исходных сетях.

Они называют это явление послойной линейной связностью объектов.

Кроме того, они обнаружили, что послойное линейное соединение объектов всегда происходит одновременно с соединением в линейном режиме.

И доказывает это правило: если две модели, обученные на одном и том же наборе данных, удовлетворяют послойной линейной связности объектов, то они также могут одновременно удовлетворять связности линейного режима.

Кроме того, исследовательская группа провела углубленное исследование причин послойной связности линейных объектов.

И были определены два ключевых условия: слабая аддитивность функции ReLU и свойство коммутативности между двумя обученными сетями.

Исходя из этих двух условий, они доказали получение послойной линейной связности объектов в сети ReLU и проверили эти два условия экспериментально.

В то же время они также доказали, что метод перестановки позволяет двум сетям удовлетворять связности линейного режима, делая их взаимозаменяемыми.

В целом исследовательская группа обнаружила линейное свойство, которое является более детальным, чем связность линейного режима, и может лучше удовлетворять нейронную сеть.

Однако все приведенные выше результаты основаны на сетях, обученных на одном и том же наборе данных.

Итак, они подняли новый вопрос: можно ли установить послойную линейную связность объектов на двух моделях, обученных на разных наборах данных?

Команда заметила, что метод нереста очень близок к парадигме обучения перед тренировкой и точной настройкой. То есть и метод создания, и точная настройка начинаются с модели, которая была обучена в течение определенного периода времени для проведения дальнейшего обучения.

Однако модель в методе нереста продолжает обучаться на одном и том же наборе данных, в то время как модель при точной настройке может обучаться на разных наборах данных.

В недавней работе они обнаружили, что в рамках парадигмы предварительной подготовки и точной настройки различные модели точной настройки также удовлетворяют свойствам послойной линейной связности объектов, которую исследовательская группа называет линейностью между задачами.

Было обнаружено, что в соответствии с парадигмой предварительной настройки и точной настройки сеть на самом деле более приближена к линейному отображению пространства параметров в пространство признаков.

То есть линейность между задачами расширяет определение послойной линейной связности объектов на модели, обученные на разных наборах данных.

Интересно, что команда также использовала результаты линейности перекрестных задач для объяснения двух распространенных методов объединения моделей:

Во-первых, усреднение модели берет среднее значение весов нескольких моделей, точно настроенных на одном и том же наборе данных, но с использованием разных конфигураций гиперпараметров, тем самым повышая точность и надежность.

В исследовании средний вес исследовательской группы интерпретировался как среднее значение признаков на каждом уровне, что установило тесную связь между усреднением модели и интеграцией модели, что объяснило эффективность усреднения модели.

Во-вторых, с помощью простых арифметических операций Task Arithmetic может комбинировать веса моделей, точно настроенных для разных задач, для соответствующего управления поведением модели.

В ходе исследования команда преобразовала арифметические операции в пространстве параметров в операции в пространстве признаков, тем самым объясняя арифметику задач с точки зрения изучения признаков.

Впоследствии они исследовали условия, при которых возникает линейность между задачами, и обнаружили важность предварительной подготовки к линейности между задачами.

Результаты экспериментов показывают, что общие знания, полученные на этапе предварительного обучения, помогают удовлетворить требования линейности перекрестных задач.

В ходе исследования компания также предприняла предварительную попытку доказать линейность между задачами и обнаружила, что возникновение линейности между задачами связано с плоскостностью сетевого ландшафта и разницей в весе между двумя точно настроенными моделями.

Недавно на Международной конференции по машинному обучению (ICML) 2024 г. была опубликована соответствующая статья под названием «О возникновении линейности между задачами при предварительном обучении и точной настройке» [1].

Рисунок | Похожие документы (Источник: ICML 2024)

Исследовательская группа выразила надежду, что это открытие может вдохновить на создание более эффективных алгоритмов объединения моделей.

В будущем, если потребуется построить многофункциональную и точно настроенную большую модель, объединение больших моделей станет одной из основных технологий. Эта работа обеспечивает надежную экспериментальную и теоретическую поддержку для объединения больших моделей и может вдохновить на создание более эффективных алгоритмов объединения больших моделей.

Далее они надеются понять связность линейного режима, послойную связность линейных функций и линейность между задачами с точки зрения динамики обучения.

Хотя они получили некоторые объяснения на уровне функций, они все еще не могут объяснить связность линейного режима с точки зрения основных принципов.

Например, почему методу порождения необходимо сначала обучить всего несколько эпох, чтобы наконец получить две модели, соответствующие связности линейного режима?

И как предсказать такое время нереста? Чтобы ответить на эти вопросы, нам нужно понять возможность подключения в линейном режиме с точки зрения обучения и оптимизации, и это также является последующей работой команды.

Использованная литература:

1. Чжоу, З., Чэнь, З., Чэнь, И., Чжан, Б. и Янь, Дж. О возникновении линейности кросс-задач в парадигме предварительной подготовки-точной настройки. Сорок первая международная конференция по машинному обучению.

Операция/набор: Хэ Ченлун

01/ Команда города Гонконга разрабатывает новый тип нанослойной мембраны, которую можно использовать для очистки пресной воды в особых случаях, и находит прорыв в применении двумерных материалов.

02/ Десятилетия химических проблем получили достоверные ответы. Ученые предложили новый микроскопический механизм растворения хлористого водорода с образованием соляной кислоты, что будет способствовать развитию множества дисциплин.

03/ Ученые создают новый метод контроля квантового зондирования, который может точно обнаруживать слабые сигналы и использоваться для обнаружения и управления отдельными ядерными спинами.

04/ Официально объявлены победители конкурса «35 лучших технологических новаторов в возрасте до 35 лет» в Китае по версии журнала «MIT Technology Review»!Станьте свидетелем инновационной силы научной и технологической молодежи в Шанхае.

05/ Команда Пекинского университета с динамической прочностью 14 ГПа успешно разработала сверхпрочные волокна из углеродных нанотрубок, которые можно использовать в качестве легких, высокоэффективных конструкционных и защитных материалов.

Новости

Ученые раскрывают линейные свойства глубоких нейронных сетей, помогая создавать более эффективные алгоритмы объединения моделей

Введение

моя контактная информация