Архитектура нейронной сети «разные пути ведут к одной и той же цели»? Документ ICML 2024: Разные модели, но одинаковый учебный контент

Архитектура нейронной сети «разные пути ведут к одной и той же цели»? Документ ICML 2024: разные модели, но одинаковый учебный контент

2024-07-16

Новый отчет мудрости

Монтажер: Цяо Ян

[Введение в новую мудрость] Глубокие нейронные сети бывают разных размеров и архитектур, и общепринято, что это влияет на абстрактные представления, изучаемые моделью. Однако в первой статье, опубликованной двумя учеными UCL на ICML 2024, указывалось, что если архитектура модели достаточно гибкая, определенное поведение сети широко распространено среди различных архитектур.

С тех пор, как ИИ вступил в эпоху больших моделей, закон масштабирования почти стал консенсусом.

Адрес статьи: https://arxiv.org/abs/2001.08361.

Исследователи OpenAI в 2020 году предположили в этой статье, что производительность модели находится в степенной зависимости от трех показателей: количества параметров N, размера набора данных D и вычислительной мощности обучения C.

В дополнение к этим трем аспектам такие факторы, как выбор гиперпараметров, а также ширина и глубина модели, мало влияют на производительность в разумных пределах.

Более того, существование этой степенной зависимости не накладывает никаких ограничений на архитектуру модели. Другими словами, мы можем думать, что закон масштабирования применим практически к любой модельной архитектуре.

Кроме того, статья, опубликованная в области нейробиологии в 2021 году, похоже, затрагивает это явление с другой стороны.

Адрес статьи: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full.

Они обнаружили, что, хотя такие сети, как AlexNet, VGG и ResNet, предназначенные для визуальных задач, имеют большие структурные различия, они, по-видимому, способны изучать очень похожую семантику, такую как иерархические отношения категорий объектов, после обучения на одном и том же наборе данных. .

Но в чем причина этого? Если выйти за рамки поверхностного опыта, насколько различные сетевые архитектуры схожи на существенном уровне?

Два исследователя из UCL опубликовали в этом году статью, пытаясь ответить на этот вопрос, изучая абстрактное представление, полученное нейронными сетями.

Адрес статьи: https://arxiv.org/abs/2402.09142.

Они разработали теорию, которая эффективно обобщает динамику обучения представлению в сложных, крупномасштабных модельных архитектурах, обнаруживая его «богатые» и «ленивые» характеристики. Когда модель достаточно гибкая, определенное поведение сети может быть широко распространено в разных архитектурах.

Этот документ был принят конференцией ICML 2024.

Процесс моделирования

Теорема универсальной аппроксимации гласит, что при наличии достаточных параметров нелинейная нейронная сеть может обучаться и аппроксимировать любую гладкую функцию.

Вдохновленная этой теоремой, в статье сначала предполагается, что отображение кодирования от входа к скрытому представлению и отображение декодирования от скрытого представления к выводу являются произвольными гладкими функциями.

Следовательно, игнорируя детали сетевой архитектуры, функциональную динамику можно смоделировать следующим образом:

Процесс обучения нейронной сети можно рассматривать как оптимизацию функции сглаживания на конкретном наборе данных, постоянно меняя параметры сети для минимизации функции потерь MSE:

в⟨⋅⟩Символы представляют собой средние значения по всему набору данных.

Поскольку нас интересует изучение динамических процессов, представляющих пространство, функцию можно разделить на комбинацию двух гладких карт: карту кодированияℎ:→и отображение декодирования:→, в этот момент функцию потерь в уравнении (1) можно записать как:

Далее процесс обновления параметров с использованием правила градиентного спуска можно записать так:

где – обратная скорость обучения.

Хотя уравнение (4) достаточно точное, проблема в том, что оно явно зависит от параметров сети, и достаточно общее математическое выражение требует игнорирования этой детали реализации.

В идеале, если выразительные возможности нейронной сети достаточно богаты, оптимизация функции потерь должна быть непосредственно выражена как примерно два отображения.ℎи функция.

Однако как это достигается математически, остается неясным. Поэтому начнем с более простого случая — рассматривать не весь набор данных, а две точки данных.

Во время тренировки благодаря функции картированияℎПо мере изменения суммы представления различных точек данных перемещаются в скрытом пространстве, приближаются друг к другу или взаимодействуют друг с другом.

Например, для двух точек набора данных, еслиℎ⁢(1) иℎ⁢(2) достаточно близко иℎи является гладкой функцией, то среднее значение двух точек можно использовать для выполнения линейной аппроксимации двух функций отображения:

вℎи соответственноℎи матрица Якобиана .

Предполагая, что нейронная сеть обладает достаточной выразительностью и степенями свободы, параметры линеаризацииℎи может быть эффективно оптимизирован, то процесс градиентного спуска можно выразить как:

Уравнение (6) описывает основную гипотезу моделирования статьи, которая задумана как эквивалентная теория для крупномасштабных систем сложной архитектуры и не подлежит конкретным методам параметризации.

Рисунок 1 представляет собой визуальное выражение описанного выше процесса моделирования. Чтобы упростить задачу, предполагается, что две точки данных будут только перемещаться ближе или дальше в скрытом пространстве, но не будут вращаться.

Основным индикатором, который нас волнует, является расстояние ‖ℎ‖ в скрытом пространстве, которое позволяет нам узнать структуру представления, изученную моделью, и расстояние ‖‖, выводимые моделью, что помогает смоделировать кривую потерь.

Кроме того, вводится внешняя переменная для управления скоростью представления или ее можно рассматривать как выравнивание выходных данных, представляющую угловую разницу между прогнозируемым выходным сигналом и истинным выходным сигналом.

Отсюда получаем независимую систему трех скалярных переменных:

Среди них детали реализации нейронной сети были абстрактно выражены в виде двух констант: 1/ℎи 1/, что указывает на эффективную скорость обучения.

Изучение динамической согласованности

После завершения моделирования в статье были обучены нейронные сети различной архитектуры на двухточечном наборе данных и сравнена фактическая динамика обучения с численным решением эквивалентной теории. Результаты показаны на рисунке 2.

Структура по умолчанию относится к 20-слойной сети, 500 нейронам на слой и дырявому ReLU.

Видно, что, хотя необходимо подобрать только две константы, только что описанная теория эквивалентности все же может хорошо соответствовать реальной ситуации с различными нейронными сетями.

Одни и те же уравнения могут точно описать динамику множества сложных моделей и архитектур во время обучения, что, по-видимому, указывает на то, что, если модель достаточно выразительна, она в конечном итоге сойдется к общему сетевому поведению.

Поместите его на более крупный набор данных, такой как MNIST, и отследите динамику обучения двух точек данных, и теория эквивалентности останется в силе.

Архитектура сети включает в себя 4 полносвязных слоя, каждый уровень включает в себя 100 нейронов и использует дырявую функцию активации ReLU.

Однако стоит отметить, что когда начальный вес постепенно увеличивается (рис. 3), характер изменения ‖ℎ‖, ‖⁢‖ и трех переменных изменится.

Поскольку, когда начальный вес велик, две точки данных будут находиться далеко друг от друга в начале обучения, поэтому линейная аппроксимация формулы (5) больше не выполняется, и приведенная выше теоретическая модель не работает.

структурированное представление

Можем ли мы суммировать правила структуры представления нейронных сетей на основе ограничений гладкости и вышеупомянутой теории эквивалентности?

Согласно формуле (7) можно сделать вывод, что существует уникальная фиксированная точка, которая является окончательным расстоянием представления двух точек данных:

Если начальный вес велик, конечное расстояние представления будет сходиться к высокому, и значение зависит от ввода данных и случайной инициализации, и наоборот, если начальный вес мал, оно будет сходиться к низкому, что зависит от ввода и вывода; структура данных.

Такое разделение между случайными и структурированными механизмами еще раз подтверждает «богатство» и «инерцию» процесса обучения глубоких нейронных сетей, предложенных в предыдущих статьях, особенно если учесть, что масштаб начальных весов станет ключевым фактором.

В статье дается интуитивное объяснение этого явления:

Если начальные веса велики, две точки данных в скрытом пространстве будут находиться далеко друг от друга в начале обучения, поэтому гибкость сети позволяет декодеру свободно изучать правильный вывод для каждой точки данных индивидуально без необходимости значительных корректировок. Структура представительства. Таким образом, окончательный изученный шаблон напоминает структуру, которая уже присутствовала при инициализации.

Напротив, когда вес мал, две точки данных расположены ближе друг к другу, и из-за ограничений плавности функция отображения кодирования должна быть скорректирована в соответствии с целевым выходным сигналом, перемещая представление двух точек данных в соответствии с данными. .

Таким образом, мы увидим, что когда веса малы, обучение представлению будет демонстрировать структурированный эффект (рис. 5).

Изменение задачи нейронной сети на установку функции исключающего ИЛИ (XOR) может продемонстрировать это более интуитивно. Когда вес инициализации мал, модель, очевидно, изучает структурные характеристики функции XOR.

В нейронной сети всего с двумя слоями справа наблюдается большое отклонение между теорией и экспериментом, что иллюстрирует важность предположения о высокой выразительности модели в приведенной выше теории.

в заключение

Основным вкладом этой статьи является введение теории эквивалентности, которая способна выразить общие части процесса динамического обучения в различных архитектурах нейронных сетей и продемонстрировала структурированное представление.

Из-за ограничения плавности процесса моделирования и упрощения взаимодействия точек данных эта теория до сих пор не может стать универсальной моделью для описания процесса обучения глубоких нейронных сетей.

Однако самое ценное в этом исследовании то, что оно показывает, что некоторые элементы, необходимые для обучения представлению, могут уже быть включены в процесс градиентного спуска, а не только из-за индуктивного смещения, содержащегося в конкретной архитектуре модели.

Кроме того, в теории также подчеркивается, что масштаб начальных весов является ключевым фактором окончательного формирования структуры представления.

В будущей работе нам все еще нужно найти способ расширить теорию эквивалентности для обработки более крупных и сложных наборов данных, а не просто моделировать взаимодействие двух точек данных.

В то же время многие архитектуры моделей вносят индуктивные искажения, которые влияют на обучение представлению, потенциально взаимодействуя с репрезентативными эффектами моделирования.

Использованная литература:

https://arxiv.org/abs/2402.09142

Новости

Архитектура нейронной сети «разные пути ведут к одной и той же цели»? Документ ICML 2024: разные модели, но одинаковый учебный контент

Введение

моя контактная информация