신경망 아키텍처 "다른 경로는 동일한 목표로 이어진다"? ICML 2024 논문: 모델은 다르지만 학습 내용은 동일

2024-07-16

새로운 지혜 보고서

편집자: 양차오

[새로운 지혜 소개] 심층 신경망은 다양한 크기와 아키텍처로 제공되며 이는 모델이 학습한 추상 표현에 영향을 미치는 것으로 일반적으로 받아들여집니다. 그러나 ICML 2024에서 두 명의 UCL 학자가 발표한 첫 번째 논문에서는 모델 아키텍처가 충분히 유연하다면 특정 네트워크 동작이 다양한 아키텍처 간에 널리 퍼져 있다고 지적했습니다.

AI가 대형모델 시대에 접어들면서 스케일링 법칙은 거의 합의가 됐다.

논문 주소: https://arxiv.org/abs/2001.08361

OpenAI 연구진은 2020년 이 논문에서 모델의 성능이 매개변수 수량 N, 데이터 세트 크기 D, 훈련 컴퓨팅 성능 C라는 세 가지 지표와 거듭제곱 법칙 관계를 갖는다고 제안했습니다.

이 세 가지 측면 외에도 하이퍼파라미터 선택, 모델의 너비와 깊이 등의 요소는 합리적인 범위 내에서 성능에 거의 영향을 미치지 않습니다.

더욱이, 이러한 거듭제곱 관계의 존재는 모델 아키텍처에 대한 어떠한 규정도 만들지 않습니다. 즉, 스케일링 법칙은 거의 모든 모델 아키텍처에 적용 가능하다고 생각할 수 있습니다.

게다가 2021년 신경과학 분야에 발표된 논문에서는 이 현상을 또 다른 각도에서 다루고 있는 것 같습니다.

논문 주소: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

그들은 시각적 작업을 위해 설계된 AlexNet, VGG 및 ResNet과 같은 네트워크가 구조적으로 큰 차이가 있음에도 불구하고 동일한 데이터 세트에 대한 훈련 후에 객체 카테고리의 계층적 관계와 같은 매우 유사한 의미를 학습할 수 있는 것으로 나타났습니다. .

그러나 이것의 이유는 무엇입니까? 피상적인 경험을 넘어, 다양한 네트워크 아키텍처가 본질적인 수준에서 어느 정도 유사합니까?

UCL의 두 연구원은 올해 논문을 발표하여 신경망이 학습한 추상 표현을 살펴봄으로써 이 질문에 답하려고 했습니다.

논문 주소: https://arxiv.org/abs/2402.09142

그들은 복잡한 대규모 모델 아키텍처에서 표현 학습의 역학을 효과적으로 요약하는 이론을 도출하여 표현 학습의 "풍부한" 특성과 "게으른" 특성을 발견했습니다. 모델이 충분히 유연하면 특정 네트워크 동작이 다양한 아키텍처에 걸쳐 확산될 수 있습니다.

이 논문은 ICML 2024 컨퍼런스에서 승인되었습니다.

모델링 과정

보편적 근사 정리는 충분한 매개변수가 주어지면 비선형 신경망이 모든 평활 함수를 학습하고 근사할 수 있다고 명시합니다.

이 정리에 영감을 받아 이 논문은 먼저 입력에서 숨겨진 표현으로의 인코딩 매핑과 숨겨진 표현에서 출력으로의 디코딩 매핑이 임의의 부드러운 함수라고 가정합니다.

따라서 네트워크 아키텍처의 세부 사항을 무시하면서 기능적 역학은 다음과 같은 방식으로 모델링될 수 있습니다.

신경망 훈련 과정은 MSE 손실 함수를 최소화하기 위해 네트워크 매개변수를 지속적으로 변경하여 특정 데이터 세트에 대한 평활화 함수를 최적화하는 것으로 볼 수 있습니다.

~에⟨⋅⟩기호는 전체 데이터 세트의 평균을 나타냅니다.

우리는 공간을 나타내는 동적 프로세스를 연구하는 데 관심이 있으므로 함수는 두 개의 부드러운 맵의 조합으로 분할될 수 있습니다.ℎ:→및 디코딩 매핑:→, 이때 방정식 (1)의 손실 함수는 다음과 같이 쓸 수 있습니다.

다음으로 경사하강법을 사용하여 매개변수를 업데이트하는 프로세스는 다음과 같이 작성할 수 있습니다.

학습률의 역수는 어디에 있습니까?

방정식 (4)는 충분히 정확하지만 문제는 이것이 네트워크 매개변수에 명시적으로 의존하고 충분히 일반적인 수학적 표현에서는 이 구현 세부 사항을 무시해야 한다는 것입니다.

이상적으로는 신경망의 표현 능력이 충분히 풍부하다면 손실 함수의 최적화는 대략 두 개의 매핑으로 직접 표현되어야 합니다.ℎ그리고 기능.

그러나 이것이 수학적으로 어떻게 달성되는지는 불분명합니다. 따라서 전체 데이터 세트가 아닌 두 개의 데이터 포인트를 고려하는 간단한 사례부터 시작하겠습니다.

훈련 중 매핑 기능으로 인해ℎ합이 변화함에 따라 서로 다른 데이터 포인트의 표현이 숨겨진 공간에서 이동하거나 서로 가까워지거나 상호 작용합니다.

예를 들어, 데이터 세트의 두 포인트에 대해 다음과 같은 경우ℎ⁢(1) 및ℎ⁢(2)는 충분히 가깝고ℎ이고 매끄러운 함수인 경우 두 점의 평균을 사용하여 두 매핑 함수의 선형 근사를 수행할 수 있습니다.

~에ℎ그리고 각각ℎ의 야코비 행렬(Jacobian Matrix)입니다.

신경망이 충분한 표현성과 자유도를 가지고 있다고 가정하면 선형화 매개변수는ℎ, 효과적으로 최적화할 수 있으면 경사 하강 프로세스는 다음과 같이 표현될 수 있습니다.

식 (6)은 논문의 주요 모델링 가설을 설명하는데, 이는 대규모 복합 아키텍처 시스템에 대한 등가 이론으로 의도되었으며 특정 매개변수화 방법의 적용을 받지 않습니다.

그림 1은 위의 모델링 과정을 시각적으로 표현한 것으로, 문제를 단순화하기 위해 두 개의 데이터 포인트가 숨겨진 공간에서 가까워지거나 멀어질 뿐 회전하지는 않는다고 가정합니다.

우리가 관심을 갖는 주요 지표는 모델이 학습한 표현 구조를 알 수 있는 숨겨진 공간의 거리 "ℎ"와 손실 곡선을 모델링하는 데 도움이 되는 모델이 출력하는 거리 ""입니다.

또한 표현 속도를 제어하기 위해 외부 변수가 도입되거나 예측 출력과 실제 출력 간의 각도 차이를 나타내는 출력 정렬로 볼 수 있습니다.

이를 통해 우리는 세 가지 스칼라 변수의 독립 시스템을 얻습니다.

그 중 신경망의 구현 세부 사항은 두 개의 상수로 추상적으로 표현되었습니다: 1/ℎ1/은 유효 학습률을 나타냅니다.

동적 일관성 학습

모델링이 완료된 후 논문에서는 2점 데이터 세트에 대해 다양한 아키텍처의 신경망을 훈련하고 실제 학습 역학을 등가 이론의 수치 솔루션과 비교했습니다. 결과는 그림 2에 나와 있습니다.

기본 구조는 20개 레이어 네트워크, 레이어당 500개의 뉴런, Leaky ReLU를 나타냅니다.

피팅해야 할 상수는 두 개뿐이지만 방금 설명한 등가 이론은 여전히 다양한 신경망의 실제 상황에 잘 들어맞을 수 있음을 알 수 있습니다.

동일한 방정식은 훈련 중에 여러 복잡한 모델과 아키텍처의 역학을 정확하게 설명할 수 있으며, 이는 모델이 충분히 표현력이 있으면 결국 공통 네트워크 동작으로 수렴된다는 것을 나타내는 것으로 보입니다.

MNIST와 같은 더 큰 데이터 세트에 놓고 두 데이터 포인트의 학습 역학을 추적하면 등가 이론이 여전히 유지됩니다.

네트워크 아키텍처에는 4개의 완전히 연결된 레이어가 포함되어 있으며 각 레이어에는 100개의 뉴런이 포함되어 있으며 Leaky ReLU 활성화 함수를 사용합니다.

그러나 초기 가중치가 점차 증가하면(그림 3) ”ℎ”, ”⁢” 및 세 변수의 변화 패턴이 변경된다는 점에 주목할 필요가 있습니다.

초기 가중치가 크면 훈련 시작 시 두 데이터 포인트가 멀리 떨어져 있기 때문에 공식 (5)의 선형 근사치는 더 이상 유지되지 않으며 위의 이론적 모델은 실패합니다.

구조화된 표현

평활도 제약 조건과 위에서 언급한 등가 이론을 통해 신경망 표현 구조의 규칙을 요약할 수 있나요?

공식 (7)에 따르면 두 데이터 포인트의 최종 표현 거리인 고유한 고정점이 있다고 추론할 수 있습니다.

초기 가중치가 크면 최종 표현 거리는 높은 값으로 수렴하고, 그 값은 데이터 입력 및 무작위 초기화에 따라 달라지며, 반대로 초기 가중치가 작으면 입력 및 출력에 따라 낮은 값으로 수렴됩니다. 데이터의 구조.

무작위 메커니즘과 구조화된 메커니즘 사이의 이러한 분리는 특히 초기 가중치의 규모가 핵심 요소가 될 것이라는 점을 고려할 때 이전 논문에서 제안된 심층 신경망의 학습 과정에서 "풍부함"과 "관성"을 더욱 검증합니다.

이 논문은 이 현상에 대해 직관적인 설명을 제공합니다.

초기 가중치가 크면 훈련이 시작될 때 숨겨진 공간의 두 데이터 포인트가 멀리 떨어져 있으므로 네트워크의 유연성을 통해 디코더는 큰 조정 없이도 각 데이터 포인트에 대한 올바른 출력을 개별적으로 자유롭게 학습할 수 있습니다. 표현 구조. 따라서 최종 학습된 패턴은 초기화 시 이미 존재했던 구조와 유사합니다.

반대로, 가중치가 작을 경우 두 데이터 포인트는 더 가깝게 위치하며 부드러움 제한으로 인해 인코딩 매핑 기능은 목표 출력에 따라 조정되어야 하며 두 데이터 포인트의 표현을 데이터에 맞게 이동해야 합니다. .

따라서 가중치가 작을 때 표현 학습이 구조화된 효과를 나타내는 것을 볼 수 있습니다(그림 5).

신경망 작업을 배타적 OR 함수(XOR)로 변경하면 이를 보다 직관적으로 보여줄 수 있습니다. 초기화 가중치가 작을 때 모델은 XOR 함수의 구조적 특성을 분명히 학습합니다.

오른쪽에 2개의 레이어만 있는 신경망에서는 이론과 실험 사이에 큰 편차가 있으며, 이는 위 이론에서 모델의 높은 표현력 가정의 중요성을 보여줍니다.

결론적으로

이 논문의 주요 기여는 다양한 신경망 아키텍처에서 동적 학습 프로세스의 공통 부분을 표현할 수 있고 구조화된 표현을 입증할 수 있는 등가 이론을 도입한 것입니다.

모델링 프로세스의 부드러움 제한과 데이터 포인트 상호 작용의 단순화로 인해 이 이론은 여전히 심층 신경망의 훈련 프로세스를 설명하는 보편적인 모델이 될 수 없습니다.

하지만 이 연구에서 가장 가치 있는 점은 특정 모델 아키텍처에 포함된 귀납적 편향뿐만 아니라 표현 학습에 필요한 일부 요소가 이미 경사하강법 프로세스에 포함되어 있을 수도 있다는 점을 보여주었다는 것입니다.

또한, 이론에서는 초기 가중치의 규모가 표현 구조의 최종 형성에 핵심 요소임을 강조합니다.

향후 작업에서는 두 데이터 포인트의 상호 작용을 모델링하는 것보다 더 크고 복잡한 데이터 세트를 처리하기 위해 동등성 이론을 확장하는 방법을 찾아야 합니다.

동시에 많은 모델 아키텍처는 표현 학습에 영향을 미치는 귀납적 편향을 도입하여 잠재적으로 모델링의 표현 효과와 상호 작용합니다.

참고자료:

https://arxiv.org/abs/2402.09142

소식

신경망 아키텍처 "다른 경로는 동일한 목표로 이어진다"? ICML 2024 논문: 모델은 다르지만 학습 내용은 동일

소개

내 연락처 정보