내 연락처 정보
우편메소피아@프로톤메일.com
2024-07-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
최근 딥러닝이 큰 성공을 거두었음에도 불구하고 딥러닝 이론에 대한 사람들의 이해는 여전히 뒤떨어져 있습니다.
이로 인해 딥러닝의 손실함수와 최적화 과정을 이론적 관점에서 설명하려는 연구주제가 더욱 주목받고 있습니다.
딥러닝에 사용되는 손실 함수는 종종 고차원의 복잡한 블랙박스 함수로 간주되지만, 이러한 함수, 특히 실제 훈련 궤적에서 접하는 함수에는 경사 기반 최적화 프로세스를 효과적으로 촉진할 수 있는 복잡한 양성 구조가 포함되어 있다고 믿어집니다.
다른 많은 과학 분야에서와 마찬가지로 딥 러닝 이론을 구축하는 핵심 단계는 기본 메커니즘을 밝히기 위해 실험에서 발견된 중요하지 않은 현상을 이해하는 것입니다.
최근 해당 분야의 학자들은 모드 연결이라는 놀라운 현상을 발견했습니다.
즉, 두 개의 독립적인 기울기 최적화를 통해 얻은 서로 다른 최적 지점을 매개변수 공간의 간단한 경로로 연결할 수 있는 반면 경로에 따른 손실이나 정확도는 거의 일정하게 유지됩니다.
볼록하지 않은 함수의 서로 다른 최적 지점이 서로 다른 고립된 "계곡"에 위치할 가능성이 높기 때문에 이 현상은 의심할 여지 없이 놀랍습니다.
그러나 실제로 발견된 최적점에서는 이런 일이 발생하지 않습니다.
더 흥미로운 점은 일부 연구자들이 모드 연결보다 더 강력한 선형 모드 연결을 발견했다는 것입니다.
선형 모드 연결에 대한 연구에 따르면 서로 다른 최적 지점이 선형 경로로 연결될 수 있음이 밝혀졌습니다.
두 개의 완전히 독립적인 네트워크는 일반적으로 선형 모드 연결을 충족하지 못하지만 다음과 같은 두 가지 방법으로 네트워크를 얻을 수 있습니다.
첫 번째 네트워크는 Spawning Method입니다.
네트워크가 초기화부터 시작하여 적은 수의 에포크 동안 훈련되면 매개변수가 복사되어 두 개의 네트워크를 얻습니다. 그런 다음 두 네트워크는 서로 다른 확률론 하에서 독립적으로 계속해서 훈련되었습니다.
두 번째 네트워크는 순열 방법입니다.
즉, 두 네트워크는 먼저 독립적으로 훈련된 다음 한 네트워크의 뉴런이 다른 네트워크의 뉴런과 일치하도록 재배열됩니다.
이전 작업에서 Shanghai Jiao Tong University의 Zhou Zhanpeng 박사와 Shanghai Artificial Intelligence Laboratory의 공동 작업자는 기능 학습의 관점에서 선형 모드 연결을 설명하기를 희망했습니다.
그리고 질문을 던집니다. 훈련된 두 네트워크의 가중치를 선형적으로 보간할 때 내부 기능은 어떻게 되나요?
사진 | Zhou Zhanpeng (출처: Zhou Zhanpeng)
연구를 통해 그들은 거의 모든 레이어의 특징이 강력한 선형 연결 형태를 충족한다는 것을 발견했습니다. 즉, 가중치 보간 네트워크의 특징 맵은 두 원래 네트워크의 특징 맵의 선형 보간과 거의 동일합니다.
그들은 이 현상을 레이어별 선형 기능 연결이라고 부릅니다.
또한, 그들은 레이어별 선형 특징 연결이 항상 선형 모드 연결과 동시에 발생한다는 것을 발견했습니다.
그리고 이 규칙을 증명합니다. 동일한 데이터 세트에 대해 훈련된 두 모델이 레이어별 선형 기능 연결을 충족하면 동시에 선형 모드 연결도 충족할 수 있습니다.
또한, 연구팀은 Layerwise Linear Feature Connectivity가 발생하는 이유에 대해 심층적인 연구를 진행했습니다.
그리고 ReLU 함수의 약한 가산성과 훈련된 두 네트워크 간의 교환 속성이라는 두 가지 주요 조건이 확인되었습니다.
이 두 가지 조건을 시작으로 ReLU 네트워크에서 Layerwise Linear Feature Connectivity를 얻을 수 있음을 입증하고 이 두 조건을 실험적으로 검증했습니다.
동시에 그들은 순열 방법을 통해 두 네트워크를 상호 교환 가능하게 만들어 선형 모드 연결을 충족할 수 있음을 입증했습니다.
일반적으로 연구팀은 Linear Mode Connectivity보다 더 세밀하고 신경망을 더 잘 만족시킬 수 있는 선형 특성을 발견했습니다.
그러나 위의 결과는 모두 동일한 데이터 세트로 훈련된 네트워크를 기반으로 합니다.
그래서 그들은 새로운 질문을 제기했습니다. 서로 다른 데이터 세트에 대해 훈련된 두 모델에서 레이어별 선형 기능 연결을 설정할 수 있습니까?
팀은 Spawning Method가 사전 훈련-미세 조정 훈련 패러다임에 매우 가깝다는 것을 알아냈습니다. 즉, Spawning Method와 Fine Tuning 모두 일정 기간 학습된 모델에서 시작하여 추가 학습을 수행합니다.
그러나 Spawning Method의 모델은 동일한 데이터 세트로 계속 학습되는 반면, 미세 조정의 모델은 다른 데이터 세트로 학습될 수 있습니다.
최근 연구에서 그들은 사전 훈련-미세 조정 패러다임 하에서 다양한 미세 조정 모델이 연구팀이 교차 작업 선형성이라고 부르는 레이어별 선형 기능 연결의 속성도 충족한다는 것을 발견했습니다.
사전 훈련-미세 조정 패러다임 하에서 네트워크는 실제로 매개변수 공간에서 특징 공간으로의 선형 매핑에 더 가깝다는 것이 밝혀졌습니다.
즉, 교차 작업 선형성은 계층별 선형 기능 연결의 정의를 다양한 데이터 세트에서 훈련된 모델로 확장합니다.
흥미롭게도 팀은 교차 작업 선형성의 결과를 사용하여 두 가지 일반적인 모델 융합 기술을 설명했습니다.
첫째, 모델 평균화는 동일한 데이터 세트에서 미세 조정되었지만 서로 다른 하이퍼파라미터 구성을 사용하여 여러 모델의 가중치 평균을 취하여 정확성과 견고성을 향상시킵니다.
본 연구에서는 연구그룹의 평균 가중치를 각 계층의 특징의 평균으로 해석하여 Model Averaging과 Model Integration 사이의 밀접한 연관성을 확립하여 Model Averaging의 효율성을 설명했습니다.
둘째, Task Arithmetic은 간단한 산술 연산을 통해 다양한 작업에 맞게 미세 조정된 모델의 가중치를 결합하여 그에 따라 모델의 동작을 제어할 수 있습니다.
연구 과정에서 팀은 매개변수 공간의 산술 연산을 특징 공간의 연산으로 변환하여 특징 학습 관점에서 작업 산술을 설명했습니다.
그 후 그들은 교차 작업 선형성이 발생하는 조건을 탐색하고 교차 작업 선형성에 대한 사전 교육의 중요성을 발견했습니다.
실험 결과, 사전 훈련 단계에서 얻은 상식이 교차 작업 선형성 요구 사항을 충족하는 데 도움이 되는 것으로 나타났습니다.
연구 과정에서 교차 작업 선형성을 증명하기 위한 예비 시도도 했으며, 교차 작업 선형성의 출현이 네트워크 환경의 평탄성과 두 미세 조정 모델 간의 가중치 차이와 관련이 있음을 발견했습니다.
최근 ICML(International Conference on Machine Learning) 2024에서 "On the Emergence of Cross-Task Linearity in Pretraining-Finetuning"이라는 제목의 관련 논문이 발표되었습니다[ 1].
그림 | 관련 논문 (출처: ICML 2024)
연구팀은 이번 발견이 더 나은 모델 융합 알고리즘에 영감을 줄 수 있다는 희망을 표명했습니다.
앞으로 다중 기능이 가능한 미세 조정 대형 모델을 구축해야 한다면 대형 모델 융합이 핵심 기술 중 하나가 될 것이다. 이 연구는 대형 모델 융합에 대한 확실한 실험적, 이론적 지원을 제공하고 더 나은 대형 모델 융합 알고리즘에 영감을 줄 수 있습니다.
다음으로 훈련 역학의 관점에서 선형 모드 연결, 레이어별 선형 기능 연결 및 교차 작업 선형성을 이해하려고 합니다.
기능 수준에서 일부 설명을 얻었지만 여전히 첫 번째 원리의 관점에서 선형 모드 연결을 설명할 수 없습니다.
예를 들어 선형 모드 연결을 충족하는 두 개의 모델을 최종적으로 얻기 위해 생성 방법이 먼저 몇 개의 epoch만 훈련하면 되는 이유는 무엇입니까?
그리고 그러한 산란 시간을 어떻게 예측할 수 있을까요? 이러한 질문에 답하기 위해서는 학습과 최적화의 관점에서 선형 모드 연결을 이해해야 하며, 이는 팀의 후속 노력이기도 합니다.
참고자료:
1. Zhou, Z., Chen, Z., Chen, Y., Zhang, B., & Yan, J. 사전 학습-정밀 조정 패러다임에서 교차 작업 선형성의 출현에 관하여. 제41회 기계 학습 국제 컨퍼런스에서.
운영/조판: He Chenlong
01/ 홍콩시 팀은 특별한 시나리오에서 담수 처리에 사용할 수 있는 새로운 유형의 나노층 멤브레인을 개발하고 2차원 재료 적용을 위한 돌파구를 찾습니다.
02/ 수십 년간의 화학적 문제에 대해 신뢰할 만한 답변이 제공되었습니다. 과학자들은 염화수소를 용해하여 염산을 형성하는 새로운 미세 메커니즘을 제안했으며, 이는 여러 분야의 발전을 촉진할 것입니다.
03/ 과학자들은 약한 신호를 정확하게 감지하고 개별 핵 스핀을 감지하고 제어하는 데 사용할 수 있는 새로운 양자 감지 제어 방법을 개발했습니다.
04/ "MIT Technology Review"의 새로운 "35세 이하 기술 혁신가 35인" 중국 우승자가 공식 발표되었습니다!상하이에서 과학기술 청년들의 혁신적 힘을 목격하세요
05/ 북경대 연구팀, 동적강도 14GPa로 경량, 고성능 구조 및 보호소재로 활용 가능한 초강력 탄소나노튜브 섬유 개발 성공