홍콩대학교 마이(Ma Yi): 오랫동안 이론이 없는 대형 모델은 마치 맹인들이 코끼리를 잡으려고 모여 AI

홍콩재경대학교 마이: 오랫동안 이론이 없는 대형 모델은 거물들이 모여 AI의 다음 단계를 논의하는 것을 보는 시각 장애인과 같습니다.

2024-07-24

서풍은 아오페이사에서 불어온다
Qubits 공개 계정 QbitAI

"질문하고 싶습니다. Qiuzhen Academy의 학생이든 Qiu Chengtong의 주니어 클래스이든 이 질문을 모른다면 이 클래스에 있으면 안 됩니다!"

2024년 국제 기초과학 컨퍼런스 '기초과학과 인공지능 포럼'에서 레노버 그룹 CTO 겸 유럽과학원 외국학자루이 용이 말이 나오자마자 청중 전체가 약간 긴장했다.

그런데 그가 던진 질문은 이렇습니다.13.11과 13.8 중 어느 것이 더 큽니까?

여러분, 아직 이 농담을 모르는 사람이 있는지 물어보세요.

하지만 이번에는 모델의 광기를 조롱하려는 것이 아닙니다. 여러 학계와 업계 AI 전문가들이 모델 '환상' 등 일련의 문제를 분석해 ''에 대한 의견을 도출했다.인공지능의 다음 단계는 무엇인가?"의 의견이다.

요약하면 다음과 같은 내용이 포함됩니다.

대형모델 개발의 다음 단계는 '추상적 능력도 없고 주관적 가치도 없고 감성적 지식도 없다'는 검색 패러다임에서 벗어나는 것이다.
모델 자체의 규모 성장에 비해 상용화 적용이 뒤쳐져 있고, 투자 가치를 제대로 반영할 수 있는 슈퍼 제품이 부족한 상황이다.
환상의 제한 하에서 다음 단계는 모델의 일반화 및 상호 작용을 확장하는 방법에 대해 생각하는 것입니다.
지능형 에이전트가 자신의 능력의 경계를 아는 것은 매우 중요한 문제입니다.

홍콩대학교 데이터스쿨 학장, 홍콩대학교 컴퓨터공학과 학과장나는 할 수있다토론 중에는 현재 주류에서 사용되고 있는 '인공지능'에 대한 물음표까지 제기됐다.

인공지능 기술의 발전은 많은 경험을 축적해 왔으며, 그 중 일부는 설명할 수 있고 일부는 설명할 수 없는 시대입니다. 사실 우리 학문은 지난 10여년 동안 별다른 진전을 이루지 못했다고 할 수 있는데, 산업과 공학기술의 급속한 발전이 학문의 속도에 영향을 미쳤을 가능성이 크다.

선배들이 구체적으로 한 말을 들어보자.

지능의 본질은 무엇인가?

현장에는 홍콩대학교 데이터스쿨 학장, 홍콩대학교 컴퓨터공학과 학과장 등이 참석했다.나는 할 수있다, "이론의 기본으로 돌아가 지능의 본질 탐구"라는 제목으로 기조 연설을했습니다.

표현된 견해는 라운드 테이블에서 논의된 문제와 일치합니다.

마 이 교수의 연설 주제는 '이론의 기본으로 돌아가서 지능의 본질 탐구'였습니다. 그는 AI의 역사적 발전 과정을 검토하고 AI의 현재 발전에 대한 자신의 견해를 제시했습니다.

그는 먼저 생명과 지능의 진화에 관해 이야기했습니다.

그의 개인적인 견해에 따르면 생명은 지능의 전달자이며 생명의 생산 및 진화 능력은 지능 메커니즘의 작용의 결과입니다. 그리고,세상은 무작위가 아니라 예측 가능하다, 지속적인 진화 과정에서 생명은 세상에 대해 더 예측 가능한 지식을 배웁니다.

자연 선택을 통한 적자 생존은 현재의 강화 학습 개념과 유사한 지능의 일종의 피드백입니다.

식물에서 동물, 파충류, 새, 그리고 인간에 이르기까지 생명은 지능을 향상시켜 왔지만 지능이 높을수록 출생 후 부모를 더 오래 따라가는 현상이 있는 것 같습니다. 왜?

Ma Yi 교수는 다음과 같이 설명했습니다. 유전자만으로는 충분하지 않기 때문에 일부 능력을 학습해야 합니다. 학습 능력이 강할수록 더 많은 것을 배워야 합니다. 이는 더욱 발전된 형태의 지능입니다.

개인의 방법으로 학습하면 속도가 충분하지도, 좋지도 않아서 사람들은 언어를 발명했고, 인간의 지능은 집단 지능의 한 형태가 되었습니다.

집단지능이 생산되고 질적인 변화가 일어났다.우리는 경험적 관찰을 통해 이러한 예측 가능한 현상을 배울 수 있을 뿐만 아니라;추상적 논리적 사고, 우리는 그것을 인간 지능, 나중에는 인공 지능이라고 부릅니다.

다음으로 그는 기계지능의 기원에 대해 이야기했다.

1940년대부터 인간은 기계가 생물, 특히 동물의 지능을 시뮬레이션하도록 시도하기 시작했습니다.

인간은 뉴런을 모델링하고 "뇌 인식이 어떻게 작동하는지" 탐구하기 시작했습니다. 나중에 모든 사람들은 동물의 신경계 시뮬레이션이 인공 신경 네트워크로 구축되어야 한다는 것을 발견했으며 연구가 점점 더 복잡해졌습니다.

두 번의 추운 겨울이 지나고 모두가 신경망의 한계를 발견했으며 일부 사람들은 여전히 이러한 과제를 해결해야 한다고 주장하고 있습니다.

이후 데이터 컴퓨팅 능력이 발달해 신경망 훈련이 가능해졌고, 점점 더 심층적인 네트워크가 발전하기 시작했고, 그 성능도 점점 좋아졌습니다.

그러나 가장 큰 문제가 있습니다.이러한 네트워크는 경험적으로 설계되었으며, 상자는 점점 더 커지고 있습니다. 사람들은 내부에서 무슨 일이 일어나고 있는지 모릅니다.

블랙박스에 무슨 문제가 있나요? 기술적인 관점에서도 경험디자인이 가능하고, 시행착오가 계속될 수 있습니다. 그러나 비용이 많이 들고, 주기가 길고, 결과를 통제하기 어렵습니다. 또한:

세상에는 누구도 설명할 수 없는 중요한 현상이 있고, 많은 사람들이 어둠 속에 갇혀 있는 한, 그것은 패닉을 조성할 것입니다.

그럼 블랙박스는 어떻게 열까요? Ma Yi 교수는 원래 질문인 '왜 공부하는가?'로 돌아갈 것을 제안했습니다. 생명체는 왜 진화할 수 있는가?

그는 특히 계산을 통해 실현할 수 있는 것에 대해 이야기해야 한다고 강조했습니다.

추상적 인 것에 대해 이야기하지 마십시오. 이것은 모든 사람에게이 문제를 계산하고 실행하는 방법에 대해 이야기해야합니다.

그럼 무엇을 배워야 할까요?

마 이 교수는 예측 가능하고 규칙적인 것을 배워야 한다고 믿습니다.

예를 들어 펜을 손에 쥐고 놓으면 무슨 일이 일어날지 모두가 알고, 빠르게 움직이면 잡을 수 있다. 이것은 뉴턴 이전에도 알려져 있었습니다. 사람과 동물은 외부 세계에 대한 좋은 모델을 갖고 있는 것 같습니다.

그리고 수학에서는예측 가능한 정보는 고차원 공간의 데이터의 저차원 구조에 균일하게 반영됩니다.。

그렇다면 통합 계산 메커니즘은 무엇입니까? 이 교수는 이렇게 답했다.비슷한 것은 서로 모이고, 다른 종류는 서로 반발한다., 본질은 그렇게 간단합니다.

어떤 일이 잘 이루어졌는지 어떻게 측정하나요? 압축하는 이유는 무엇입니까?

그는 아래와 같이 예를 들었다. 예를 들어 세상은 무작위이고 알려진 것이 없으며 모든 일이 일어날 수 있습니다. 파란색 공을 대신 사용하면 다음 순간에 모든 파란색 공이 발생할 수 있습니다.

하지만 이런 일들 중 하나가 일어났다는 것을 기억하고 싶다면 공간 전체를 인코딩해서 코드를 주어야 하고 녹색 공이 있는 영역만 일어날 수 있고 파란색 공은 훨씬 줄어들 것이다.

일이 일어날 영역이 점점 더 작아진다는 것을 알게 되면, 우리는 세상에 대해 점점 더 적게 알게 됩니다. 이것이 1940년대 정보 이론이 확립한 것입니다.

이러한 녹색 영역을 더 잘 찾으려면 뇌에서 해당 영역을 더 잘 구성해야 합니다. 그래서 우리의 뇌는 이런 현상과 저차원 구조를 조직화하고 있는 것입니다.

이것이 어떻게 계산적으로 달성될 수 있습니까?

Ma Yi 교수는 모든 딥 네트워크가 실제로 이런 일을 하고 있다고 말했습니다. 현재 Transformer와 마찬가지로 이미지를 분할하고 분류하여 이를 수행합니다.

실제로 신경망의 각 계층은데이터 압축。

여기서 수학은 매우 중요한 역할을 합니다. 최적화하려는 내용과 이를 최적화하는 방법을 엄격하게 측정해야 합니다. 이 두 가지 작업을 수행한 후에는 얻은 연산자가 찾은 것과 동일하다는 것을 알게 될 것입니다. 현재 경험이 매우 유사합니다.
Transformer, ResNet, CNN 등 모두 다른 방식으로 이 작업을 수행합니다. 그리고 그것이 무엇을 하는지는 통계적으로나 기하학적으로 완전히 설명될 수 있습니다.

하지만최적화의 최적해 자체가 올바른 해법이 아닐 수도 있습니다. , 압축 과정에서 중요한 정보가 손실될 수 있습니다. 기존 정보 차원이 양호하다는 것을 어떻게 증명할 수 있을까요? 환각이 발생하지 않는다는 것을 어떻게 증명할 수 있나요?

학습의 기본으로 돌아가서, 우리는 왜 이런 것들을 기억해야 할까요?거기 있기 위해서야뇌는 물리적 세계를 시뮬레이션하고,물리적 공간에서 더 나은 성능을 발휘하려면예측하다。

나중에 Ma Yi는 정렬의 개념을 언급했습니다.

그래서 정렬은 사람과 정렬하는 것이 아니라 정렬이 바로 이것입니다.모델은 학습한 내용에 맞춰 조정됩니다.

내부와 외부 모두에서 자동 인코딩을 학습하는 것만으로는 충분하지 않습니다. 자연의 동물은 외부 세계의 물리적 모델을 어떻게 학습합니까?

관찰 내용과 일치하는 한 끊임없이 자신의 관찰 내용을 사용하여 외부 세계를 예측하십시오.일관된 , 그게 다야. 여기에는 폐쇄 루프 개념이 포함됩니다.

살아있는 생명체가 있는 한, 지능을 지닌 생명체가 있는 한, 그것들은 모두 폐쇄 루프입니다.

마 이 교수는 우리가 아직 진정한 지능과는 거리가 멀다고 지적했습니다.

지능이란 무엇입니까? 사람들은 종종 지식과 지능을 혼동합니다. 지식이 있으면 시스템에도 지능이 있습니까? 지능형 시스템은 자기 개선과 자체 지식 증대를 위한 기반을 갖추어야 합니다.

마지막으로 마 이 교수는 결론을 내렸다.

역사를 되돌아보면 1940년대에는 모두가 기계가 동물을 모방하기를 원했지만 1950년대 튜링은 한 가지, 즉 기계가 인간처럼 생각할 수 있는지 여부를 제안했습니다. 1956년 다트머스 회의에서 한 무리의 사람들이 함께 앉아 있었고 그들의 목적은 무엇인가를 하는 것이었습니다.인간과 동물을 구별하는 독특한 지능：추상능력, 상징적 연산, 논리적 추론, 인과분석기다리다.

이것이 1956년에 그들이 인공 지능을 정의한 것입니다. 나중에 이 사람들은 기본적으로 Turing Award를 수상했습니다. 그러니 미래에 튜링상을 받고 싶다면 대중을 따르거나 뭔가 독특한 것을 선택해야 할까요...

돌이켜보면 지난 10년 동안 우리는 무엇을 해왔는가?

현재 '인공지능'은 이미지 인식, 이미지 생성, 텍스트 생성, 압축 및 노이즈 제거, 강화 학습 등을 하고 있다고 마 이 교수는 믿고 있다.기본적으로 우리가 하는 일은 동물 수준입니다., 다음 토큰 및 다음 프레임 이미지 예측을 포함합니다.

나중에 작업하는 사람이 없었던 것은 아닙니다. 그러나 주류 대형 모델은 아닙니다.

돈이 충분히 투입되고, 데이터가 충분히 투입되면 많은 모델의 성능은 계속해서 발전하겠지만 오랫동안 이론이 없으면 시각 장애인이 그림을 그리듯 문제가 발생할 것이라고 설명했다. 코끼리 밖으로.

Ma Yi 교수는 자신의 개인적인 여정을 공유함으로써 젊은이들에게 영감을 줄 수 있기를 바란다고 말했습니다.

원칙만 갖추면 대담하게 설계할 수 있고, 더 이상 다음 세대가 겉으로 보기에 좋아 보이는 네트워크를 발명할 때까지 기다릴 필요 없이 함께 사용할 수 있습니다. 그렇다면 당신의 기회는 어디에 있습니까?

라운드테이블 포럼에서 “인공지능의 다음 단계는 무엇인가?”라는 질문에 다른 AI 전문가들이 어떻게 답변했는지 살펴보겠습니다.

인공지능의 다음 단계는 무엇인가?

대형 모델에는 "패러다임" 변화가 필요합니다

왕립 공학 아카데미, 유럽 과학 아카데미, 홍콩 공학 과학 아카데미 회원, 홍콩 과학 기술 대학교 수석 부총장궈 이케내 생각에 우리는 지금 매우 흥미로운 순간에 있다고 생각합니다.

스케일링 법칙이 널리 받아들여지기 때문에 백모델 전쟁은 점차 자원 전쟁을 형성해 왔습니다.이제 Transformer 모델을 만든 후 해결해야 할 일은 두 가지만 하면 될 것 같습니다.큰 컴퓨팅 성능그리고빅 데이터문제.

그러나 그의 의견으로는 그렇지 않습니다.현재 AI의 발전은 여전히 많은 문제에 직면해 있습니다.제한된 컴퓨팅 성능과 무한한 수요문제.

이런 경우 대형 모델을 어떻게 구축해야 할까요? Guo 학자는 몇 가지 실천을 통해 자신의 생각을 공유했습니다.

먼저 궈 교수는 컴퓨팅 파워의 한계 속에서 보다 경제적인 MOE의 활용을 언급했다.혼합 전문가 모델또한 매우 좋은 결과를 얻을 수도 있습니다.

또한 기억해야 할 것을 기억하고, 잊어야 할 것을 잊어버리고, 필요할 때 잊어버린 것을 기억할 수 있도록 훈련 후 새로운 데이터로 모델을 지속적으로 개선하는 방법도 어려운 질문입니다.

Guo 학자는 "데이터가 모두 소모되었습니다"라는 업계의 일부 주장에 동의하지 않습니다. 데이터를 생성하는 모델.

다음으로, 모든 모델을 처음부터 학습할 필요는 없습니다.지식 임베딩 기본 모델에 들어갑니다. 이 분야에서도 해야 할 일이 많습니다.

컴퓨팅 성능 외에도 알고리즘에는 또 다른 문제가 있습니다.기계 지능의 배양과 인간 지능 자체의 양성에는 두 가지 극성이 있습니다.。

Guo 학자는 대형 모델을 훈련할 때 더 중요한 문제는 앞쪽이 아니라 뒤쪽에 있다고 믿습니다.

아래 그림과 같이 대형 모델의 진화 경로는 자기 학습 > 간접 지식 > 가치 > 상식 순인 반면, 인간 교육의 육성 경로는 그 반대이다.

이 때문에 궈 학자는 “추상적 능력도, 주관적 가치도, 감정적 지식도 없는” 오늘날의 대형 모델 검색 패러다임에서 벗어나야 한다고 믿습니다.

인간의 언어는 내용뿐만 아니라 정보뿐만 아니라 인간의 본성과 정보의 에너지도 포함한다는 것을 우리는 모두 알고 있습니다. 이는 우리의 향후 연구를 위한 중요한 방향이다.

요약하자면, 인공 지능의 다음 단계에 대해 Guo 학자는 개발에 세 가지 단계가 있다고 믿습니다.

첫 번째 단계는 진정성을 기반으로 하고, 두 번째 단계는 가치를 기반으로 하며, 기계는 자신의 관점을 표현하고 주관적인 가치를 형성할 수 있어야 하며, 이 관점은 환경에 따라 바뀔 수 있습니다. 단계 가치가 있어야만 새로움이 무엇인지 이해할 수 있고, 새로움이 있어야만 창조할 수 있다.

이 모델을 만들 때 소위 환상은 문제가 되지 않습니다. 왜냐하면 환상은 패러다임 모델의 문제일 뿐이기 때문입니다. 환상이 없으면 소설을 쓸 수 없습니다. 일관성만 유지하면 되고 진정성은 필요하지 않으므로 가치만 반영하면 됩니다. 따라서 실제로는 큰 모델의 발전이 필요합니다. 패러다임의 변화가 필요합니다.

대형 모델 개발에는 '슈퍼 제품'이 부족하다

JD.com 부사장, 워싱턴 대학교 겸임 교수 및 박사 지도교수허 샤오동AI는 다음 단계에서 세 가지 문제에 직면할 것으로 여겨진다.

우선 그는 대형 모델 개발이 어떤 의미에서는 정체기에 접어들었다고 본다.

데이터와 컴퓨팅 파워의 한계로 인해 단순히 규모만을 기반으로 개선을 한다면 한계에 도달할 수 있으며, 컴퓨팅 리소스의 부담은 점점 더 커지게 됩니다. 최근의 가격전쟁(가격표)을 따라가면 대형 모델이 창출하는 경제적 이익으로는 전기요금도 감당하지 못할 가능성이 높으니 당연히 지속 불가능하다.

둘째, 허 교수는 모델 자체의 규모 성장에 비해 전체 상용화 속도가 뒤처져 결국 이것이 문제가 될 것이라고 본다.

특히 이렇게 큰 규모를 보면 더 이상 단순히 과학적 문제가 아니라 공학적 문제도 됩니다. 예를 들어 매개변수가 1조 수준에 도달하면 통화 데이터도 10조 토큰 수준에 도달하게 됩니다. 그렇다면 그것이 가져오는 사회적 가치에 대한 질문이 제기되어야 합니다.

이에 대해 허 교수는 현재 다음과 같이 생각한다.슈퍼앱과 슈퍼제품의 부족, 투자의 가치를 진정으로 반영할 수 있습니다.

세 번째 질문은 상대적으로 구체적인 질문이다.큰 모델 환상。

대형 모델 위에 AI 산업 건물을 구축하려면 기본 대형 모델 환상에 대한 요구 사항이 매우 높아야 합니다. 기본 대형 모델의 오류율이 매우 높다면, 그 위에 더 많은 상용 응용 프로그램을 겹칠 수 있다고 상상하기 어렵습니다.
심각한 산업 응용 분야에서는 이러한 환상을 해결해야 합니다.

허 교수는 환상의 제한 하에서 다음 단계는 모델의 일반화와 상호작용성을 확장하는 방법을 고민하는 것이라고 믿습니다.다중 모드불가피한 선택입니다.

대형 모델은 "능력 경계"에 대한 인식이 부족합니다.

Lenovo 그룹의 CTO, 유럽과학원의 외국 학자루이 용그는 산업적 관점에서 AI의 다음 단계에 대한 자신의 견해를 밝혔습니다.

그는 산업적 관점에서 볼 때 모델이 어떻게 구현되는지가 더 중요하다고 말했습니다. 구현 측면에서 Rui Yong 박사는 주로 두 가지 사항에 대해 이야기했습니다.

큰 모델을 갖는 것만으로는 충분하지 않습니다. 개발해야 합니다.대리인
대규모 클라우드 측정 모델을 갖는 것만으로는 충분하지 않습니다.하이브리드 프레임워크

구체적으로 루이용 박사는 먼저 일부 연구를 나열하고 대형 모델의 한계가 점점 더 분명해지고 있음을 지적했습니다. 예를 들어, 처음에 언급한 "13.8과 13.11 중 어느 것이 더 큰가요?"라는 질문은 모델이 실제로 문제를 이해하지 못하고 있음을 나타냅니다.

그의 견해로는 현재의 대형 모델은 고차원 의미 공간에서 볼 수 있는 대규모 단편화된 정보만을 연결하는 것만으로는 대규모 생성 모델을 생성하기 위한 대규모 네트워크를 구축하는 것만으로는 충분하지 않습니다. 지능형 에이전트 개발.

루이용 박사는 특히 대형 모델을 강조했다.능력 경계질문.

오늘날의 대형 모델은 실제로 기능의 경계가 어디에 있는지 모릅니다.
대형 모델은 왜 환각을 느끼고 심각한 말도 안되는 말을 하는가? 사실 우리를 속이려는 것이 아니라 자신이 무엇을 알고 있는지, 무엇을 모르고 있는지 모르고 있는 부분입니다. 이는 매우 중요한 문제이므로 에이전트가 경계를 알 수 있도록 하는 것이 첫 번째 단계라고 생각합니다. 그것의 능력.

또한 Rui Yong 박사는 AI 구현에 지능만으로는 충분하지 않으며 클라우드의 대규모 공개 모델을 기업을 위해 민영화해야 한다고 말했습니다. 데이터 중심과 지식 중심이 하이브리드 AI 모델을 형성하고, 소규모 모델도 많은 상황에서 매우 유용합니다. 개인의 취향을 알 수 있는 개인 중심의 모델도 있습니다.

전적으로 클라우드 테스트만을 기반으로 한 대형 모델이 아니라, 하이브리드 엔드에지와 클라우드를 결합한 대형 모델이 될 것입니다.

소식