소식

딥러닝 과학자 Yann LeCun과 함께 빅 모델을 생각하는 방법에 대해 이야기해보겠습니다.

2024-08-09

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

지난 2년 동안 제너레이티브 AI 기술이 발전하고 대중화되면서 대형 모델을 활용해 콘텐츠를 생성하는 것이 점차 일반 사람들의 삶의 일부가 되었습니다. 이 과정은 쉬워 보입니다. 명령을 입력하면 대형 모델이 직접 답변을 출력할 수 있습니다. 그러나 그 이면에는 모델의 내부 작동 원리와 모델 의사결정 과정을 아는 사람이 아무도 없습니다. 이것이 바로 잘 알려진 '머신러닝 블랙박스'입니다.

블랙박스 모델의 설명 불가능성 때문에 AI의 보안에 대한 의문이 항상 제기되어 왔습니다. 이에 과학자들은 업계에서 '화이트박스 연구'라 불리는 대형 모델의 블랙박스 개봉을 시도하기 시작했다. 한편, 화이트박스 모델에 대한 연구는 사람들이 블랙박스 모델을 이해하는 데 도움을 주어 대형 모델을 최적화하고 효율성을 향상시킬 수 있습니다. 반면, 화이트박스 연구의 목표는 공학과목인 AI를 과학에 접목시키는 것이다.

이번에 초대한Chen Yubei, 조교수, 캘리포니아 대학교 데이비스 전기 및 컴퓨터 공학과, 그의 연구 내용은 "화이트 박스 모델"과 관련이 있습니다. 또한 그는 Turing Award 수상자이자 Meta 수석 과학자인 Yann LeCun의 박사후 연구원이기도 합니다. 이번 에피소드에서는 화이트박스 모델의 최신 연구 진행 상황에 대해 이야기를 나눴고, AI 산업의 부침을 겪으면서도 순수하게 집중하고 있는 친분이 있는 과학자 얀 르쿤(Yann LeCun)에 대해서도 이야기를 나눴습니다. .

Violet Dashi의 그래픽. Nadia와 Simple Line의 일러스트

다음은 인터뷰를 선정한 것입니다

01 인간의 두뇌와 대형 모델

"실리콘 밸리 101":먼저 현재 진행 중인 '화이트박스 모델' 연구에 대해 간단히 소개해주시겠어요? 연구 중에 GPT의 입력 및 출력 문제를 설명하는 방법을 발견하셨나요?

첸 유베이:사실 이 방향의 상대적으로 큰 목표는 순수 경험적 주제에서 과학적인 주제로 딥러닝을 촉진하거나 공학을 과학으로 전환하는 것입니다. 현재 공학은 상대적으로 빠르게 발전하는 반면 과학은 상대적으로 느리기 때문입니다. 예전에는 언어 표현을 학습할 수 있는 단어 임베딩(Word Embedding)이라는 모델이 있었습니다.

사실 그 당시 다들 의문이 있었습니다. 우리의 업무 성과가 향상됐는데, 이 성과가 개선된 원인은 정확히 무엇이었을까요? 그래서 우리는 그 당시에 이러한 단어의 표현을 열어보려고 하는 아주 초기 작업을 수행했습니다. 열어보면 매우 흥미로운 현상을 발견할 수 있습니다.

예를 들어 사과라는 단어를 사용하면 그 안에 몇 가지 메타 의미를 찾을 수 있습니다. 예를 들어 의미 중 하나는 과일을 나타내고 다른 하나는 디저트를 나타낼 수 있습니다. 물론 Apple 제품을 의미합니다. 따라서 단어를 따라 이러한 메타 의미를 찾을 수 있으며 이 방법을 대규모 언어 모델로 확장할 수 있습니다.

즉, 대규모 언어 모델 학습을 마친 후 모델에서 일부 메타 의미를 찾은 다음 열어 볼 수 있습니다. 실제로 많은 레이어가 있는 대규모 언어 모델을 찾을 수 있습니다.

기본 수준에서는 "단어 명확성"이라는 현상이 나타납니다. 예를 들어 영어에 "left"라는 단어가 있습니다. 이 단어는 왼쪽으로 향하는 것과 떠나는 것의 과거형을 모두 의미합니다. 그러면 그 구체적인 의미는 문맥 전후의 문맥에 따라 달라지므로 큰 언어 모델은 단어 명확성을 완성합니다. 처음 몇 레이어에서.

중간에 당신은 몇 가지 새로운 의미가 나타나는 것을 발견하게 될 것입니다. 그 당시 우리는 "단위 변환"이라는 매우 흥미로운 것을 생각했습니다. 킬로미터를 마일로 변환하고 온도를 화씨에서 섭씨로 변환하면 이 의미가 활성화됩니다. 이 메타 의미와 유사한 수준이 많이 있습니다.

더 올라가면 이런 메타의미들에도 패턴이 있다는 걸 알 수 있는데, 이 패턴은 문맥에 반복되는 의미가 나타날 때 활성화되는 방식을 이용해 큰 언어를 펼칠 수 있다는 것이다. .모델 및 소규모 언어 모델. 물론 이러한 아이디어는 완전히 새로운 것은 아닙니다. 실제로 시각적 모델에 역사가 있습니다. 예를 들어 Matthew Zeiler 이후에도 비슷한 연구가 있었습니다.

"실리콘 밸리 101":이러한 사고방식에 따라, 그 일부가 어떻게 작동하는지 안다면 엔지니어링 관점에서 이를 많이 최적화할 수 있을까요?

첸 유베이:네, 아주 좋은 질문입니다. 어떤 이론이든 상대적으로 높은 요구 사항은 실습을 안내할 수 있다는 것입니다. 따라서 언어 모델과 어휘 표현을 수행할 때 당시 우리가 가졌던 목표 중 하나는 이를 이해한 후 이러한 모델을 최적화할 수 있다는 것이었습니다. ? 실제로 가능합니다.

예를 들어, 대규모 언어 모델에서 메타 의미를 발견하면 특정 메타 의미를 볼 때 활성화되며, 이 뉴런은 판별자로 사용될 수 있으며 이 무언가를 사용하여 일부 작업을 수행할 수 있습니다. 이러한 메타 의미를 변경함으로써 모델의 편향이 조정됩니다.

내가 그것을 발견하면 조정할 수 있다는 것입니다. 최근 Anthropic은 유사한 작업을 수행했습니다. 즉, 언어 모델에 존재할 수 있는 몇 가지 편견을 찾은 다음 모델을 보다 공정하고 안전하게 만들기 위해 일부 변경을 수행했습니다.

"실리콘 밸리 101":OpenAI도 작년에 GPT4를 사용하여 GPT2를 설명하고 GPT2가 어떻게 작동하는지 알아보는 연구를 수행한 것을 봤습니다. 예를 들어, 그들은 1800년경 미국 역사에 대한 모든 질문에 대답할 때 5행의 12번째 뉴런이 활성화되고, 중국어에 대답할 때 12행의 13번째 뉴런이 활성화된다는 것을 발견했습니다.

중국어에 대답하는 뉴런이 꺼지면 중국어를 이해하는 능력이 크게 떨어진다. 그러나 예를 들어 뉴런이 더 뒤쪽에 있을수록 뉴런이 약 2000개 행에 도달하면 전체적인 신뢰도가 많이 떨어집니다. 그들의 연구를 눈치채셨나요?

OpenAI 연구: GPT4가 GPT2 뉴런을 설명하게 하세요

첸 유베이:나는 아직 이 글을 읽지 않았지만 이 방법은 뇌의 뉴런을 작동시키는 것과 매우 유사합니다. 지금 신경망이 있다면 이 네트워크는 완전히 분산되기보다는 국소적인 존재를 찾을 수 있다는 의미이며, 그런 다음 일부 작업을 수행할 수 있습니다. 예를 들어 특정 뉴런이 절단되면 그 능력의 특정 부분이 상대적으로 상실된다고 생각할 수 있습니다.
사실 사람에게도 마찬가지인데, 예를 들어 간질이 있는 사람은 수술 후 언어 장애가 있을 수 있지만, 이는 인체의 다른 기능에는 영향을 미치지 않습니다.

"실리콘 밸리 101":OpenAI와 Anthropic은 현재 대형 모델의 해석 가능성을 연구하고 있습니다. 귀하의 연구와 그들의 연구 사이에 차이점이 있습니까?

첸 유베이:사실, 화이트박스 모델에 대한 연구가 앞으로 성공할지는 아무도 모릅니다. 이전에 지도교수와도 논의한 적이 있지만, 이 문제가 시도해 볼 가치가 있다는 점에는 모두가 동의합니다. 다시 이 분야로 돌아오면 우리 ​​연구가 하고자 하는 것은 실제로 인공지능을 이해하고, 우리의 이해를 통해 그것을 재구성하고, 근본적으로 다른 것을 구축하는 것입니다. 그래서 관찰, 즉 해석가능성은 단지 수단일 뿐이라고 생각합니다.
즉, 이 모델을 열든, 이런 실험을 하든, 모델에 약간의 조정을 하든, 이해하는 과정에서 시도하는 방법 중 일부라고 생각하는데, 화이트박스에서 정말 중요한 것은 무엇일까요? 모델은 여전히 ​​신호 자체로 돌아가야 합니다. 인간의 두뇌이든 기계이든 학습의 본질은 신호에 기초하기 때문입니다.

우리 세상에는 몇 가지 구조가 있고 그들도 이러한 구조를 통해 배워야 하며 그들이 배우는 것은 바로 이러한 구조입니다. 그렇다면 이러한 구조 뒤에 숨은 법칙과 이를 표현하는 몇 가지 수학적 도구를 찾은 다음 이러한 것들을 재구성하여 다른 모델을 구축할 수 있을까요? 이것이 가능하다면 우리 시스템의 견고성, 보안성, 신뢰성 향상에 대한 기대를 불러일으킬 것이라고 생각합니다.
게다가 효율성도 높아질 것입니다. 이는 증기기관이 처음 나온 이후 등장한 열역학 이론과 다소 비슷해 과학을 소재로 한 완전한 장인으로의 변신을 뒷받침한다. 마찬가지로 오늘날 우리는 처음으로 데이터에 대한 증기 엔진을 사용하는 것처럼 보입니다. 이전에는 데이터를 이해하지 못했지만 마침내 데이터의 패턴을 캡처하는 일부 AI 알고리즘을 개발할 수 있습니다.

"실리콘 밸리 101":따라서 에너지 효율이 더 높아질 것입니다.

첸 유베이:에너지 보존과 관련해 몇 가지 흥미로운 예를 들어보겠습니다. 첫 번째 요점은 확실히 에너지 절약입니다. 왜냐하면 뇌는 전력 소비량이 20와트인 전구와 같고, 현재 슈퍼컴퓨터의 전력은 100만 와트 이상일 수 있기 때문입니다.

두 번째 요점은 자연계의 다양한 유기체의 진화를 살펴보면 실제로 그들의 진화 효율이 매우 높다는 것이다. 예를 들어 점핑 스파이더(Jumping Spider)라는 특별한 종류의 거미가 있습니다. 이 거미는 뉴런이 몇 백만 개에 불과하지만 먹이를 잡기 위해 매우 복잡한 3차원 그룹 라인을 만들 수 있습니다.

점프 거미, 위키피디아

저에게 가장 흥미로운 것 중 하나는 사람들이 데이터를 얼마나 효율적으로 사용하는지입니다. 현재 Llama3의 데이터 양은 약 13조 개의 토큰에 도달했습니다. 그런데 사람이 평생 동안 얼마나 많은 데이터를 받을 수 있을까요? 초당 30프레임의 이미지를 얻을 수 있고, 하루 획득 시간은 12시간이고, 20년 동안 한다면 아마도 100억 개의 토큰을 얻을 수 있을 것이고, 텍스트도 거의 같은 양을 얻을 수 있을 것입니다. 데이터는 대형 모델의 데이터보다 훨씬 작습니다.
그렇다면 문제는 사람들이 어떻게 그렇게 적은 양의 데이터를 통해 그렇게 강력한 일반화 능력을 얻을 수 있느냐는 것입니다. 이것이 제가 인간 두뇌의 효율성에 대해 놀랍다고 생각하는 점입니다.

"실리콘 밸리 101":큰 모델이 어떻게 작동하는지 알아내는 것이나 인간 두뇌가 어떻게 작동하는지 알아내는 것이 더 어렵나요? 나에게는 어려운 것 같다.

첸 유베이:둘 다 나름대로의 어려움이 있지만 접근 방식은 비슷합니다. 그것이 인간의 뇌이든 대규모 언어 모델이든, 우리는 그것을 관찰하고 그것이 무엇에 반응하는지 보려고 노력합니다.

이 방법은 실제로 1980년대 노벨 생리학상을 수상한 데이비드 휴벨(David Hubel)과 토르스텐 와이젤(Torsten Weisel)의 시각 피질 연구에서 확인할 수 있다. 그들은 Simple Cell을 발견하고 사람들이 무언가를 볼 때 이러한 뉴런이 어떻게 자극을 생성하는지 연구하고, 전혀 반응하지 않을 때와 매우 흥분할 때 등 다양한 것을 볼 때 뉴런의 다양한 반응 상태를 분석하려고 했습니다. , 그리고 그들은 뉴런의 수용 영역을 발견했습니다.

1981년 노벨 생리의학상 수상자 DH Hubel과 TN Wiesel

오늘날 대규모 언어 모델에 대한 연구는 실제로 유사합니다. 우리는 다양한 입력을 찾은 다음 모델 내부의 어떤 뉴런이 어떤 입력에 관심이 있는지 이해합니다. 그러나 여전히 차이점이 있습니다.

첫 번째 차이점은 플러그인 전극을 통해서든 뇌-컴퓨터 인터페이스 방법을 통해서든 인간의 뇌를 관찰하는 데에는 많은 한계가 있다는 것입니다. 그러나 대규모 언어 모델의 자연스러운 장점은 관찰 방법이 더 이상 제한되지 않는다는 것입니다. 더 나은 방법을 사용하면 장기적으로 분석할 수 있으며, 몇 가지 차등적 방법을 통해 모델을 추가로 분석할 수도 있습니다.

그러나 단점은 대형 모델의 능력이 뇌의 능력보다 훨씬 낮다는 점, 특히 대형 언어 모델은 언어로만 세상을 배우기 때문에 사람처럼 세상에 대한 이해가 불완전하다는 점이다. 언어를 제외한 다른 감각.

대조적으로, 뇌는 더 많은 차원의 신호를 처리할 수 있고 감각도 매우 풍부합니다. 때때로 우리는 '언어가 완전한가?'라는 질문에 대해 생각합니다. 다른 감각의 지원이 없다면 언어의 모든 개념은 독립적으로 존재할 수 있습니까? 아니면 진정한 이해를 얻으려면 다른 감각의 지원이 필요합니까?

예를 들어, "냉장고"라는 객체가 현실 세계의 뜨겁고 차가운 느낌과 관련이 없고, 문이 있다는 등의 통계적 특성만을 기술한다면 이 설명은 불완전할 것입니다.

"실리콘 밸리 101":그래서 사실 뇌에 비하면 현재의 대형 모델은 아직 부족한 부분이 많습니다. 하지만 우리가 그것을 분해하고 연구할 수 있기 때문에 그것이 여전히 뇌의 비밀을 밝히려는 야심보다 조금 더 나아간다고 생각할 것입니다.

첸 유베이:대규모 언어 모델을 이해하는 데 어려운 점은 이를 관찰하는 방법이 많고 더 많이 이해할 수 있다는 것입니다. 예를 들어 두 대의 기계가 있는데, 한 기계는 완전히 관찰 가능하고 다른 기계는 부분적으로 관찰 가능하다면, 직관적으로 말하면 완전히 관찰 가능한 기계가 더 이해하기 쉽습니다. 물론 이 기계에는 없는 기능도 있기 때문에 인간의 두뇌에 대한 이해를 어느 정도 대체할 수는 없습니다.

"실리콘 밸리 101":유베이가 이전에 신경과학을 공부했다는 사실도 청중들에게 소개하겠습니다. 그렇다면 귀하의 주제 배경이 AI 분야의 현재 연구에 도움이 될 것이라고 생각하십니까? 서로 배울 수 있는 학제간 연구 방법이 있나요?

첸 유베이:사실 저는 컴퓨터 신경과학을 전공하지 않습니다. 제가 학사학위를 취득한 곳은 칭화대학교 전자공학과, 버클리대학교 전기공학 및 컴퓨터공학과였습니다. 그런데 당시 제가 다니던 연구소는 신경과학 연구소였기 때문에 멘토는 해당 분야의 전문가였습니다. 전산 신경과학.

방금 질문에 관해서는 신경과학에 대한 연구가 나에게 영감을 주는 경우가 많다고 생각합니다. 자연의 이러한 시스템과 그 기능이 무엇인지 알면 다른 아이디어를 갖고 당면한 문제를 다시 볼 수 있기 때문입니다.

예를 들어, 그림은 2차원 입력 신호이고, 그림의 픽셀은 수평 및 수직이며 격자를 형성합니다. 그러나 인간의 망막은 이렇게 보이지 않습니다. 우선, 서로 다른 인식을 갖는 수용체 유형입니다. 이 수용체는 매우 조밀하게 배열되어 있지만 그다지 규칙적이지는 않습니다. 중앙이 매우 조밀하고 양쪽으로 갈수록 희박해집니다.
이러한 입력 신호에 직면하면 우선 우리가 익숙한 컨볼루션 신경망은 유효하지 않습니다. 왜냐하면 여기서는 컨볼루션조차 정의되지 않기 때문입니다. 따라서 생물학적 시스템에서 이러한 상황을 볼 때 우리는 소위 컨볼루션이 어디서 오는지 다시 생각해 볼 것입니다.

"실리콘 밸리 101":그럼 방법을 다시 생각해보시겠어요? 꼭 이런 식으로 구현해야 하나요?

첸 유베이:예. 어느 날 잠에서 깨어났는데 모든 뉴런이 손상되었다고 가정해 보세요. 아직도 세상을 이해할 수 있나요? 당신이 보는 것은 더 이상 그림이 아니며 이를 수행하기 위해 더 이상 컨볼루션 신경망을 사용할 수 없기 때문에 어떤 방법이 필요합니까?

비록 이 문제를 완전히 해결하지는 못했지만 실제로는 한발 더 나아갔습니다. 내 모든 뉴런이 중단되었지만, 즉 수용체 이미지의 픽셀이 중단되었지만 인접한 픽셀 사이에는 어떤 관계가 있습니다. 예를 들어, 이미지를 볼 때 한 픽셀이 빨간색이면 주변 픽셀도 빨간색일 가능성이 높다는 것을 알 수 있습니다. 그런 다음 이 관계를 통해 이 픽셀이 다시 친구를 찾을 수 있게 하고 비슷한 내용을 넣을 수 있습니다. 픽셀은 서로 어떤 관계로 자체 구성됩니다.

그러면 이때 대형 언어 모델에 Transformer와 같은 구조를 추가함으로써 이 이미지를 다시 표현할 수 있는데, 이 표현의 성능은 꽤 좋습니다. 이는 자연에서 영감을 받은 현재 엔지니어링 관행 중 일부를 재검토하고 몇 가지 다른 방법을 제안하는 예입니다.

블랙박스 모델, AIGC 이미지 출처: Firefly

"실리콘 밸리 101":대규모 AI 모델에 대한 연구와 인간 뇌 신경과학 사이에는 여전히 많은 유사점이 있습니다. 자신의 관점에서 교차 분야 연구를 진행하면서 당신과 협력할 신경과학자가 있을까요?

첸 유베이:실제로 자연 신호의 일부 구조를 이해하고 뇌의 뉴런이 어떻게 작동하는지에 관심을 갖고 두 가지를 결합하여 신호의 최소한의 표현을 제안하려는 많은 신경과학자, 통계학자 및 수학자들이 있습니다.

예를 들어, 뇌에서 현상을 발견할 수 있습니다. 즉, 뉴런은 많지만 동시에 작동하는 뉴런은 실제로 매우 희박합니다. 예를 들어, 100만 개의 뉴런이 있다면 몇 천 개만 작동할 수 있습니다.

이를 바탕으로 초창기 신경과학 분야에서는 희소 코딩 방법이 제안되었습니다. 즉, 이 상위 레벨 신호에서 어떤 희소 저차원 표현을 찾을 수 있을까요? 이 아이디어를 기반으로 구축된 알고리즘은 뇌에서 관찰하는 뉴런의 표현과 매우 유사하므로 이는 초기 계산 신경과학에서 감독되지 않은 성공입니다.

현재 우리 연구분야 전체를 자연신호통계(Natural Signal Statistics)라고 부르는데, 그 목표는 신호의 몇 가지 기본 구조를 밝히는 것이지만, 대형 모델에 비해 신경과학을 융합한 연구의 발전은 쉽지 않습니다. 모델과 같은 경우 실제로는 상대적으로 느립니다. 사실 문제가 복잡하기 때문일 수도 있지만, 이 방향으로 투자하는 사람이 상대적으로 적기 때문일 수도 있다고 생각합니다.

02 블랙박스 모델의 '현재 추월'

"실리콘 밸리 101":간단히 말해서, 지금은 화이트박스 모델을 연구하는 사람이 너무 적습니다. 하지만 대형 모델이 등장하기 전에는 전통적인 머신러닝도 화이트박스 모델 연구의 범주에 속할까요?

첸 유베이:나는 이 진술이 올바른 것으로 간주될 수 있다고 생각합니다. 이러한 이전 기계 학습 모델은 비교적 간단하고 비교적 이해하기 쉽습니다.

"실리콘 밸리 101":그렇다면 현재 블랙박스 모델 전체에 대한 연구 진행이 왜 구석에 있는 화이트박스 모델을 훨씬 더 빠르게 추월할 수 있을까?

첸 유베이:이 질문을 받으면 우리는 대답하기 전에 잠시 긴장하게 됩니다.

"실리콘 밸리 101":왜 긴장하나요?


첸 유베이:이 질문은 매우 예리하기 때문에 실제로는 화이트박스 모델인지, 아니면 포기해야 하는 이해할 수 있는 경로인지 묻는 것입니다. 우리 시대부터는 더 이상 AI 분야에서 과학을 공부하지 않고, 미래에는 모든 것이 실증적인 주제가 될까요? 하지만 아직은 그렇게 생각하지 않습니다.
방금 질문으로 돌아가서, 이 과정에서 정확히 무슨 일이 일어났나요? 첫 번째 포인트는 블랙박스 모델이 짐이 적다는 점이다. 이 방법이 작동하도록 하고 이 방법을 설명 가능하게 하려면 요구 사항이 너무 많습니다. 그러면 블랙박스 모델은 먼저 작동하도록 하기 위해 한 가지를 포기합니다.

두 번째 이유는 모두가 상대적으로 무시하는 이유인데, 추세에 반하는 데이터의 증가나 규모의 확장이다.

Richard Sutton은 이전에 블로그를 작성하면서 지난 20년 동안 깨지지 않은 것이 있다고 언급했습니다. 즉, 더 많은 데이터와 더 많은 계산이 있을 때 Go가 이 패턴을 모두 찾을 수 있는 알고리즘을 찾아야 한다는 것입니다. 데이터. 나는 이것이 블랙박스 모델, 즉 현재의 경험적 진전에서 매우 중요한 부분이라고 생각합니다.

즉, 더 큰 데이터, 더 나은 데이터, 더 많은 계산, 더 큰 모델이 있으면 더 많은 것을 배울 수 있습니다. 하지만 이 문제로 다시 돌아오면 모두가 화이트 박스 모델을 추구합니다. 즉 모델 자체가 단순해야 한다는 것입니다.

Black Box ML과 White Box ML의 비교

"실리콘 밸리 101":화이트박스 모델은 왜 단순해야 합니까? 너무 복잡하면 디자인하기 어렵다는 뜻인가요?
첸 유베이:예. 사실 이론을 할 때는 간결한 것만 이해할 수 있고, 계속해서 단순화시켜야 합니다. 그러나 사람들이 모델의 단순성을 추구하면 계속해서 지나치게 단순화할 수도 있습니다. 이러한 과도한 단순화가 발생하면 모델은 데이터의 모양을 완전히 설명할 수 없습니다. 그러면 데이터가 더 많아지면 모델을 계속 사용할 수 없으며 기능이 제한됩니다.

그래서 이 부분도 과거 화이트박스 모델이나 심플 모델을 공부할 때 다들 겪었던 어려움이라고 생각합니다. 작업 시 모델을 휴대해야 할 뿐만 아니라 해석 가능한 수하물도 필요하며, 이 모든 것을 가져오면 이 수하물이 너무 무겁다는 것을 알게 될 것입니다. 지나치게 단순화하면 오류가 발생하고 오류가 누적되어 나중에 더 이상 나아갈 수 없게 됩니다.
"실리콘 밸리 101":하지만 이제 블랙박스 모델의 급속한 발전으로 우리는 이를 다시 해결하려고 노력하기 시작했습니다.
첸 유베이:예. 그리고 이번에 문제를 해결하면 이 문제를 다시 논의할 수도 있습니다. 즉, 모델을 해당 수준까지 완전히 단순화할 필요는 없지만 여전히 세상의 더 복잡한 측면을 나타낼 수 있습니다.

그러나 동시에 우리는 그것이 상대적으로 이해하기 쉽기를 바랍니다. 따라서 언젠가 화이트박스 모델을 달성할 수 있다면 그 이전의 모든 시도는 지나친 단순화라고 생각하지만 모든 단순화가 앞으로 나아갈 수 있기를 바랍니다. 완전히 흰색 상자 모델을 만들 필요도 없지만 큰 모델만큼 강력하지는 않지만 상대적으로 간단한 흰색 상자 모델을 만들 수도 있습니다.
학습의 본질을 이해하는 것은 도움이 되며, 이러한 이해를 통해 대형 모델 학습의 효율성을 향상시킬 수 있습니다. 나는 이전에 Yann과 효율성 문제에 대해 여러 번 논의한 적이 있는데, 이는 이에 대한 이론이 개발되면 엔지니어링 실무의 효율성을 몇 배나 높일 수 있다는 것을 의미합니다.
"실리콘 밸리 101":Yann의 관점은 화이트 박스 모델 개발을 선호한다는 것인가요, 아니면 블랙 박스 모델 개발을 선호한다는 것인가요?
첸 유베이:Yann은 공학 기술로 유명한 과학자이기 때문에 그의 시도 중 상당수는 여전히 이 일을 먼저 수행하는 것과 관련이 있습니다. 하지만 Yann은 화이트박스 모델 연구도 지지합니다. 그와 논의하는 동안 그는 이 길이 탐색할 가치가 있다고 느꼈지만 지나치게 야심찬 목표를 달성할 수 있을지는 몰랐지만 누군가는 해야 했습니다.
"실리콘 밸리 101":블랙박스 모델은 공학적인 문제인 것처럼 느껴지고, 화이트박스 모델은 과학적으로 설명해야 할 것 같습니다. 비록 상용화 관점에서 볼 때 입출력 비율은 그다지 높지 않지만, 이것이 최종적으로 구현된다면 AI의 보안과 향후 상용화 측면에서 여전히 큰 가치가 있을 것입니다.
첸 유베이:상용화에 관해서는 실제로 AI 기초 연구를 하는 모든 사람들의 원래 의도는 원래 의도대로 응용을 갖는 것이 아니라 지능 문제에 대한 비교적 순수한 호기심에 의해 추진되는 것이라고 생각합니다. 그러면 몇 가지 패턴이 발견될 수 있습니다. 그리고 엔지니어링 실무에 도움이 될 수도 있습니다. 연구 자체는 특정 응용 프로그램에 맞게 설계되지 않았습니다.

또한 우리가 이 화이트박스 모델과 궁극적인 효율성을 추구할 때, 우리가 지금 구축하고 있는 대규모 언어 모델이 이런 규모나 확장의 법칙을 통해서만 달성될 수 있는지에 대한 질문도 던질 것입니다. 그냥 걸어가도 괜찮아? 나는 그렇게 생각하지 않습니다. 인간은 이렇게 많은 양의 데이터를 받아들일 수 없기 때문에, 적은 양의 데이터로 어떻게 상대적으로 높은 일반화 능력을 얻을 수 있는가도 우리가 연구하고 있는 중요한 문제입니다.


"실리콘 밸리 101":이는 블랙박스 모델 학자들이 연구하는 문제이기도 하다. 현재 화이트박스 모델을 연구하는 학자와 학교는 어디입니까?

첸 유베이:현재 AI에는 크게 세 가지 세력이 있습니다. 첫 번째 힘은 최근 Anthropic과 OpenAI가 수행한 작업과 같이 이러한 엔지니어링 모델을 연구하고 이를 시각화하는 과정에서 생성된 경험의 일부입니다.

인류학 연구: 신경망에서 해석 가능한 특징 추출 클로드 3 소네트

두 번째는 인간의 뇌를 이해하고 일부 기억이 존재할 수 있는 방식을 찾으려는 컴퓨터 신경과학입니다.

또 다른 사고 방식은 수학적, 통계적 관점에서 신호의 기본 구조를 살펴보는 것입니다. 물론 이 세 가지 유형 사이에는 많은 교차가 있을 것입니다.
"실리콘 밸리 101":당신은 어떤 장르에 속해 있나요?
첸 유베이:사실 나는 세 그룹 모두로부터 어느 정도 영향을 받았습니다. 내가 버클리에 있을 때 나의 멘토이자 선생님인 Ma Yi는 모두 신경과학과 수리통계학부에 속해 있었고 Yann은 공학 분야에서 더 많은 교육을 받았습니다. 또한 이 세 가지 방법은 결국 우리를 같은 방향으로 이끌기 때문에 받아들여질 수 있다고 생각합니다.
"실리콘 밸리 101":어느 방향이 같은가요? 이제 단계별 결과가 나오나요?
첸 유베이:마지막 단계는 모델을 이해하는 것입니다. 이전에는 2개 또는 3개의 레이어로 일부 네트워크를 만들 수 있는지 여부와 각 레이어에서 학습하는 내용을 확인할 수 있는 등 몇 가지 단계적 결과가 있었습니다. 마지막으로, 숫자를 표현하는 것이 실제로 가능하다는 것을 알았습니다. 숫자를 표현하고 싶다면 모든 획을 배우고 유사한 획을 함께 연결한 다음 레이어별로 다음 단계의 표현을 구성할 수 있습니다. , 드디어 번호를 찾았습니다.
"실리콘 밸리 101":귀하의 현재 연구가 블랙박스 모델의 최적화로 이어질 것입니까?

첸 유베이:첫째, 이에 대한 이해가 깊어질수록 블랙박스 모델을 최적화하여 더욱 효율적으로 만들 수 있을 것입니다. 두 번째는 서로 다른 블랙박스 모델을 통합해 불필요한 낭비를 많이 줄이는 것입니다. 동시에 내 연구실에는 지각뿐만 아니라 제어도 연구하는 또 다른 주요 업무가 있습니다.

이러한 대규모 언어 모델에 세계와 상호 작용할 수 있는 기능을 부여하면 제어 시스템에서도 동일한 일반화 기능을 얻을 수 있습니까? 그것은 무엇을 의미합니까? 즉, 지각체계에서는 사과, 배, 그리고 복숭아를 배웠다는 것을 알게 될 것입니다. 이전에 사과와 배에 대한 비슷한 개념을 배웠기 때문에 복숭아의 개념을 빨리 배울 수 있습니다.

그렇다면 제어 분야에서도 비슷한 성능을 얻을 수 있을까요? 예를 들어, 로봇이 앞으로 걷고 제자리에서 점프하는 법을 배운다면 앞으로 점프하면서 동시에 걷는 로봇으로 빠르게 변신할 수 있을까요?


'실리콘밸리 101': 결론을 묻는다면 화이트박스 모델 연구를 통해 대형 모델 연산의 비밀을 풀 수 있다고 생각하시나요? 현재 진행률 표시줄은 어디에 있나요?
첸 유베이:사실 우리 중 누구도 이 진행률 표시줄이 얼마나 긴지 알지 못합니다. 실제로는 이 목표와는 거리가 멀다고 생각합니다. 이는 반드시 선형적인 발전은 아니며, 양자 도약에 더 가깝습니다. 새로운 이해가 나오면 즉시 큰 진전을 이룰 수 있습니다.

화이트박스 ChatGPT를 만들고 싶다면 아직 멀었다고 생각합니다. 하지만 당시 AlexNet의 기능을 재현할 수 있는 꽤 훌륭하고 완전히 이해하기 쉬운 모델을 만들 수 있을 수도 있습니다. 이 모델은 Imagenet 인식을 할 수 있습니다. 각 단계를 어떻게 수행하는지, 단계별로 어떻게 고양이와 개로 변하는지, 그리고 생성된 이 고양이와 개의 구조는 무엇인지 이해할 수 있습니다.

ImageNet에서 사용되는 WordNet의 예

"실리콘 밸리 101":ImageNet 인식은 화이트박스인가요, 블랙박스인가요?

첸 유베이:우리는 그것이 어떻게 작동하는지 아직 발견하지 못했습니다. Matthew Zeiler와 Rob Fergus 및 많은 연구원들이 수행한 초기 시각화 중 일부를 통해 어느 정도 이해가 되었지만, 우리가 모든 단계를 이해하고 여전히 잘 작동할 수 있는 모델을 만들 수 있는 사람은 아무도 없었습니다.
"실리콘 밸리 101":그래서 어쩌면 화이트박스 모델의 목표는 연출되는 것일 수도 있습니다. 예를 들어, 첫 번째 단계는 ImageNet의 작동 방식을 설명하는 것입니다. 미스터리가 해결된 후에는 GPT 4를 사용하여 GPT 2의 작동 방식을 설명한 다음 더 큰 모델의 작동 방식을 천천히 설명할 수 있습니다. 모델이 작동합니다.
첸 유베이:예. 이 과정은 아직 꽤 오랜 시간이 걸리고, 이 방향으로 투자하려면 더 많은 사람이 필요하다고 생각합니다. 현재 대부분의 직업이 엔지니어링 분야에 있기 때문입니다. 학교에 넣으면 실제로 독창적인 아이디어가 있어야 합니다. 규모에 따라 가겠다, 나도 규모에 따라 갈 것이라고 말하는 대신 모든 사람이 규모에 맞춰지고 결국에는 구별이 없으며 모두에 달려 있습니다. 누가 어떤 기계가 최고이고 누가 가장 많은 데이터를 가지고 있나요?

03 내가 얀 르쿤에 대해 아는 것

"실리콘 밸리 101":다음으로 박사후 연구원 Yann LeCun과 논의하고 싶습니다. 먼저 Yann LeCun을 소개하겠습니다. 그의 중국 이름은 Yang Likun입니다. 그는 기계 학습, 컴퓨터 비전, 모바일 로봇 및 컴퓨터 신경 과학 분야에서 많은 공헌을 했습니다. ". "인터넷의 아버지".

르쿤은 현재 메타(Meta)의 수석 AI 과학자이자 뉴욕대학교 교수로 재직 중이다. 그는 1980년대에 현대 컴퓨터 비전의 기초가 된 기술인 CNN(컨볼루션 신경망)을 개척했습니다. LeCun은 Geoffrey Hinton 및 Yoshua Bengio와 함께 딥 러닝 분야의 선구적인 업적으로 2018 Turing Award를 수상했습니다.
기술 지식이 없는 친구들에게 Yann의 주요 과학 연구 결과와 그가 왜 그렇게 유명한지 설명해 주실 수 있나요?

첸 유베이:Yann은 1980년대부터 신경망 AI 분야를 연구해 왔으며 여러 학파의 쇠퇴와 고점을 경험했지만 항상 딥러닝 네트워크를 고집하며 어둠을 헤쳐온 사람입니다.

예를 들어 2000년에는 딥러닝 관련 논문을 출판하는 것이 매우 어려웠습니다. 얼마나 어려웠나요? 기사에 Neural 또는 Network라는 단어가 있으면 거부될 확률이 매우 높습니다. Neural Network가 있으면 기본적으로 거부됩니다.

그래서 당시 그들에게는 암울한 순간이었고 자금 조달에도 영향을 미쳤습니다. 하지만 그들은 이 어둠 속에서도 포기하지 않고 마침내 이 어둠 속에서 걸어나왔습니다. 오늘날 신경심층망은 세상을 변화시켰습니다. 이것이 실제로 그들이 과학 분야의 선구자로서 튜링상을 수상한 기억이라고 생각합니다. 초기.

얀 르쿤

"실리콘 밸리 101":박사후 과정생이었을 때 그의 그룹을 선택한 이유는 무엇입니까?
첸 유베이:이것은 다소 흥미로운 모험입니다. 사실 당시에는 너무 혼란스러워서 그 학기를 졸업할 생각조차 하지 못했어요. 박사과정에서 화이트박스 모델을 만들어보자고 결심하고 성능은 AlexNet과 비슷해야 하는데 아직 준비가 안 됐거든요.

연구를 계속하고 싶다면 박사후 연구원은 누구에게 가야 할까요? 당시 회의 중이었는데, 행사장에서 얀을 만났습니다. 저는 사실 특별히 추측을 좋아하는 사람은 아닙니다. 모두가 Yann 박사를 박사후 연구원으로 찾고 싶어할 것입니다. 그래서 그를 만났을 때 저는 주로 제 작업에 대한 그의 견해와 AI의 미래에 대한 몇 가지 관점에 대해 이야기하고 싶었습니다. .

그 결과, 회의에서의 대화는 매우 좋았습니다. 제가 연구 방향과 제가 생각한 몇 가지 문제에 대해서도 신경망 관점에서 생각해 주셨습니다. 그래서 그 당시 그는 나에게 박사후 연구원 지원에 관심이 있는지 물었습니다. 당연히 지원했기 때문에 우리는 즉시 성공했습니다.


"실리콘 밸리 101":그는 어떤 멘토인가요? 학생들에게 탐구할 수 있는 많은 여유 공간을 제공하고 모든 사람과 토론하는 데 많은 도움이 됩니다.
첸 유베이:첫 번째두 번째 상황은 그에게 더 이상 가능하지 않습니다. 많은 사람들이 그의 시간을 필요로 하고 그가 모든 사람에게 할당할 수 있는 시간은 상대적으로 그리 많지 않습니다.

그는 실제로 내 박사 학위 지도교수와 비슷합니다. 그는 몇 가지 일반적인 방향에서 매우 자유분방하지만, 내 생각에 그들 사이의 또 다른 유사점은 그들이 믿는 것에 끈질긴다는 것입니다. 즉, 그는 당신에게 방향과 목표를 제시할 수 있습니다. 그러나 보트로 가든 자동차로 가든 상관없이 그는 이러한 세부 사항을 통제하지 않습니다.
사실, 그의 일반적인 방향은 수년 동안 변하지 않았습니다. 그것은 항상 자기 지도 학습이었습니다. 자기지도 학습은 실제로 두 부분으로 나누어집니다. 한 부분은 인식을 기반으로 한 자기 감독입니다. 또 더 중요한 부분은 어떻게 자기주도를 구체화해서 하느냐, 혹은 우리가 지금 세계 모델을 하고 있는데, 그게 그가 믿는 방향이다.

사실 이 이름을 붙인 이유는 다비드 하(David Ha)와 위르겐 슈미트후버(Jürgen Schmidhuber)가 쓴 월드 모델(World Model)이라는 기사를 읽고 이름이 꽤 멋지다고 생각했기 때문입니다.

자율 지능을 위한 시스템 아키텍처, Mata AI

"실리콘 밸리 101":Yann의 연구 방향이 OpenAI나 Anthropic의 연구 방향과 다르다고 생각하시나요?
첸 유베이:제가 정말 다르게 말하고 싶다면 Yann이 원하는 것은 모델이 여러 가지 특성을 가져야 한다는 것입니다. 첫 번째는 구체화할 수 있는 능력을 갖는 것인데, 이는 단순한 데이터 더미가 아니라 결국 모델 자체가 세상을 탐색할 수 있다는 것을 의미합니다.
"실리콘 밸리 101":차이점은 무엇입니까? 모두가 마침내 그러한 결과를 얻기를 희망하는 것 같습니다.
첸 유베이:실행이 다릅니다. 예를 들어 OpenAI는 확장의 법칙이라고 생각합니다. 이는 더 많고 더 나은 데이터, 더 많은 계산 및 더 큰 모델을 의미합니다. 그러나 Yann은 우리가 진정으로 인간과 유사한 지능을 얻으려면 정확히 무엇이 필요하다고 생각합니까? 데이터를 쌓아두는 것만으로는 부족하다고 느낄 것이다.
"실리콘 밸리 101":따라서 Yann은 실제로 블랙박스와 화이트박스 연구를 합친 것과 같습니다.

첸 유베이:내 생각에 Yann은 이것이 과학으로 발전할 수 있는지 여부에 대해 그다지 신경 쓰지 않는 것 같습니다. 현재 그의 견해는 주로 경험적이며 공학적인 것 같습니다. 그는 이 시스템이 실제로 더 잘 작동할 수 있기를 바라고 있습니다. 아주 잘해요.

"실리콘 밸리 101":OpenAI가 스케일링 법칙이 좋은 결과를 얻을 수 있음을 입증했을 때 Yann의 과학적 연구 방법과 사고 방식이 바뀌었다고 생각하시나요? 아니면 그는 여전히 원래의 노선을 고수하고 있습니까?

첸 유베이:사실 그는 스케일링법에 반대하지 않는다. 이 문제에 대해 모두가 갈등을 갖고 있다고는 생각하지 않는다. 실제 가능한 차이점은 OpenAI의 많은 작업이 실제로 여전히 제품 지향적이고 엔지니어링 분야에서 극도로 실행되지만 Yann은 실제로 보다 과학적인 형태로 연구를 수행하고 있다는 것입니다.

그는 이러한 문제에 대해 생각할 때 실제로 제품과 관련이 많지 않습니다. 그는 지능을 달성하는 방법에 대해서만 생각합니다. 왜냐하면 그는 이 분야에 너무 오랫동안 종사했고, 8년 이상 이 분야에 깊이 관여했기 때문에 이러한 문제를 볼 때 그는 여전히 자신의 이상을 고수할 수도 있습니다.

"실리콘 밸리 101":지능이 자율적으로 학습하도록 하는 것이 Yann 연구의 첫 번째 특징입니다.

첸 유베이:Yann이 항상 믿어온 JEPA(Joint Embedding Predictive Architecture)라는 것도 있습니다. 즉, 모델은 물론 독립적으로 학습할 수 있는 능력이 있어야 하지만, 이보다 더 중요한 것은 모델이 데이터를 학습할 때 몇 가지 더 높은 수준의 규칙도 학습할 수 있다는 것입니다.

실제로 현재 두 그룹이 있는데, 한 그룹은 학습을 통해 데이터를 완전히 재구성하기를 희망하는데 이는 압축 아이디어라고 볼 수 있습니다. 그러나 Yann은 이 이미지 재구성에 너무 많은 세부 사항이 포함되어 있기 때문에 이 이미지로 완전히 돌아가기를 원하지 않습니다. 세부 사항은 시스템에 대한 판단을 내릴 때 가장 중요한 정보가 아닙니다.

"실리콘 밸리 101":이 점이 버클리의 멘토인 마이(Ma Yi)와 다른 점인가요?

첸 유베이:사실 이런 관점에서는 둘 사이에 본질적인 갈등은 없지만 표현하는 방식은 다르다. 마 선생님은 이 세상의 법칙이 단순하다고 생각합니다. Yann은 이러한 세부 사항이 실제로 하위 작업이나 일부 판단에 해롭다고 생각하므로 이러한 높은 수준의 법칙을 찾는 것이 필요합니다.

실제로 상위 수준 규칙은 일반적으로 간단하기 때문에 둘은 동일합니다. 마 선생님은 흔히 모든 것이 압축이라고 말씀하십니다. Yann의 관점에서 보면 압축은 사실 맞지만 데이터의 계층 구조는 실제로 다릅니다.

현실 세계는 복잡하기 때문에 현실 세계의 세부 사항을 파헤쳐 보면 실제로 많은 것들이 저수준 구조라는 것을 알 수 있습니다. 데이터에는 구조가 있고 구조가 있는 것은 모두 노이즈와의 편차를 반영합니다. 즉, 구조가 전혀 없는 것은 노이즈이고 노이즈가 남는 것은 구조가 있음을 의미합니다.

우리는 이러한 구조를 배울 예정이지만 구조에는 다양한 수준이 있습니다. 그러나 한 단계 더 큰 규모로 올라가면 구조는 실제로 더 이상 중요하지 않다는 것을 알게 될 것입니다.

그래서 Yann의 관점은 압축이 맞지만 신호의 모든 구조를 학습하고 점점 더 높은 구조를 학습하려면 이러한 계층적 학습이 필요하다는 것입니다. 그러나 가장 발전된 구조는 전체 압축에서 큰 부분을 차지하지 못하는 경우가 많으며, 낮은 레벨에 있는 것들이 많고, 노이즈와 같은 정보의 양이 가장 많기 때문에 최적화 과정에서 손실될 수 있으며, 더 높이 올라갈수록 그러한 구조물을 발견하기가 더 어려워집니다.

왜? 최적화된 손실 함수는 목적 함수이므로 이 규칙을 찾든 찾지 못하든 손실에 거의 영향을 미치지 않을 수 있습니다. 제 생각에 가장 중요한 것은 이 두 가지 점입니다. 하나는 월드 모델이고, 다른 하나는 계층적 표현입니다.

NYU에서 연설하는 Yann LeCun

"실리콘 밸리 101":어떤 특성이 특히 인상적이라고 생각하시나요?

첸 유베이:특히 나에게 깊은 인상을 준 것은 아마도 그들이 일을 하는 집중력과 순수함이었을 것이다.

한번은 얀과 점심을 먹은 적이 있는데, 그 사람은 네가 어렸을 때 원했던 건 다 갖고 있는데 이제 시간이 별로 없어서 남은 시간은 자기가 진정으로 믿는 일을 하는 데만 쓴다고 하더군요.

그런 과학자들과 함께 일하다 보면 그들의 기질에 영향을 받을 수도 있기 때문에 그들이 지금 있는 위치와 그들이 갖고 있는 것에 도달하기 전에도 그들의 관점에서 세상을 조금 볼 수 있을 것입니다.

그래서 선택을 하거나 일을 할 때 현재의 위치를 ​​뛰어넘을 수도 있고, 언젠가 나도 그 사람처럼 모든 것을 갖게 된다면 어떻게 할지 생각할 수도 있다.

"실리콘 밸리 101":그가 당신의 결정을 바꾸었나요?

첸 유베이:네, 선택을 많이 할 때 이런 생각을 하게 될 것 같아요. 박사 과정 첫날에 지도교수님이 나에게 두 가지 말을 해준 것을 기억합니다.

하나는 그가 나에게 많은 기사를 출판할 것을 요구하지 않는다는 것이지만, 내가 출판할 수 있는 종류의 기사가 시간을 여행할 수 있어서 20년 뒤에 이 기사를 읽어도 여전히 신선할 수 있기를 바랍니다. 왜냐하면 많은 일이 뚜렷한 시대적 감각을 가지고 있기 때문입니다. 그러나 어떤 정말 심오한 생각은 여전히 ​​수백 년 동안 지속될 수 있으며 이것은 매우 높은 목표이며 당신이 대략 이쯤 되면 달성할 수 있을 것입니다. 퇴사합니다. 하지만 그것은 영혼의 고문, 즉 시간과 공존할 수 있는 일을 계속할 수 있는지 여부를 불러일으킨다.

두 번째는 학자가 자신만의 태도를 갖기를 바라는 것입니다. a, b 또는 당신이 뭔가를 할 수 있다고 생각하면 그것을해서는 안됩니다. 즉, 당신이 이 일을 할 때 당신은 이 일이 당신을 필요로 하는 것이 아니라 당신에게 이 일을 필요로 한다는 것을 알게 될 것이다. 이것은 투기적 사고방식이다. 이것은 실제로 내가 본 그들에게서 보이는 기질과 비슷하다. 즉, 그들은 군중을 따르기를 원하지 않고, 자신만의 태도를 갖고 자신만의 목소리를 찾기를 희망한다.

그래서 나는 연구 방향을 선택할 때 내가 하고 있는 연구가 사변적인 것인지 아니면 실제 주류인지를 수시로 판단하게 된다.

그들, 특히 Yann의 가장 큰 장점은 거의 절박한 이 시기를 이겨내고 새벽을 맞이할 수 있다는 점이라고 생각합니다. 가장 어두운 순간을 겪어본 적이 없는 사람들은 충분히 안정되지 못할 수도 있습니다. 가장 어두운 순간을 겪을 때, 이 짧은 시간을 당신의 비전과 끈기로 극복하고 이것이 옳다는 것을 증명해 보세요. 매우 흥미로운 기질.

"실리콘 밸리 101":당신이 동의하지 않는 Yann의 과학적 견해가 있습니까?

첸 유베이:때때로 그는 무뚝뚝할 것이다. 예를 들어, 그는 최근 연구자라면 대규모 언어 모델을 연구해서는 안 된다고 말했습니다. 이 문장을 문자 그대로 받아들이면 저를 포함해 많은 사람들이 동의하지 않을 것입니다. 대규모 언어 모델에는 이해하고 연구할 가치가 있는 일부 구조가 있다고 느낄 수도 있습니다.

물론 Yann이 정말로 말하고 싶은 것은 제가 방금 언급한 것입니다. A와 B처럼 추측성 작업을 하지 마십시오. 연구자들이 끈기를 갖고 더 독창적인 기여를 찾을 수 있기를 바랍니다. 이렇게 말하면 사실 더 공감할 것 같아요. 하지만 빅 뷔로서 때로는 그의 말이 충격을 주고 많은 토론을 촉발할 때도 있습니다. 제가 매우 흥미롭게 생각하는 곳이에요.

"실리콘 밸리 101":Meta에서도 일하셨는데요. Yann이 Meta에 기여한 가장 큰 기여는 무엇이라고 생각하시나요?

첸 유베이:가장 먼저 해야 할 일은 Meta AI 구축을 돕는 것입니다. Mark는 Meta AI를 구축할 계획을 세웠을 때 처음으로 그를 발견했습니다. 게다가 그는 초기에 Bell Labs에서 일했기 때문에 당시 Bell Labs의 모습을 동경했기 때문에 그러한 실험실을 복제하려는 이상도 가지고 있었습니다. 메타에서. 그는 또한 이 개념을 고수하면서 Meta AI에서 매우 훌륭한 사람들을 모집하고 교육하여 이 분야에 큰 공헌을 하고 전체 분야의 발전을 촉진했습니다.

"실리콘 밸리 101":오픈소스는 그의 매우 중요한 기여로 간주되어야 한다고 생각합니다. 예를 들어 Meta Lama가 오픈소스 경로를 택한 이유는 Yarn의 전반적인 아이디어와 매우 일치해야 합니다.

첸 유베이:예, 그렇습니다. 오픈 소스는 실제로 Yann이 주장하는 것입니다. 하지만 Meta가 앞으로도 계속 오픈소스로 존재할지는 모르겠습니다. 결국 Meta도 경쟁에 직면하게 되겠지만, 이는 결국 Yann의 개념이라고 생각합니다. 실제로 전체 환경에 따라 달라질 수 있습니다.

"실리콘 밸리 101":이제 대형 모델에 대한 연구 전체가 과학자들에 의해 주도되어야 한다고 생각하시나요? 아니면 서서히 엔지니어링 중심의 것이 될 것인가?

첸 유베이:초기에는 공학 중심이 되었다고 생각합니다. 지난 2년 동안 가장 큰 진전은 프로젝트 실행에서 나온 것 같아요. 데이터의 질이 높아졌나요? 데이터가 늘어났나요? 유통이 풍부해졌나요? 계산을 병렬화할 수 있나요? 이 모든 것은 엔지니어링 분야의 매우 중요한 세부 사항으로 인해 발생합니다. 0에서 1까지의 개발에는 과학적 혁신이 필요하지만, 1에서 100까지의 개발에는 다양한 단계에서 이를 추진하기 위해 다양한 역할을 가진 사람들이 필요합니다.

"실리콘 밸리 101":이제 모두가 GPT 5를 기대하고 있습니다. GPT 5가 나온다면 과학적인 문제에 가까울까요, 아니면 공학적인 문제에 가까울까요?

첸 유베이:엔지니어링 분야에서는 갈 길이 멀다고 생각합니다. 스케일링 법칙은 아직 갈 길이 멀고, 데이터의 품질과 컴퓨팅 파워의 확장을 포함해 끝이 보이지 않는다고 생각할 수도 있습니다. 하지만 동시에, 우리가 지금 찾아낸 가장 강력한 방법이 스케일링 법칙이라 할지라도 그것만으로는 충분하지 않다고 생각합니다.

그럼 우리에게 또 무엇이 필요합니까? 인간과 마찬가지로 높은 효율성이 필요한 것 같습니다. 그러면 그러한 효율성을 어떻게 달성할 수 있을까요? 데이터에 의해 촉발될 수도 있지만 다른 것일 수도 있기 때문에 AGI로 이어지는 과정을 이야기한다면 0에서 1로 비교적 큰 변화가 있어야 한다고 생각합니다.

"실리콘 밸리 101":과학적 발전이 있더라도 공학에는 여전히 개선의 여지가 많습니다.