소식

li feifei의 최신 a16z 대화: 공간 지능은 가상 세계 생성에 적합할 뿐만 아니라 현실 세계와 통합될 수도 있습니다. ai 기술 발전은 상상할 수 없는 새로운 응용 시나리오를 가져올 것입니다.

2024-09-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

최근 li feifei는 a16z 파트너 martin casado 및 연구원 justin johnson과 함께 ai 분야의 역사, 현재 상황 및 향후 개발 방향에 대해 논의했습니다. 이 주제는 ai 기술의 모든 측면, 특히 생성 ai 및 공간 지능의 미래 잠재력을 다루었습니다.

li feifei는 생성 ai가 대학원 과정에서 이미 존재했지만 초기 기술은 아직 성숙되지 않았다고 강조했습니다. 딥 러닝과 컴퓨팅 성능의 비약으로 생성 ai는 최근 몇 년간 괄목할 만한 발전을 이루었으며 ai 분야의 핵심 혁신 중 하나가 되었습니다.

그녀는 또한 "공간 지능", 즉 3d 및 4d 공간에서 기계가 이해하고 상호 작용하는 능력에 초점을 맞춘 최신 기업가 프로젝트인 world labs를 소개했습니다.

그녀는 공간지능이 가상세계 생성에 적합할 뿐만 아니라 현실세계를 통합할 수 있어 증강현실(ar), 가상현실(vr), 로봇공학 분야에서 널리 활용되고 있다고 지적했다. 기술은 가상 세계 생성, 증강 현실, 물리적 세계와의 상호 작용을 포함하여 상상할 수 없는 새로운 응용 시나리오를 우리에게 가져올 것입니다.

다음은 이번 대화의 주요 내용입니다. 즐겨주세요~

마틴 카사도

지난 2년 동안 우리는 소비자급 ai 기업과 기술이 등장하는 것을 보아왔고 그 과정은 정말 엉망이었습니다. 그리고 당신은 이 분야에서 수십 년 동안 일해왔습니다. 따라서 이 과정에서 귀하가 이룩한 주요 기여와 통찰력에 대해 이야기할 수 있습니다.

페이페이 리

매우 흥미로운 시기이고, 돌이켜보면 ai는 흥미로운 시기를 맞이하고 있습니다. 저는 개인적으로 이 분야에 20년 넘게 종사해 왔습니다. 우리는 지난 ai 겨울을 지나 현대 ai의 탄생을 목격했습니다. 그런 다음 우리는 체스를 두는 것과 같이 가능한 것이 무엇인지 보여주는 딥 러닝의 등장을 보았습니다.

그런 다음 우리는 언어 모델과 같은 초기 가능성의 기술 및 산업 적용에서 더 깊은 발전을 보기 시작했습니다. 지금 내 생각엔 우리는 "캄브리아기 폭발"의 한가운데에 있는 것 같습니다.

어떤 의미에서는 이제 텍스트 외에도 픽셀, 비디오, 오디오 등이 ai 애플리케이션 및 모델과 결합되기 시작하고 있으므로 매우 흥미로운 시간입니다.

마틴 카사도

나는 두 사람을 오랫동안 알고 지냈고, 당신이 이 분야에서 매우 유명하기 때문에 많은 사람들이 당신을 알고 있습니다. 하지만 당신이 ai 분야에서 어떻게 시작했는지 모두가 아는 것은 아니기 때문에, 청중이 기본적인 이해를 할 수 있도록 당신의 배경을 간략하게 소개할 수 있을 것입니다.

저스틴 존슨

좋아요, 제가 ai에 처음 노출된 것은 학부 과정이 끝날 무렵이었습니다. 저는 caltech에서 수학과 컴퓨터 과학을 공부했는데 정말 즐거운 시간이었습니다. 그 기간 동안 home neck lee, andrew ng 등이 google brain에 발표한 매우 유명한 논문이 바로 딥러닝 개념이었습니다.

이 기술은 저를 놀라게 했습니다. 저는 이 비법을 처음 접했습니다. 강력한 범용 학습 알고리즘, 막대한 컴퓨팅 리소스, 대량의 데이터가 결합되면 마법 같은 일이 일어납니다. 2011년인가 2012년쯤에 이런 생각을 접했는데, 앞으로도 이런 일을 하게 될 것 같다는 생각이 그때 들었어요.

분명히 이 일을 하려면 대학원에 가야 했기 때문에 feifei가 스탠포드에 있다는 것을 알게 되었고 그녀는 이 분야를 깊이 있게 연구하는 세계에서 몇 안 되는 사람 중 한 명이었습니다. 기술이 초기 단계에서 성숙 단계로 나아가고 널리 채택되는 순간이었기 때문에 딥 러닝과 컴퓨터 비전에 대해 작업하기에 좋은 시간이었습니다.

그 기간 동안 우리는 언어 모델링의 시작을 보았고, 차별적인 컴퓨터 비전의 시작도 보았습니다. 그림에서 무슨 일이 일어나고 있는지 이해할 수 있었습니다. 이 기간 동안 오늘날 생성적 ai라고 부르는 초기 개발도 있었습니다. 이미지 생성, 텍스트 생성과 같은 알고리즘의 핵심 부분도 박사 과정에서 학계에서 해결했습니다.

그때마다 아침에 일어나면 arxiv를 열어서 최신 연구 결과를 확인하곤 했어요. 마치 크리스마스 선물을 열어보는 것 같았죠. 거의 매일 새로운 발견이 있었어요. 지난 2년 동안 전 세계도 ai 기술을 통해 매일 새로운 '크리스마스 선물'을 받고 있다는 사실을 깨닫기 시작했습니다. 하지만 이 분야에 10년 넘게 종사해 온 우리들에게는 이런 경험이 이미 있었습니다.

페이페이 리

분명히 나는 ​​저스틴보다 훨씬 나이가 많다. 저는 학부에서 물리학을 전공했기 때문에 물리학에서 ai 분야에 입학했습니다. 물리학은 세상의 풀리지 않는 미스터리와 같은 대담한 질문에 대해 생각하도록 가르치는 과목입니다. 물리학에서 이러한 문제는 원자 세계, 우주와 관련될 수 있지만 이번 교육을 통해 저는 또 다른 문제인 지능에 관심을 갖게 되었습니다. 그래서 저는 caltech에서 ai와 컴퓨터 신경과학 분야의 박사 과정을 밟았습니다. 저스틴과 저는 칼텍에서 겹치지는 않았지만 같은 모교를 공유했습니다.

저스틴 존슨

그리고 같은 멘토?

페이페이 리

예, 귀하의 학부 지도교수는 저의 박사 지도교수인 pietro perona이기도 했습니다. 내가 박사과정을 공부할 당시 ai는 대중의 눈에는 추운 겨울 한복판에 있었지만, 내 눈에는 그렇지 않았다. 이는 기계 학습과 생성 모델이 힘을 모으는 봄 전의 최대 절전 모드에 가깝습니다. 나는 나 자신을 머신러닝 분야의 '원주민'이라고 생각하고, 저스틴 세대는 딥러닝 분야의 '원주민'이라고 생각한다.

머신러닝은 딥러닝의 전신인데, 당시 우리는 다양한 모델을 실험했습니다. 그러나 박사 과정이 끝날 무렵, 그리고 조교수로 재직하는 동안 제 학생들과 연구실은 당시 현장에서 많이 고려하지 않았던 ai 추진 일반화의 간과된 요소, 즉 데이터가 있다는 것을 깨달았습니다. 우리는 베이지안 모델과 같은 복잡한 모델에 초점을 맞추었고 데이터가 모델을 구동하도록 하는 것의 중요성을 간과했습니다.

이것이 우리가 imagenet에 투자하는 이유 중 하나입니다. 당시에는 모든 분야의 데이터 세트 규모가 매우 작았습니다. 컴퓨터 비전과 자연어 처리를 위한 표준 데이터 세트는 수천, 수만 개의 데이터였지만, 우리는 인터넷으로 확장해야 한다는 것을 깨달았습니다. . 다행스럽게도 인터넷 시대도 떠오르고 있었고, 우리가 스탠포드에 온 것도 이때였다.

마틴 카사도

imagenet과 같이 우리가 많이 이야기하는 시대는 생성 ai 분야에서 컴퓨터 비전을 대중화하고 실행 가능하게 만드는 데 있어 분명히 중요한 시대입니다. 우리는 일반적으로 두 가지 주요 혁신을 언급합니다. 하나는 "주의 메커니즘"인 transformer paper이고, 다른 하나는 "안정적인 확산"에 대해 덜 언급됩니다.

학계(특히 google)의 두 가지 알고리즘 혁신을 이런 식으로 이해하는 것이 합리적입니까? 아니면 의도적인 과정에 가깝나요? 아니면 자주 언급되지 않지만 우리를 오늘날의 위치로 이끈 또 다른 주요 혁신이 있었습니까?

저스틴 존슨

네, 가장 큰 혁신은 컴퓨팅 성능이라고 생각합니다. ai에 대한 이야기가 컴퓨팅 파워에 대한 이야기이기도 한 경우가 많다는 것은 알지만, 자주 언급됨에도 불구하고 그 영향력이 과소평가되어 있다고 생각합니다.

지난 10년 동안 우리가 본 컴퓨팅 성능의 성장은 엄청났습니다. 컴퓨터 비전에서 딥러닝의 획기적인 순간으로 간주된 첫 번째 논문은 2012년 논문인 alexnet이었습니다. 이 논문에서는 심층 신경망이 imagenet 챌린지에서 좋은 성능을 발휘하여 당시 다른 알고리즘보다 훨씬 뛰어난 성능을 보였습니다.

alexnet과 비교하면 대학원에서 접할 수 있는 알고리즘은 미미합니다. alexnet은 6천만 개의 매개변수를 가진 심층 신경망입니다. gtx 580 그래픽 카드 2개에서 6일 동안 훈련되었습니다. gtx 580은 당시 가장 강력한 소비자 그래픽 카드였으며 2010년에 출시되었습니다.

나는 어젯밤에 일부 데이터를 찾고 있었고 이것을 더 큰 맥락에 적용하고 싶었습니다. nvidia의 최신 그래픽 카드는 gb200입니다. gtx 580과 gb200의 컴퓨팅 성능 차이를 짐작할 수 있습니까?

숫자가 수천개라서 어젯밤에 계산을 했어요. 예를 들어, 2주간의 훈련 동안 6일은 gtx 580 2대에서 실행되었습니다. 연장하면 gb200에서 5분 이내에 실행될 수 있습니다.

이런 식으로 생각해 보면 정말 좋은 주장이 있습니다. imagenet challenge에 관한 2012년 alexnet 논문은 실제로 매우 고전적인 모델, 즉 컨볼루셔널 신경망 모델입니다.

사실 이 개념은 이미 1980년대에 나타났습니다. 제가 대학원생이었을 때 처음 공부했던 논문이 6~7개 층의 네트워크 구조로 비슷했던 기억이 납니다. alexnet과 컨벌루션 신경망 모델의 거의 유일한 차이점은 gpu입니다. 즉, 두 개의 gpu와 엄청난 양의 데이터를 사용합니다.

그래서 제가 말하려는 것은 이제 대부분의 사람들이 소위 "쓴 교훈"에 익숙하다는 것입니다. 즉, 알고리즘을 개발한다면 기존 컴퓨팅 자원을 활용할 수 있는지 확인하십시오. 시간이 지나면 사용 가능합니다. 따라서 지속적으로 개선되는 시스템이 필요합니다.

반면에, 새로운 데이터 소스가 실제로 딥 러닝의 잠금을 해제한다는 또 다른 설득력 있는 주장이 있는 것 같습니다. imagenet이 좋은 예입니다. 많은 사람들이 transformer 모델에서 self-attention 메커니즘이 중요하다고 생각하지만, 사람이 라벨링한 데이터를 활용하는 방법이라고도 말할 것입니다.

인간이 문장 구조에 대한 주석을 제공하기 때문에 clip 모델을 살펴보면 실제로 인간이 인터넷에서 alt 태그를 사용하여 이미지에 태그를 지정할 수 있습니다. 따라서 이것은 실제로 컴퓨팅에 관한 이야기가 아니라 데이터에 관한 이야기입니다. 그러면 답은 둘 다인가요, 아니면 한쪽에 더 가깝나요? 나는 그것이 둘 다라고 생각하지만 또 다른 매우 중요한 지적을 하셨습니다.

마틴 카사도

저는 실제로 알고리즘 분야에는 서로 다른 두 시대가 있다고 생각합니다. imagenet 시대는 지도 학습의 시대입니다. 오늘날 우리는 많은 데이터를 보유하고 있지만 데이터 자체만으로는 어떻게 훈련할 수 있는지 모릅니다.

imagenet 및 기타 동시 데이터세트에 대한 기대는 우리가 많은 이미지를 갖게 될 것이지만 각 이미지에 주석을 달려면 사람이 필요하다는 것이었습니다. 우리가 훈련한 모든 데이터는 인간 주석자가 하나씩 검토하고 주석을 달았습니다.

알고리즘의 가장 큰 혁신은 이제 사람의 주석에 의존하지 않는 데이터를 학습하는 방법을 알게 되었다는 것입니다. ai 배경 지식이 없는 보통 사람에게는 인간 데이터를 교육하는 경우 인간이 실제로 주석을 수행한 것처럼 보이지만 주석이 명시적이지는 않습니다.

저스틴 존슨

그렇습니다. 철학적으로 이것은 매우 중요한 질문입니다. 하지만 이는 이미지의 영역보다는 언어의 영역에서 더 사실입니다. 네, 하지만 저는 이것이 중요한 차이점이라고 생각합니다. clip은 실제로 사람이 주석을 달았습니다. self-attention 메커니즘은 인간이 사물 간의 관계를 이해하고 이러한 관계를 통해 배우는 것이라고 생각합니다.

따라서 여전히 사람이 주석을 달지만 주석은 명시적이기보다는 암시적입니다. 차이점은 지도 학습 시대에는 학습 작업이 더욱 제한된다는 점입니다. 우리는 발견하고 싶은 개념의 존재론을 고안해야 합니다.

예를 들어, imagenet에서 fei-fei li와 그녀의 학생들은 imagenet 챌린지의 1000개 카테고리가 무엇인지 생각하는 데 많은 시간을 보냈습니다. 동시에 표적 탐지에 사용되는 coco 데이터 세트와 같은 다른 데이터 세트에서도 어떤 80개의 카테고리를 넣을지 결정하는 데 많은 고민을 했습니다.

마틴 카사도

이제 생성 ai에 대해 이야기해 보겠습니다. 제가 박사 과정을 밟을 때, 여러분이 오기 전에 저는 andrew ng의 기계 학습 과정을 수강했고, daphne koller의 매우 복잡한 베이지안 과정을 수강했습니다. 저에게는 매우 복잡했습니다.

그 당시에는 대부분 예측 모델링이었습니다. 당신이 이 모든 비전의 잠금을 해제한 것을 기억합니다. 하지만 생성 ai는 지난 4년 정도 밖에 사용되지 않았습니다. 이것은 나에게 완전히 다른 분야입니다. 더 이상 물체를 식별하지 않고, 무언가를 예측하지 않으며, 새로운 것을 생성하고 있습니다.

그러면 제너레이티브 ai를 가능하게 하는 핵심 요소는 무엇인지, 이전과 어떻게 다른지, 지속적으로 발전하는 부분인지, 아니면 완전히 새로운 분야인지, 다르게 보아야 하는지 이야기해볼 수 있을 것 같습니다.

페이페이 리

제가 대학원 시절부터 생성 모델이 존재했다는 사실이 매우 흥미롭습니다. 당시 우리는 제너레이션을 하고 싶었지만 문자와 숫자로 생성을 한다고 해도 뭔가를 시도하고 있다는 사실을 아무도 기억하지 못했습니다. jeff hinton은 당시 생성에 관한 몇 가지 논문을 가지고 있었고 우리도 생성 방법에 대해 생각하고 있었습니다.

사실 확률분포의 관점에서 보면 수학적으로도 생성이 가능하지만, 그때 생성된 것은 전혀 놀랍지 않았다. 그래서 수학적 관점에서는 생성이라는 개념이 존재하지만 실제로는 만족스러운 생성 효과가 없습니다.

그렇다면 딥러닝에 큰 관심을 갖고 제 연구실에 찾아온 박사과정 학생 한 명을 구체적으로 언급하고 싶습니다. 이 박사 과정 학생의 전체 박사 과정 경험은 거의 이 분야의 발전 궤적의 축소판이라고 할 수 있습니다.

그의 첫 번째 프로젝트는 데이터였고 나는 그에게 그것을 하도록 강요했습니다. 비록 그는 그것이 마음에 들지 않았지만 나중에 그는 유용한 것들을 많이 배웠다고 인정했습니다. "이제 그렇게 말씀해주셔서 기쁘네요." 그래서 우리는 딥러닝으로 전환했고, 핵심 문제는 이미지에서 텍스트를 생성하는 방법이었습니다. 실제로 이 프로세스에는 세 가지 명확한 단계가 있습니다.

첫 번째 단계는 이미지와 텍스트를 일치시키는 것입니다. 이미지와 텍스트가 있고 다음으로 이들이 어떻게 연관되어 있는지 확인해야 합니다. 나의 첫 번째 학술 논문이자 첫 박사 논문은 장면 그래프를 기반으로 한 이미지 검색을 연구했습니다. 다음으로, 우리는 계속 깊이 연구하고 픽셀에서 텍스트를 생성합니다. 그와 andrej는 이와 관련하여 많은 작업을 수행했지만 여전히 손실이 매우 큰 생성 방법이며 정보를 픽셀에서 얻을 때 크게 손실됩니다. 픽셀 세계.

중반쯤에 아주 유명한 작품이 있었는데, 그때 누군가가 처음으로 실시간으로 깨달았죠. 2015년에는 leon gatys의 주도로 "the art style of neural algorithms"라는 논문이 출판되었습니다. 그들은 실제 사진을 반 고흐 스타일의 이미지로 변환하는 방법을 시연했습니다.

지금은 당연하다고 생각할 수도 있지만 그건 2015년의 일이었는데, 그 논문이 arxiv에 올라와서 충격을 받았습니다. 마치 "ai 생성 바이러스"가 내 뇌에 주입된 것 같은 느낌이 듭니다. 나는 속으로 “맙소사, 이 알고리즘을 이해하고, 가지고 놀면서, 내 그림을 반 고흐처럼 보이도록 노력해야 해요.”라고 생각했습니다.

그래서 저는 알고리즘이 제대로 실행될 수 있도록 알고리즘을 다시 구현하는 데 긴 주말을 보냈습니다. 사실 아주 간단한 알고리즘인데, 제가 구현한 코드는 300줄 정도밖에 되지 않았습니다. 당시에는 pytorch가 없었기 때문에 lua torch를 사용했습니다. 그러나 알고리즘의 단순성에도 불구하고 속도가 매우 느립니다. 이미지를 생성할 때마다 최적화 루프를 실행해야 하는데, 여기에는 많은 시간이 걸립니다. 결과 이미지는 아름답지만 조금 더 빨랐으면 좋겠습니다. 마침내 우리는 속도를 더 빠르게 만들었습니다.

제가 매우 자랑스러워하는 또 다른 점은 제너레이티브 ai가 실제로 세상에 출시되기 전 박사 과정 마지막 부분에서 매우 최첨단 작업을 수행했다는 것입니다. 이 프로젝트는 자연어를 입력하여 완전한 이미지를 생성하는데, 이는 최초의 생성 ai 노력 중 하나라고 할 수 있습니다. 우리는 gan을 사용하고 있었지만 당시에는 사용하기가 매우 어려웠습니다. 문제는 우리가 아직 자연어를 사용하여 완전한 이미지를 설명할 준비가 되어 있지 않다는 것입니다.

그래서 그는 장면 그래프 구조의 입력 방식을 사용했는데, 입력 내용은 "양", "풀", "하늘" 등이었고, 이 방법을 사용하여 완전한 이미지를 생성했다.

데이터 매칭부터 스타일 전송, 이미지 생성까지, 우리는 점차 완전한 변화를 목격하고 있습니다. 이것이 큰 변화인지 묻습니다. 우리 같은 사람들에게는 지속적인 과정이지만 대중에게는 그 결과가 갑작스럽고 충격적인 것처럼 보입니다.

마틴 카사도

나는 당신의 책을 읽었으며 모든 사람에게 읽기를 적극 권장하는 훌륭한 책입니다. 그리고 fei-fei 씨, 제가 말씀드리고 싶은 것은 오랫동안 교수님의 많은 연구와 방향이 공간 지능과 픽셀 처리 같은 분야에 집중되어 왔다는 것입니다. 지금 진행하고 있는 월드랩스 역시 공간지능과 관련이 있습니다. 이것이 당신의 장기 여정의 일부라고 말할 수 있나요? 왜 지금 이 일을 하기로 결정했나요? 이것은 일종의 기술적 혁신인가, 아니면 개인적인 이유인가? ai 연구의 맥락에서 world labs로 안내해 주실 수 있나요?

페이페이 리

나에게 이것은 개인적인 추구이자 지적 여행이다. 당신은 제 책에 대해 언급하셨는데, 저의 전체 지적 여정은 실제로 "북극성"을 찾는 것이었고 그 북극성이 우리 분야의 발전에 중요하다는 강한 믿음이었습니다.

처음에는 대학원 졸업 후 제 북극성이 "이미지에 대한 이야기를 하는 것"이라고 생각했습니다. 왜냐하면 저에게는 이것이 ai라고 부르는 시각 지능의 큰 부분이기 때문입니다.

하지만 저스틴과 안드레이가 작업을 마쳤을 때 저는 '맙소사, 이게 내 평생의 꿈인데, 다음에 무엇을 할 것인가?'라고 생각했습니다. 예상했던 것보다 훨씬 빨리 진행되고 있어서 시간이 좀 걸릴 거라고 생각했습니다. 이를 달성하려면 수백 년이 걸릴 것입니다.

시각적 지능은 항상 나의 열정이었습니다. 나는 인간이든 로봇이든 다른 형태의 존재이든 모든 지적 존재에게 세상을 보는 방법, 추론하는 방법, 세상과 상호 작용하는 방법을 배우는 것이 중요하다고 굳게 믿습니다. 탐색, 제어, 제조, 심지어 문명 건설까지 시각적 및 공간적 지능이 근본적인 역할을 합니다.

그것은 언어만큼 근본적일 수도 있고, 어떤 면에서는 훨씬 더 오래되고 근본적일 수도 있습니다. 따라서 월드랩스의 북극성은 우주지능의 잠금을 해제하는 것이며, 지금이 적기이다.

justin이 말했듯이 우리는 컴퓨팅 성능과 데이터에 대한 더 깊은 이해 등 필요한 리소스를 이미 갖추고 있습니다. 우리는 imagenet 시대보다 데이터를 이해하는 데 있어서 더욱 정교해졌습니다.

우리는 또한 공동 창립자인 ben mildenhall과 christoph lassner의 nerf에 대한 최첨단 작업과 같은 알고리즘적 발전을 이루었습니다. 우리는 지금이 결정을 내리고 이 영역에 집중하고 잠재력을 발휘할 적절한 시기라고 생각합니다.

마틴 카사도

모두가 명확하게 이해할 수 있도록 이제 world labs라는 회사를 설립하게 되었는데, 해결하고 싶은 문제는 '공간지능'입니다. 공간지능이 무엇인지 간략하게 설명해주실 수 있나요?

페이페이 리

공간 지능은 3d 공간과 시간을 이해하고, 인식하고, 추론하고, 행동하는 기계의 능력을 말합니다. 특히 이는 객체와 이벤트가 3d 공간과 시간에 어떻게 위치하는지, 그리고 세계의 상호 작용이 이러한 3d 위치에 어떻게 영향을 미치는지 이해하는 것을 의미합니다.

이는 기계를 데이터 센터나 호스트에 머물게 하는 것이 아니라 현실 세계로 가서 풍부한 3d 및 4d 세계를 이해하도록 하는 것입니다.

마틴 카사도

당신이 말하는 "세계"는 실제 물리적 세계를 의미합니까, 아니면 추상적 개념 세계를 의미합니까?

페이페이 리

내 생각엔 둘 다인 것 같아. 이는 또한 우리의 장기적인 비전을 나타냅니다. 가상 세계나 콘텐츠를 생성하는 경우에도 3d에 배치하면 여전히 많은 이점이 있습니다. 또는 현실 세계를 식별할 때 3d 이해를 현실 세계에 적용하는 것이 그 일부입니다.

마틴 카사도

귀하의 공동 창립자 팀은 정말 강력합니다. 그렇다면 왜 지금이 이 일을 하기에 적절한 시기라고 생각하시나요?

페이페이 리

이것은 실제로 장기적인 진화 과정입니다. 박사 학위를 마친 후 저는 독립적인 연구자가 될 수 있는 길을 찾기 시작했고 ai와 컴퓨터 비전 분야의 큰 질문에 대해 고민하기 시작했습니다. 지난 10년은 이미 존재하는 데이터를 이해하는 시대였다면, 앞으로 10년은 새로운 데이터를 이해하는 시대가 될 것이라는 당시 결론을 내렸습니다.

과거의 데이터는 이미 인터넷에 존재하는 이미지와 영상이 주를 이루었지만, 미래의 데이터는 카메라와 새로운 센서를 탑재하고 3d 세계에 위치할 수 있는 스마트폰의 등장 등 전혀 새로운 데이터입니다. 그것은 단순히 인터넷에서 픽셀 덩어리를 가져와서 그것이 고양이인지 개인지 구별하려고 하는 문제가 아닙니다.

우리는 이러한 이미지를 물리적 세계에 대한 보편적인 센서로 취급하여 물리적 공간과 생성 공간 모두에서 세계의 3d 및 4d 구조를 이해하는 데 도움이 되기를 바랍니다.

박사 학위를 졸업한 후 저는 큰 변화를 거쳐 3d 컴퓨터 비전 분야에 입문하여 동료들과 함께 물체의 3d 모양을 예측하는 방법을 연구했습니다. 나중에는 2차원 데이터로부터 3차원 구조를 학습한다는 아이디어에 큰 관심을 가지게 되었습니다.

데이터를 논의할 때 3d 데이터를 얻는 것이 어렵다는 점을 자주 언급하지만 실제로 2d 이미지는 3d 세계를 투영한 것이며 활용할 수 있는 수학적 구조가 많이 있습니다. 2d 데이터가 많아도 이러한 수학적 구조를 통해 3d 세계의 구조를 추론할 수 있습니다.

2020년은 획기적인 순간입니다. 우리의 공동 창립자인 ben mildenhall은 nerf(neural radiation field) 방법을 제안했습니다. 이는 2d 관찰에서 3d 구조를 추론하는 매우 간단하고 명확한 방법으로, 3d 컴퓨터 비전 분야 전체에 불을 붙였습니다.

동시에 llm도 등장하기 시작했습니다. 실제로 오랫동안 학계에서는 많은 언어 모델링 작업이 개발되어 왔습니다. 박사 과정 중에도 2014년에 andrej karpathy와 함께 언어 모델링 작업을 수행했습니다.

저스틴 존슨

사실 이는 트랜스포머 이전에도 등장한 것인데, gpt-2 시대에는 컴퓨팅 자원이 너무 많이 필요하기 때문에 이런 모델을 학계에서 만들기가 어렵습니다. 그러나 흥미롭게도 ben이 제안한 nerf 방법은 단일 gpu에서 몇 시간의 훈련만 필요합니다.

이로 인해 많은 학술 연구자들이 이러한 문제에 다시 집중하게 되었습니다. 일부 핵심 알고리즘 문제는 제한된 컴퓨팅 리소스로 해결될 수 있고 단일 gpu에서 최첨단 결과를 얻을 수 있기 때문입니다. 그래서 당시 많은 학계 연구자들은 '핵심 알고리즘을 통해 어떻게 이 분야의 발전을 촉진할 수 있을까?'라고 생각하고 있었습니다. fei-fei와 저는 많은 이야기를 나눴고 우리 둘 다 이에 대해 매우 확신하고 있습니다.

페이페이 리

네, 우리 연구 방향이 어느 정도 비슷한 목표를 향해 나아가고 있는 것 같아요. 나는 또한 매우 흥미로운 기술적인 문제, 즉 픽셀에 관한 기술적인 이야기를 하고 싶습니다.

언어 연구에 종사하는 많은 사람들은 생성 ai 시대 이전에 우리 컴퓨터 비전 분야에 종사하는 사람들이 실제로 3d 재구성이라는 오랜 연구 역사를 가지고 있다는 사실을 알지 못할 수도 있습니다.

이것은 1970년대로 거슬러 올라가며 사진을 찍을 수 있었습니다. 인간에게는 두 개의 눈이 있기 때문에 스테레오 사진을 사용하여 삼각측량을 하고 3d 모양을 만들 수 있었습니다. 그러나 이는 매칭 문제 등의 합병증으로 인해 아직 완전히 해결되지 않은 매우 어려운 문제이다.

이 분야에서는 오랜 발전의 역사가 있었지만 nerf가 생성 방법, 특히 확산 모델의 맥락에서 결합되면 3d 재구성과 생성이 갑자기 병합되기 시작합니다. 컴퓨터 비전 분야에서 우리는 무언가를 보거나 상상하면 둘 다 그것을 생성하는 방향으로 수렴할 수 있다는 것을 갑자기 발견했습니다. 이것은 매우 중요한 순간이지만, llm에 대해 이야기하는 것만큼 광범위하게 이야기하지 않기 때문에 많은 사람들이 이를 알아차리지 못할 수도 있습니다.

저스틴 존슨

예, 픽셀 공간에는 재구성이 있습니다. 예를 들어 실제 장면을 재구성하고 해당 장면을 볼 수 없는 경우 생성 기술을 사용합니다. 둘은 실제로 매우 유사합니다. 이 대화 전반에 걸쳐 언어와 픽셀에 대해 이야기해 오셨습니다. 따라서 공간 지능과 언어 접근 방식에 대해 이야기하기에 좋은 시간이 될 것입니다. 예를 들어 상호 보완적인가, 아니면 완전히 다른가?

페이페이 리

나는 그것들이 상호보완적이라고 생각한다. "완전히 다르다"를 어떻게 정의해야 할지 잘 모르겠지만, 비교해 볼 수는 있습니다. 오늘날 많은 사람들이 gpt, 개방형 ai 및 다중 모드 모델에 대해 이야기하고 있습니다. 이러한 모델은 픽셀과 언어를 모두 처리할 수 있다고 느껴집니다. 그렇다면 우리가 원하는 공간적 추론을 이룰 수 있을까요? 이 질문에 대답하려면 이러한 시스템의 "블랙 박스"를 열고 내부에서 어떻게 작동하는지 확인해야 합니다.

현재 우리가 보는 언어 모델과 다중 모드 언어 모델의 기본 표현은 "1차원"입니다. 우리는 컨텍스트 길이, 변환기, 시퀀스, 주의 메커니즘에 대해 이야기하지만 결국 이러한 모델의 표현은 1차원 직렬화된 토큰을 기반으로 합니다.

이러한 표현은 언어를 다룰 때 매우 자연스럽습니다. 텍스트 자체가 개별 문자의 1차원 시퀀스로 구성되어 있기 때문입니다. 이 1차원 표현은 llm 성공의 기초이며, 다른 양식(예: 이미지)을 이 1차원 표현에 "하드코어"하는 다중 모드 llm의 경우에도 마찬가지입니다.

공간 지능 분야에서 우리는 정반대로 생각합니다. 우리는 세계의 3차원적 특성이 표현의 핵심이 되어야 한다고 믿습니다. 알고리즘 관점에서 볼 때 이는 데이터를 처리하고 다양한 유형의 출력을 얻을 수 있는 새로운 기회를 열어주며 매우 다양한 문제를 해결하는 데 도움이 됩니다.

대략적인 수준에서도 "다중 모드 llm은 이미지도 볼 수 있습니다."라고 말할 수 있습니다. 실제로는 가능하지만 이미지 처리 시 3차원의 특성을 접근 방식의 핵심으로 두지 않습니다.

저스틴 존슨

나는 1차원 표현과 3차원 표현의 근본적인 차이점을 논의하는 것이 매우 중요하다는 점에 전적으로 동의합니다. 또한 약간 더 철학적인 점이 있지만 나에게는 그다지 중요하지 않습니다. 언어는 본질적으로 순수하게 생성된 신호이며 세상에는 언어가 없습니다. 자연으로 나가면 하늘에 글씨가 보이지 않습니다. 어떤 데이터를 입력하더라도 언어 모델은 충분한 일반화를 통해 거의 동일한 데이터를 내보낼 수 있습니다. 이것이 언어 생성의 특성입니다.

하지만 3d 세계는 물리 법칙을 따르며 고유한 구조와 재료를 가지고 있습니다. 본질적으로 이 정보를 추출하고, 표현하고, 생성할 수 있다는 것은 완전히 다른 종류의 문제입니다. 언어 모델에서 몇 가지 유용한 아이디어를 빌릴지라도 이는 근본적으로 다른 철학적 질문입니다.

마틴 카사도

그렇습니다. 언어 모델은 1차원적이며 인간이 손실을 가지고 생성했기 때문에 물리적 세계를 제대로 표현하지 못할 수도 있습니다. 생성 모델의 또 다른 양식은 2d 이미지와 비디오인 픽셀입니다. 영상을 보면 카메라가 패닝을 할 수 있기 때문에 3d 장면을 볼 수 있습니다. 그렇다면 공간 지능과 2d 비디오의 차이점은 무엇입니까?

페이페이 리

여기서 생각해 볼 만한 두 가지 점이 있습니다. 하나는 기본 표현이고, 다른 하나는 사용자 경험의 편의성입니다. 둘은 가끔 헷갈릴 때도 있다. 우리가 인지하는 것은 2d입니다. 우리의 망막은 2차원 구조이지만 우리 뇌는 이를 3차원 세계의 투영으로 봅니다.

객체를 이동하고 카메라를 이동하고 싶을 수 있으며 원칙적으로는 2d 표현과 모델을 사용하여 이러한 작업을 수행할 수 있지만 요청하는 문제에는 적합하지 않습니다. 역동적인 3차원 세계의 2차원 투영은 모델링이 가능할 수 있지만 3차원 표현을 모델의 중심에 배치하는 것이 문제의 요구 사항에 더 적합합니다.

우리의 목표는 더 많은 3d 표현을 모델의 핵심에 통합하여 사용자에게 더 나은 경험을 제공하는 것입니다. 이것은 나의 "북극성"과도 관련이 있습니다. 왜 우리는 "평면 픽셀 지능"이 아닌 "공간 지능"을 강조합니까?

지능의 궤적 때문에 진화의 역사를 되돌아보면 지능의 궁극적인 목표는 동물과 인간이 세상에서 자유롭게 움직이고 상호작용하며 문명을 창조하고 심지어 샌드위치를 ​​만들 수 있게 하는 것이다. 따라서 이 3d 본질을 기술로 변환하는 것은 비록 일부가 피상적인 발전처럼 보일지라도 수많은 잠재적 응용 프로그램을 잠금 해제하는 데 핵심입니다.

마틴 카사도

이것은 매우 미묘하지만 중요한 포인트라고 생각합니다. 아마도 우리는 몇 가지 응용 시나리오에 대해 이야기함으로써 이 논의를 더 깊이 탐구할 수 있을 것입니다. 공간 지능을 가능하게 하는 기술 모델 개발에 관해 이야기할 때, 구체적으로 어떤 모습일까요? 잠재적인 적용 시나리오는 무엇입니까?

페이페이 리

우리가 구상하는 공간 지능 모델은 많은 일을 할 수 있으며, 그 중 제가 특히 기대하는 것 중 하나는 "세계 생성"입니다. 텍스트-이미지 생성기와 마찬가지로 이제 텍스트-비디오 생성기가 있습니다. 이미지나 비디오를 입력하면 시스템이 놀라운 2초짜리 클립을 생성합니다. 하지만 저는 이 경험을 3d 세계로 가져갈 수 있다고 생각합니다.

우리는 공간 지능이 미래에 단순히 사진이나 비디오를 생성하는 것이 아니라 완벽하고 시뮬레이션된 풍부한 대화형 3d 세계를 생성하여 이러한 경험을 3d로 업그레이드하는 데 도움이 될 것이라고 상상할 수 있습니다. 게임에 쓰일 수도 있고, 가상 사진에 쓰일 수도 있고, 응용 분야가 너무 넓어서 상상할 수 없을 정도입니다.

저스틴 존슨

시간이 지나면 기술이 발전하리라 봅니다. 이러한 것을 구축하는 것은 매우 어렵기 때문에 정적 문제는 상대적으로 단순할 수 있지만 장기적으로 우리는 방금 설명한 모든 것이 완전히 동적이고 상호 작용할 수 있기를 원합니다.

페이페이 리

네, 이것이 바로 공간 지능의 정의입니다. 좀 더 정적인 문제부터 시작하겠지만, 언급하신 모든 것은 공간 지능의 미래에 관한 것입니다.

저스틴 존슨

이는 우리 회사의 이름인 "world labs"에도 반영되어 있습니다. 이름은 세상을 구축하고 이해하는 것에 관한 것입니다. 사람들에게 이름을 알려줄 때 처음에는 항상 이해하지 못하는 경우가 있습니다. 왜냐하면 컴퓨터 비전, 재구성, 생성 분야에서는 우리가 할 수 있는 일을 구별하는 경우가 많기 때문입니다. 첫 번째 수준은 마이크, 의자, 기타 세상에 존재하는 개별 개체 등의 개체를 인식하는 것입니다. imagenet의 작업 중 대부분은 객체 인식과 관련되어 있습니다.

그러나 우리는 장면의 수준으로 올라갑니다. 장면은 객체로 구성됩니다. 예를 들어, 이제 테이블, 마이크, 의자에 앉아 있는 사람들이 있는 녹음 스튜디오가 있는데, 이는 객체의 조합입니다. 그러나 우리가 상상하는 '세계'는 장면을 초월합니다. 장면은 하나의 것일 수도 있지만, 우리는 그 경계를 허물고 밖으로 나가서 거리로 나가고, 지나가는 차량을 보고, 바람에 흔들리는 나뭇잎을 보고, 그런 것들과 상호작용할 수 있기를 원합니다.

페이페이 리

또 다른 매우 흥미로운 점은 "뉴미디어"라는 용어에 관한 것입니다. 이 기술을 사용하면 현실 세계와 가상 상상 세계, 증강 세계와 예측 세계 사이의 경계가 모호해집니다. 현실 세계는 3d이므로 디지털 세계에서는 현실 세계와 조화를 이루기 위해 3d 표현이 필요합니다. 2d나 1d만으로는 실제 3d 세계와 효과적으로 상호 작용할 수 없습니다.

이 기능을 통해 무제한 애플리케이션 시나리오가 가능해졌습니다. 저스틴이 언급한 첫 번째 응용 시나리오와 마찬가지로 가상 세계의 생성은 어떤 목적으로든 사용될 수 있습니다. 두 번째는 증강 현실일 수 있습니다. world labs가 설립될 무렵 apple은 vision pro를 출시했으며 "공간 컴퓨팅"이라는 용어를 사용했습니다. 우리는 거의 똑같은 것에 대해 이야기하고 있는데, 우리가 강조하는 것은 "공간 지능"입니다. 공간 컴퓨팅에는 공간 지능이 필요하다는 것은 의심의 여지가 없습니다.

우리는 미래의 하드웨어 형태가 어떤 모습일지 모릅니다. 고글, 안경, 심지어 콘택트 렌즈일 수도 있습니다. 하지만 현실 세계와 가상 세계 사이의 인터페이스에서 작업 능력을 향상시키거나, 전문 정비사가 아니더라도 자동차 수리를 도와주거나, 단순히 "포켓몬 고++"와 같은 엔터테인먼트 경험을 제공하는 등, 이 기술은 ar/vr용 운영체제가 될 것입니다.

저스틴 존슨

극단적인 경우, ar 기기가 해야 할 일은 항상 당신과 동행하고, 당신이 보는 세상을 실시간으로 이해하고, 일상 생활에서 작업을 완료하도록 돕는 것입니다. 특히 가상과 현실의 융합이 정말 기대됩니다. 주변 환경을 실시간으로 3d로 완벽하게 이해할 수 있다면 현실 세계의 일부를 대체할 수도 있습니다.

예를 들어, 이제 ipad, 컴퓨터 모니터, tv, 시계 등 다양한 크기의 화면이 다양한 시나리오에서 정보를 표시합니다. 그러나 가상 콘텐츠를 물리적 세계와 원활하게 병합할 수 있다면 이러한 장치는 더 이상 필요하지 않을 것입니다. 가상 세계는 필요한 정보를 적절한 순간에 가장 적절한 방식으로 보여줄 수 있습니다.

또 다른 거대한 응용 분야는 특히 로봇 공학 분야에서 디지털 가상 세계와 3d 실제 세계를 혼합하는 것입니다. 로봇은 물리적 세계에서 행동해야 하지만 컴퓨팅과 두뇌는 디지털 세계에 있어야 합니다. 학습과 행동 사이의 다리는 공간 지능에 의해 구축되어야 합니다.

마틴 카사도

가상 세계, 증강 현실을 언급하셨는데 이제는 로봇 공학과 같은 순수한 물리적 세계에 대해 말씀하고 계십니다. 이는 매우 광범위한 분야입니다. 특히 이러한 다양한 분야로 진출할 계획이라면 더욱 그렇습니다. 이러한 특정 응용 분야와 관련된 심층 기술을 어떻게 보시나요?

페이페이 리

우리는 우리 자신을 다양한 애플리케이션 시나리오를 지원할 수 있는 모델을 제공하는 플랫폼 회사인 심층 기술 회사라고 생각합니다. 어떤 응용 시나리오가 우리가 처음에 중점을 두었던 것에 더 적합한지에 대해서는 현재 장비가 충분히 완벽하지 않다고 생각합니다.

사실 저는 대학원 다닐 때 처음으로 vr 헤드셋을 접했습니다. vr을 처음 사용했을 때 비슷한 경험을 하신 분들이 많을 거라 생각합니다.

저는 vision pro를 너무 좋아해서 출시된 날 늦게까지 깨서 구입했지만, 지금은 대중 시장 플랫폼으로서 완전히 성숙되지 않았습니다. 따라서 회사로서 우리는 진입하기 위해 이미 보다 성숙한 시장을 선택할 수 있습니다.

때로는 다양성 속에 단순함이 있습니다. 우리는 deep technology company라는 비전을 가지고 있으며 근본적인 문제가 잘 해결되어야 하고, 잘 해결된다면 다양한 분야에 적용할 수 있다고 믿습니다. 우리는 회사의 장기 목표를 공간 지능의 꿈을 구축하고 실현하는 것으로 간주합니다.

저스틴 존슨

사실, 나는 그것이 당신이 하고 있는 일의 영향이라고 생각합니다. 우주는 본질적으로 진화하는 4차원 구조이고, 넓은 의미에서 공간 지능은 그 구조의 전체 깊이를 이해하고 이를 찾는 것에 관한 것입니다. 신청서의 모든 것. 따라서 오늘날 우리는 구체적인 아이디어를 갖고 있지만, 이 여정이 지금 당장은 상상할 수 없는 곳으로 우리를 데려갈 것이라고 믿습니다.

페이페이 리

기술의 놀라운 점은 계속해서 더 많은 가능성을 열어준다는 것입니다. 우리가 계속 발전함에 따라 이러한 가능성은 계속 확장될 것입니다.

올해 ai 스타트업에 대한 vc 투자액은 641억 달러에 달해 2021년 정점에 가까웠으나 전 세계 ai 연간 총 수익은 수백억 달러에 불과하다.