소식

'AI 대모' 리 페이페이: 소라는 아직 2차원 이미지이고, 3차원 공간 지능만이 AGI를 달성할 수 있다|티타늄 미디어

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


TMTpost 앱은 8월 2일 스탠포드 대학이 주최한 아시아계 미국인 학자 포럼 비공개 회의에서'AI의 대모'로 알려진 스탠포드 대학교 교수 리 페이페이(Li Feifei)는 TMTpost App에 단독으로 미국 회사 OpenAI의 Sora 모델이 동영상을 생성할 수 있지만 본질적으로 여전히 평면적인 2차원 모델이며 3차원 사물을 이해하는 능력은 없다. 오직 '공간지능'만이 AGI의 미래 방향이다.

Li Feifei는 TMTpost Media 설립자 Zhao Hejuan이 제기한 '공간 지능' 모델과 대규모 언어 모델 간의 관계를 논의하면서 위와 같은 답변을 했습니다. 그녀는 또한 GPT4o 및 Gemini 1.5와 같은 대부분의 모델이 여전히 언어 모델, 즉 다중 모드 모델도 있지만 비디오가 있더라도 여전히 언어로 제한되어 있다고 설명했습니다. , 그들은 2차원 평면 이미지를 기반으로 합니다. 하지만 앞으로 AGI를 구현하기 위한 핵심은 3차원 시각적 모델이 필요한 '공간지능'이다.

그녀는 소라가 보여준 '네온 불빛이 켜진 도쿄 거리를 걷는 일본 여성들'의 AI 영상을 예로 들었다.


"카메라를 여자 뒤에 두는 등 길을 걷는 여자의 영상을 보여주기 위해 알고리즘이 각도를 바꾸길 원한다면 소라는 할 수 없습니다. 왜냐하면 이 모델은 실제로 세 가지에 대한 깊은 이해가 없기 때문입니다. "여자 뒤에 있는 장면을 상상해 보세요." Li Feifei는 "인간은 복잡한 환경에서 움직이는 방법을 이해할 수 있습니다. 우리는 파악하는 방법, 제어하는 ​​방법, 도구를 만드는 방법을 알고 있습니다. 기본적으로 공간 지능은 3차원 공간이며, 공간 지능은 3차원 공간에서 행동을 추론하고 계획하는 능력을 발휘하는 것입니다. AR, VR 등 폭넓은 분야, 로봇을 위한 공간지능도 필요합니다.”

Li Feifei는 TMTpost 앱에 “자연적 진화를 통해 동물은 3차원 세계를 이해하고 3차원 공간에서 살고 예측하며 상호 작용할 수 있습니다. 이 능력은 삼엽충이 물에서 처음 빛을 본 5억 4천만년의 오랜 역사를 가지고 있습니다. , 3차원 세계에서 '탐색'을 해야 하는데, 3차원 세계에서 '탐색'하지 못한다면, 진화가 진행될수록 동물의 공간지능은 금세 높아질 것이다. 그리고 우리는 모양을 이해합니다.”

리 페이페이(48)는 유명한 컴퓨터 과학자이자 국립공학한림원(National Academy of Engineering)과 국립의학한림원(National Academy of Medicine)의 학자이자 스탠포드대학교 인간중심 AI 연구소 소장이다. 그녀는 2009년 ImageNet 이미지 데이터베이스 및 시각적 인식 대회 개발을 주도하여 대용량 이미지에 정확하게 주석을 달고 분류하여 컴퓨터 비전 인식 기능의 발전을 촉진했으며 AI의 급속한 발전을 촉진하는 핵심 요소 중 하나이기도 합니다. 작년에 그녀가 발표한 VoxPoser는 Embodied AI 개발의 핵심 기술 방향이 되었습니다.

올해 7월 리 페이페이(Li Feifei)가 설립한 AI 기업 월드랩스(World Labs)는 a16z(Andreessen Horowitz) 등이 2차 자금조달을 완료했다고 발표했다.회사의 최근 평가액은 10억 달러(약 72억 6천만 위안)에 달했습니다.

7월 말 비공개 아시아계 미국인 과학자 포럼에서 Li Feifei의 연설은 또한 더 많은 사람들에게 Word Labs와 그녀의 '공간 지능' 개발 개념이 무엇인지, 즉 AI를 '보는 것에서 실행하는 것까지' 만드는 것이 무엇인지 이해할 수 있게 해주었습니다. ".

'보는 것'에서 '실행하는 것'으로 가는 방법

소위 '공간지능'이란 사람이나 기계가 3차원 공간에서 인지하고, 이해하고, 상호작용하는 능력을 말한다.

이 개념은 미국의 심리학자 하워드 가드너(Howard Gardner)가 다중 지능 이론에서 처음 제안한 것으로, 외부 공간 세계의 모델이 뇌에 형성되어 사용 및 조작될 수 있습니다. 실제로 공간지능은 사람들이 3차원적으로 사고할 수 있게 하여 외부 이미지와 내부 이미지를 인지할 수 있게 하고, 이미지를 재현, 변형, 수정하여 공간 내를 차분하게 돌아다니면서 원하는 대로 조작할 수 있게 해줍니다. 그래픽 정보를 생성하거나 해석하기 위한 객체의 위치.

넓은 의미에서 공간지능이란 공간적 방향을 인지하는 능력뿐만 아니라 시각적 변별력, 이미지 사고 능력도 포함한다. 기계의 경우 공간 지능은 3차원 공간에서 시각적 데이터를 처리하고 정확하게 예측하며 이러한 예측을 기반으로 조치를 취하는 능력을 의미합니다. 이 능력을 통해 기계는 인간처럼 복잡한 3차원 세계에서 방향을 찾고, 작동하고, 결정을 내릴 수 있으며, 이를 통해 전통적인 2차원 시각의 한계를 뛰어넘습니다.

올해 4월 열린 TED 강연에서 리페이페이는 시각 능력이 캄브리아기 폭발을 촉발했고, 신경계의 진화가 지능을 가져왔다고 솔직하게 말했다. “우리는 보고 말할 수 있는 AI가 아니라 그것을 할 수 있는 AI를 원합니다.”

Li Feifei의 관점에서 공간 지능은 "AI 기술 문제를 해결하는 핵심 마법 무기"입니다.

7월 말에 열린 이 비공개 행사에서 Li Feifei는 10년 전에 시작된 현대 AI의 세 가지 주요 원동력을 먼저 검토했습니다. NVIDIA GPU 칩 및 빅데이터.

2009년 이후 컴퓨터 비전 분야는 폭발적인 발전을 이루었습니다. 기계는 물체를 빠르게 인식하고 인간의 성능과 일치시킬 수 있습니다. 그러나 이것은 빙산의 일각에 불과합니다. 컴퓨터 비전은 정지된 물체를 식별하고 움직이는 물체를 추적할 수 있을 뿐만 아니라 물체를 여러 부분으로 분리하고 물체 간의 관계도 이해할 수 있습니다. 따라서, 이미지 빅데이터를 기반으로 컴퓨터 비전 분야는 비약적인 발전을 이루었습니다.

Li Feifei는 약 10년 전 그녀의 학생인 Andrej Karpathy가 이모티콘 알고리즘 확립 연구에 참여했던 것을 분명히 기억합니다. 그들은 컴퓨터에 사진을 보여주었고, 신경망을 통해 컴퓨터는 "이것은 침대에 누워있는 고양이입니다."와 같은 자연어를 출력할 수 있었습니다.

"안드레이에게 되돌리자고 말한 기억이 납니다. 예를 들어 문장을 주고 컴퓨터에게 그림을 달라고 요청하세요. 우리 모두는 그것이 결코 실현되지 않을 수도 있고, 먼 미래에 실현될 것이라고 생각하면서 웃었습니다." 회상했다.

생성적 AI 기술은 지난 2년 동안 빠르게 발전했습니다. 특히 몇 달 전 OpenAI는 동영상 생성 알고리즘인 Sora를 출시했습니다. 그녀는 학생들이 Google에서 개발한 것과 유사한 제품을 선보였는데, 품질이 매우 뛰어났습니다. 이 제품은 소라가 출시되기 몇 달 전부터 존재했고, 소라보다 훨씬 작은 GPU(그래픽 처리 장치)를 사용했습니다. 문제는 AI가 다음에는 어디로 갈 것인가이다.

“나는 수년 동안 '본다'는 것은 '세상을 이해하는 것'이라고 말해왔습니다. 그러나 나는 이 개념을 한 단계 더 발전시키고 싶습니다. '본다'는 것은 단지 이해하는 것이 아니라 자연이 우리와 같은 것을 창조하는 것입니다. 감각이 있는 동물이지만 그러한 동물은 실제로 4억 5천만년 전부터 존재해왔습니다. 왜냐하면 이것이 진화의 필수 조건이기 때문입니다. 보는 것과 행동하는 것은 닫힌 고리입니다."라고 Li Feifei는 말했습니다.

그녀는 자신이 가장 좋아하는 고양이를 예로 들었습니다.


테이블 위에 고양이, 우유 한 잔, 식물이 있는 사진. 이 사진을 보면 실제로는 입체적인 영상이 머릿속에 떠오릅니다. 모양이 보이고 기하학이 보입니다.

실제로 몇 초 전에 무슨 일이 일어났는지, 몇 초 후에 무슨 일이 일어날지 알 수 있습니다. 이 사진은 3차원으로 보입니다. 당신은 다음에 무엇을 할지 계획하고 있습니다. 당신의 두뇌는 카펫을 구하기 위해 무엇을 할 수 있는지 계산하며 경주하고 있습니다. 특히 고양이는 당신 것이고 카펫은 당신 것입니다.

“3차원 세계를 모델링하고 3차원 공간과 시간 속에서 사물, 장소, 사건 등에 대해 추론하는 것을 모두 공간 지능이라고 부릅니다. 이 예에서는 현실 세계를 말하고 있지만, 이는 가상 세계를 의미할 수도 있지만 공간 지능의 핵심은 '보는 것'과 '실행하는 것'을 연결하는 것입니다. 언젠가는 AI가 이를 할 수 있게 될 것입니다.”라고 Li Feifei는 말했습니다.

둘째, Li Feifei는 여러 장의 사진을 기반으로 재구성된 3D 영상을 선보인 후, 한 장의 사진을 기반으로 한 3D 영상을 선보였습니다. 이러한 기술은 디자인에 사용될 수 있습니다.

Li Feifei는 구현된 지능형 AI 또는 휴머노이드 로봇이 '보는 것'과 '실행하는 것' 사이에 폐쇄 루프를 형성할 수 있다고 말했습니다.

그녀는 스탠포드 대학의 동료들과 칩 대기업 NVIDIA가 가정 환경에서 다양한 로봇의 성능을 평가하기 위해 가정 활동을 위한 벤치마크 동적 공간을 구축하기 위해 BEHAVIOR라는 연구를 공동으로 수행하고 있다고 말했습니다. "우리는 로봇이 계획을 세우고 행동을 시작하도록 지시할 수 있도록 언어 모델을 대형 시각적 모델과 연결하는 방법을 찾고 있습니다."라고 그녀는 말했습니다. 그녀는 세 가지 예를 들었습니다. 하나는 서랍을 여는 로봇, 다른 하나는 휴대폰 충전 케이블을 뽑는 로봇, 세 번째는 샌드위치를 ​​만드는 로봇이었습니다. 모든 지시는 인간의 자연스러운 언어를 통해 이루어집니다.

마지막으로 그녀는 미래는 '공간 지능'의 세계에 속한다고 믿으며, 인간이 거기 앉아서 센서가 달린 뇌파 모자를 쓰고 입을 열지 않고도 말을 할 수 있고, 원격으로 로봇에게 말을 할 수 있는 곳이라고 믿습니다. 생각: 일본식 식사를 요리해 보세요. 로봇은 아이디어를 받은 후 아이디어를 해독하고 완전한 식사를 만들 수 있습니다.

"공간 지능을 통해 '보는 것'과 '행하는 것'을 연결하면 할 수 있습니다."라고 그녀는 말했습니다.

Li Feifei는 또한 지난 20년 동안 AI의 흥미진진한 발전을 목격했다고 말했습니다. 하지만 그녀는 AI나 AGI의 핵심은 공간지능이라고 믿는다. 공간지능을 통해 우리는 세상을 보고, 인식하고, 이해하고, 로봇이 일을 하게 하여 선순환의 고리를 형성할 수 있습니다.

로봇이 인류를 장악할 것인가?

Li Feifei는 회의에서 오늘날 사람들이 AI가 미래에 할 수 있는 일에 대해 너무 과장하고 있다고 말했습니다. 그녀는 야심차고 용감한 목표를 현실과 혼동하지 말라고 경고하는데, 이는 우리가 너무 자주 듣는 후렴입니다.

실제로 AI는 변곡점, 특히 대규모 언어 모델에 도달했습니다. “그러나 여전히 인간이 깊이 관여하고 그 한계를 이해해야 하는 버그가 많고 제한적인 기술입니다. 이제 매우 위험한 주장은 소위 인류 멸종의 위험입니다. Li Feifei는 "이것은 사회에 매우 위험하며 이런 종류의 수사로 인해 의도하지 않은 결과가 많이 발생할 것이라고 생각합니다. AI에 대한 사려 깊고 균형 잡히고 편견 없는 의사소통과 교육이 필요합니다"라고 말했습니다. .

Li Feifei는 AI가 인간에 뿌리를 두어야 한다고 믿습니다. 인간이 만들고, 인간이 개발하고, 인간이 사용하고, 인간도 관리해야 한다.

Li Feifei는 스탠포드 대학의 "인간 중심 AI" 연구소에서 개인, 커뮤니티, 사회의 세 가지 수준을 포함하여 AI에 대한 세 가지 접근 방식을 채택했다고 말했습니다.

  • 개인 수준에서는 AI를 활용하고 수용해야 합니다. 이것은 문명화된 기술이다. AI는 아이들이 학습하는 방식, 의사가 진단 방법을 사용하는 방식, 예술가가 디자인하는 방식, 교사가 가르치는 방식을 변화시킵니다. 기술자이든 아니든 자신의 역할을 수행하고 책임감 있게 AI를 사용할 수 있습니다.
  • 지역사회 수준에서 AI는 지역사회에 역량을 부여하고 환경 보호 또는 농업 요구 사항을 충족할 수 있습니다. 일부 농업 공동체는 기계 학습 기술을 사용하여 지역 사회의 수질을 모니터링합니다. 아티스트 커뮤니티는 AI를 활용하는 것뿐만 아니라 문제 해결 및 위험 완화 방법에 대한 우려와 아이디어를 표명하고 있습니다.
  • 사회 차원에서 정부, 연구 기관, 기업, 연방 기관, 국제 기관은 이 기술을 진지하게 받아들여야 합니다. 에너지 문제가 있으며 이는 지정학적 영향을 미칩니다. 경제와 생태계에 영향을 미치는 오픈 소스와 비오픈 소스 사이에는 여전히 큰 논의가 있습니다. AI의 위험성과 안전성 등 관리 문제는 여전히 남아 있다. 긍정적인 접근 방식, 다중 이해관계자 접근 방식, 전체 사회 접근 방식을 채택해야 합니다. 이제 되돌릴 수 없다고 Li Feifei는 말했습니다. 그녀는 2017년부터 2018년까지 구글에서 AI 프로젝트를 이끌었고, 2020년부터 2022년까지 트위터 이사를 역임했으며, 현재 백악관 AI 자문위원을 맡고 있다.

AI가 업무에 미치는 영향에 대해 Li Feifei는 자신의 견해를 공유했습니다.

리 페이페이는 스탠포드대학교 인간중심AI연구소 내에 에릭 브린욜프슨(Erik Brynjolfsson) 교수가 이끄는 디지털 경제 연구소가 있다고 지적했다. 이 매우 복잡한 문제에는 여러 계층이 있습니다. 그녀는 실제로 모든 사람의 작업이 여러 작업으로 구성되어 있기 때문에 "일"과 "작업"은 서로 다른 개념이라는 점을 특히 강조했습니다.

그녀는 미국 간호사를 예로 들었다. 간호사의 8시간 교대 근무에는 수백 가지 업무가 수행되는 것으로 추산됩니다. 그러므로 사람들이 AI가 인간의 일자리를 대체하거나 대체하는 것에 대해 논의할 때, 그것이 업무를 대체하는 것인지 아니면 직업을 대체하는 것인지 구별해야 합니까?

Li Feifei는 AI가 업무 내 여러 업무를 변화시켰고 그에 따라 업무의 성격도 점차 변화할 것이라고 믿습니다. 콜센터 시나리오에서는 AI를 통해 초보자의 업무 품질이 30% 향상됐지만, 숙련된 인력의 업무 품질은 AI로 개선되지 않았다. Fei-Fei Li의 생각은 스탠포드 대학교 디지털 경제 연구소의 기사에서 반영되었습니다. 제목은 "AI는 관리자의 직업을 대체하지 않습니다. AI를 사용하는 관리자가 그렇지 않은 관리자를 대체하고 있습니다."

Li Feifei는 과학기술이 생산성 향상을 가져오지만 생산성 향상이 자동으로 사회의 공동 번영으로 이어지는 것은 아니라고 강조했습니다. 그녀는 그러한 사건이 역사상 여러 번 발생했다고 지적했습니다.

(이 기사는 Titanium Media App에 처음 게재되었습니다. 저자|Chelsea_Sun, 편집자|Lin Zhijia)