новости

последний разговор ли фейфея с a16z: пространственный интеллект не только подходит для создания виртуального мира, но также может быть интегрирован с реальным миром. достижения в области технологий искусственного интеллекта откроют невообразимые новые сценарии применения.

2024-09-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

недавно ли фейфей обсудил историю, текущую ситуацию и будущее направление развития области ии с партнером a16z мартином касадо и исследователем джастином джонсоном. тема охватила все аспекты технологии ии, особенно будущий потенциал генеративного ии и пространственного интеллекта.

ли фейфей подчеркнула, что генеративный искусственный интеллект уже существовал во время ее учебы в аспирантуре, но ранние технологии еще не были зрелыми. благодаря скачку в глубоком обучении и вычислительной мощности генеративный искусственный интеллект за последние годы добился значительного прогресса и стал одним из основных прорывов в области искусственного интеллекта.

она также представила последний предпринимательский проект world labs, который фокусируется на «пространственном интеллекте», то есть способности машин понимать и взаимодействовать в трехмерных и четырехмерных пространствах.

она отметила, что пространственный интеллект не только подходит для создания виртуальных миров, но также может интегрировать реальный мир и широко используется в областях дополненной реальности (ar), виртуальной реальности (vr) и робототехники. технологии принесут нам невообразимые новые сценарии применения, включая создание виртуального мира, дополненную реальность и взаимодействие с физическим миром.

ниже приводится основное содержание этого разговора, наслаждайтесь~

мартин касадо

за последние два года мы стали свидетелями появления волны компаний и технологий потребительского уровня в области искусственного интеллекта, и этот процесс был сумасшедшим. и вы работаете в этой сфере десятилетиями. итак, мы могли бы поговорить о ключевом вкладе и идеях, которые вы сделали в этом процессе.

фэйфей ли

это очень захватывающее время, и, оглядываясь назад, можно сказать, что ии переживает захватывающее время. лично я занимаюсь этой областью более двух десятилетий. мы вышли из прошлой зимы ии и стали свидетелями зарождения современного ии. затем мы увидели рост глубокого обучения, которое показало нам, что возможно, например, игра в шахматы.

затем мы начали видеть более глубокое развитие технологий и отраслевое применение ранних возможностей, таких как языковые модели. я думаю, что сейчас мы находимся в середине «кембрийского взрыва».

в каком-то смысле теперь помимо текста мы также видим пиксели, видео, аудио и т. д., которые начинают сочетаться с приложениями и моделями ии, так что это очень интересное время.

мартин касадо

я знаю вас обоих уже давно, и многие люди знают вас, потому что вы очень известны в этой области. но не все знают, как вы начали работать в области искусственного интеллекта, поэтому, возможно, мы сможем кратко представить ваш опыт, чтобы помочь аудитории получить базовое понимание.

джастин джонсон

хорошо, мое первое знакомство с ии произошло ближе к концу учебы на бакалавриате. я изучал математику и информатику в калифорнийском технологическом институте, и это было прекрасное время. в этот период была опубликована очень известная статья — «кошачья статья» в google brain хоум нека ли, эндрю нга и других. это было мое первое знакомство с концепцией глубокого обучения.

эта технология меня поразила, и я впервые столкнулся с этим рецептом: когда объединяются мощные алгоритмы обучения общего назначения, огромные вычислительные ресурсы и большие объемы данных, происходит нечто волшебное. мне пришла в голову эта идея где-то в 2011 или 2012 году, и тогда я почувствовал, что этим займусь в будущем.

очевидно, что для выполнения этой работы нужно было поступить в аспирантуру, поэтому я обнаружил, что фейфей училась в стэнфорде и была одной из немногих людей в мире, кто углубленно изучал эту область. это было прекрасное время для работы над глубоким обучением и компьютерным зрением, поскольку это был момент, когда технология переходила от зачатия к зрелости и широкому распространению.

за это время мы увидели зарождение языкового моделирования, а также зарождение дискриминационного компьютерного зрения — можно было понять, что происходит на картинке. в этот период также началась ранняя разработка того, что мы сегодня называем генеративным ии. основные части алгоритма, такие как генерация изображений и текст, также были решены академическим сообществом во время моей докторской диссертации.

в то время каждое утро, просыпаясь, я открывал arxiv, чтобы ознакомиться с последними результатами исследований. это было похоже на открытие рождественских подарков. почти каждый день происходили новые открытия. за последние два года остальной мир также начал осознавать, что новые «рождественские подарки» получаются с помощью технологий искусственного интеллекта каждый день. но для тех из нас, кто работает в этой сфере более десяти лет, этот опыт уже был.

фэйфей ли

очевидно, я намного старше джастина. я пришел в область ии из физики, потому что у меня было высшее образование по физике. физика — это предмет, который учит думать о смелых вопросах, таких как неразгаданные загадки мира. в физике эти проблемы могли быть связаны с атомным миром, вселенной, но это обучение заинтересовало меня другой проблемой — интеллектом. поэтому я защитил докторскую диссертацию в области искусственного интеллекта и вычислительной нейробиологии в калифорнийском технологическом институте. хотя мы с джастином не пересекались в калифорнийском технологическом институте, у нас была одна и та же альма-матер.

джастин джонсон

и тот же наставник?

фэйфей ли

да, ваш научный руководитель был также моим научным руководителем пьетро перона. когда я готовился к докторской диссертации, ии был в центре внимания общественности в середине холодной зимы, но в моих глазах это было не так. это больше похоже на период спячки перед весной, когда машинное обучение и генеративные модели набирают силу. я считаю себя «аборигеном» в области машинного обучения, а поколение джастина — «аборигеном» в глубоком обучении.

машинное обучение является предшественником глубокого обучения, и в то время мы экспериментировали с различными моделями. но ближе к концу моей докторской диссертации и во время моей работы в качестве доцента мои студенты и моя лаборатория поняли, что существует упущенный из виду элемент обобщения ии, о котором в то время не особо задумывались: данные. мы сосредоточились на сложных моделях, таких как байесовские модели, и упустили из виду важность того, чтобы данные управляли моделью.

это одна из причин, по которой мы делаем ставку на imagenet. в то время размер наборов данных во всех областях был очень небольшим. стандартные наборы данных для компьютерного зрения и обработки естественного языка составляли тысячи или десятки тысяч фрагментов данных, но мы поняли, что нам необходимо масштабироваться до интернета. . к счастью, наступала эра интернета, и мы оседлали эту волну. именно в это время я приехал в стэнфорд.

мартин касадо

эти эпохи, подобные тем, о которых мы много говорим, например imagenet, очевидно, являются важными эпохами в продвижении или, по крайней мере, в обеспечении популярности и осуществимости компьютерного зрения в области генеративного искусственного интеллекта. мы обычно упоминаем два ключевых открытия: одно — это статья «трансформер», которая представляет собой «механизм внимания», а другое — менее обсуждаемая «стабильная диффузия».

разумно ли понимать эти два алгоритмических прорыва академических кругов (особенно google) таким образом? или это скорее преднамеренный процесс? или были ли какие-то другие важные прорывы, о которых не часто упоминают, которые также подтолкнули нас туда, где мы находимся сегодня?

джастин джонсон

да, я думаю, что самый большой прорыв — это вычислительная мощность. я знаю, что история искусственного интеллекта часто является также историей вычислительной мощности, но хотя об этом часто упоминают, я думаю, что его влияние недооценивается.

рост вычислительной мощности, который мы наблюдаем за последнее десятилетие, ошеломляет. первой статьей, которая считалась прорывным моментом в глубоком обучении в области компьютерного зрения, была alexnet, статья 2012 года, в которой глубокая нейронная сеть хорошо справилась с задачей imagenet, намного превзойдя другие алгоритмы того времени.

алгоритмы, с которыми вы можете столкнуться во время учебы в аспирантуре, бледнеют по сравнению с alexnet. alexnet — это глубокая нейронная сеть с 60 миллионами параметров. она обучалась в течение шести дней на двух видеокартах gtx 580. gtx 580 была самой мощной потребительской видеокартой на тот момент и была выпущена в 2010 году.

вчера вечером я искал кое-какие данные и хотел поместить их в более широкий контекст. последняя видеокарта nvidia — gb200. можете ли вы угадать разницу в вычислительной мощности между gtx 580 и gb200?

число исчисляется тысячами, поэтому вчера вечером я посчитал. например, в течение двух недель обучения шесть дней проводились на двух gtx 580. если продлить, то на gb200, вероятно, можно будет пробежаться менее чем за пять минут.

если подумать об этом таким образом, то действительно есть хороший аргумент: статья alexnet 2012 года о imagenet challenge на самом деле представляет собой очень классическую модель, то есть модель сверточной нейронной сети.

фактически, эта концепция появилась еще в 1980-х годах. я до сих пор помню первую работу, которую изучал, будучи аспирантом. содержание было аналогичным, с сетевой структурой из шести или семи слоев. почти единственное различие между alexnet и моделью сверточной нейронной сети — это графический процессор — использование двух графических процессоров и огромных объемов данных.

итак, я хотел сказать, что большинство людей теперь знакомы с так называемым «горьким уроком», который заключается в том, что если вы разрабатываете алгоритм, просто убедитесь, что вы можете использовать преимущества существующих вычислительных ресурсов, потому что эти ресурсы станут доступны с течением времени. так что вам просто нужна система, которая постоянно совершенствуется.

с другой стороны, кажется, есть еще один не менее убедительный аргумент: новые источники данных фактически открывают возможности глубокого обучения. imagenet является хорошим примером. хотя многие люди думают, что механизм самообслуживания важен для модели трансформера, они также скажут, что это способ воспользоваться преимуществами данных, размеченных человеком.

поскольку люди предоставляют аннотации для структуры предложений, если вы посмотрите на модель clip, она фактически позволяет людям помечать изображения с помощью тегов alt в интернете. так что на самом деле это история о данных, а не о вычислениях. так есть ли ответ на оба вопроса или это скорее одна сторона? я думаю, что это и то, и другое, но вы также высказали еще один очень важный момент.

мартин касадо

я думаю, что на самом деле в области алгоритмов существуют две разные эпохи. эпоха imagenet — это эпоха контролируемого обучения. в наше время у нас много данных, но мы не знаем, как тренироваться, используя только сами данные.

ожидание от imagenet и других современных наборов данных заключалось в том, что у нас будет много изображений, но нам понадобятся люди, которые будут аннотировать каждое изображение. все данные, на которых мы обучались, просматривались и аннотировались один за другим аннотаторами-людьми.

большим прорывом для алгоритмов является то, что теперь мы знаем, как тренироваться на данных, которые не зависят от человеческих аннотаций. обычному человеку, не имеющему опыта работы с искусственным интеллектом, кажется, что если вы тренируетесь на человеческих данных, люди на самом деле сделали аннотацию, но эта аннотация не является явной.

джастин джонсон

да, с философской точки зрения это очень важный вопрос, но он более верен в сфере языка, чем в сфере образов. да, но я думаю, что это важное различие. clip действительно аннотируется людьми. я думаю, что механизм внимания к себе заключается в том, что люди понимают отношения между вещами, а затем вы учитесь через эти отношения.

таким образом, люди все еще комментируют его, но эта аннотация является скорее неявной, чем явной. разница в том, что в эпоху контролируемого обучения наши учебные задачи более ограничены. мы должны разработать онтологию понятий, которые хотим открыть.

например, в imagenet фей-фей ли и ее ученики потратили много времени на размышления о том, какими должны быть тысяча категорий в конкурсе imagenet. в то же время в других наборах данных, таких как набор данных coco, используемый для обнаружения целей, они также много думали о том, какие 80 категорий в него включить.

мартин касадо

итак, давайте поговорим о генеративном ии. когда я защитил докторскую диссертацию, до того, как вы, ребята, пришли, я прошел курс машинного обучения эндрю нга и очень сложный байесовский курс дафны коллер, который был очень сложен для меня.

тогда по большей части это было прогнозное моделирование. я помню, как вы открыли всю эту штуку со зрением, но генеративный ии появился только последние четыре года или около того. для меня это совершенно другая сфера — ты больше не идентифицируешь объекты, ты ничего не предсказываешь, ты генерируешь новые вещи.

так может быть, мы сможем поговорить о том, каковы ключевые факторы, которые делают возможным генеративный ии, чем он отличается от того, что было раньше, и следует ли нам смотреть на него по-другому, является ли это частью непрерывного развития или другой совершенно новой областью?

фэйфей ли

очень интересно, что генеративные модели существуют еще со времен моего окончания аспирантуры. мы тогда хотели сделать генерацию, но никто не вспомнил, что даже если мы делали генерацию с буквами и цифрами, мы что-то пробовали. у джеффа хинтона в то время было несколько статей по генерации, и мы тоже думали о том, как генерировать.

на самом деле, если посмотреть на это с точки зрения распределения вероятностей, его можно сгенерировать математически, но то, что было сгенерировано в то время, вовсе не было чем-то удивительным. итак, хотя концепция генерации существует с математической точки зрения, на самом деле не существует удовлетворительного эффекта генерации.

затем я хотел бы особо упомянуть аспиранта, который пришел в мою лабораторию с большим интересом к глубокому обучению. весь опыт докторантуры этого докторанта можно назвать практически микрокосмом траектории развития этой области.

его первым проектом были данные, и я заставил его это сделать. хотя ему это не понравилось, позже он признался, что узнал много полезного. «я рад, что вы это сказали». итак, мы обратились к глубокому обучению, и основная проблема заключалась в том, как генерировать текст из изображений. фактически, в этом процессе можно выделить три четких этапа.

первый этап – сопоставление изображений и текста. у нас есть изображения и текст, и теперь нам нужно посмотреть, как они связаны. моя первая научная работа, а также моя первая докторская диссертация, посвящена поиску изображений на основе графов сцен. далее мы продолжаем углубленно изучать и генерировать текст из пикселей. и он, и андрей проделали большую работу в этом плане, но это все еще метод генерации с очень потерями, и информация сильно теряется при ее получении из. пиксельный мир.

на средней стадии была очень известная работа. в то время кто-то впервые реализовал ее в реальном времени. в 2015 году под руководством леона гатиса была опубликована статья «художественный стиль нейронных алгоритмов». они продемонстрировали преобразование реальных фотографий в изображения в стиле ван гога.

сейчас мы можем принять это как должное, но это было в 2015 году, и эта статья появилась на arxiv и шокировала меня. у меня такое ощущение, будто мне в мозг ввели «вирус, генерирующий искусственный интеллект». я подумал про себя: «о боже, мне нужно понять этот алгоритм, поиграть с ним и попытаться сделать свои фотографии похожими на ван гога».

итак, я провел длинные выходные, переписывая алгоритм, чтобы он работал правильно. на самом деле это очень простой алгоритм. в моей реализации было всего около 300 строк кода. в то время он был написан на lua, поскольку в то время не было pytorch, поэтому мы использовали lua torch. но несмотря на простоту алгоритма, он очень медленный. каждый раз, когда вы генерируете изображение, вам нужно запускать цикл оптимизации, который занимает много времени. полученные изображения прекрасны, но мне бы хотелось, чтобы это было немного быстрее. наконец-то мы сделали это быстрее.

еще одна вещь, которой я очень горжусь, это то, что он проделал очень передовую работу в последней части своего докторского исследования до того, как генеративный ии действительно вышел в мир. этот проект генерирует полные изображения путем ввода естественного языка, что можно назвать одним из первых проектов в области генеративного искусственного интеллекта. мы использовали gan, но в то время их было очень сложно использовать. проблема в том, что мы еще не готовы описать полный образ естественным языком.

итак, он использовал метод ввода структуры графа сцены, а входным содержимым были «овца», «трава», «небо» и т. д., и использовал этот метод для создания полного изображения.

от сопоставления данных до переноса стиля и генерации изображений мы постепенно наблюдаем полную трансформацию. вы спрашиваете, является ли это огромным изменением, для таких людей, как мы, это непрерывный процесс, но для масс результаты кажутся внезапными и впечатляющими.

мартин касадо

я прочитал вашу книгу, и это замечательная книга, которую я настоятельно рекомендую всем прочитать. и, фей-фей, я хочу сказать, что в течение долгого времени многие из ваших исследований и направлений были сосредоточены на таких областях, как пространственный интеллект и обработка пикселей. мировые лаборатории, над которыми вы сейчас работаете, также связаны с пространственным интеллектом. можете ли вы сказать, что это часть вашего долгосрочного путешествия? почему вы решили сделать это сейчас? это какой-то технологический прорыв или личные причины? можете ли вы перенести нас из контекста исследований ии в world labs?

фэй-фэй ли

для меня это одновременно личное занятие и интеллектуальное путешествие. вы упомянули мою книгу, и весь мой интеллектуальный путь на самом деле был поиском «полярных звезд» и твердой верой в то, что эти полярные звезды имеют решающее значение для развития нашей области.

помню, вначале, после аспирантуры, я думал, что моя полярная звезда «рассказывает истории посредством изображений», потому что для меня это большая часть визуального интеллекта, того, что вы называете частью ии.

но когда джастин и андрей закончили свою работу, я подумал: «о боже, это мечта всей моей жизни, что мне делать дальше?» для достижения этой цели потребуются сотни лет.

визуальный интеллект всегда был моей страстью. я твердо верю, что для каждого разумного существа, будь то человек, робот или другая форма существа, крайне важно научиться видеть мир, рассуждать и взаимодействовать с миром. будь то навигация, управление, производство или даже строительство цивилизации, визуальный и пространственный интеллект играет фундаментальную роль.

он может быть таким же фундаментальным, как язык, а в некотором смысле даже более древним и фундаментальным. таким образом, полярная звезда world labs призвана открыть космическую разведку, и сейчас самое подходящее время.

как сказал джастин, у нас уже есть необходимые ресурсы — вычислительная мощность и более глубокое понимание данных. мы стали более опытными в понимании данных, чем в эпоху imagenet.

у нас также есть достижения в области алгоритмов, такие как передовая работа над nerf наших соучредителей бена милденхолла и кристофа ласснера. мы считаем, что сейчас подходящее время, чтобы принять решение, сосредоточиться на этой области и раскрыть ее потенциал.

мартин касадо

чтобы всем было ясно, вы основали компанию world labs, и проблема, которую вы хотите решить, — это «пространственный интеллект». можете ли вы кратко описать, что такое пространственный интеллект?

фэй-фэй ли

пространственный интеллект — это способность машин понимать, воспринимать, рассуждать и действовать в трехмерном пространстве и времени. в частности, это относится к пониманию того, как объекты и события расположены в трехмерном пространстве и времени и как взаимодействия в мире влияют на эти трехмерные положения.

речь идет не только о том, чтобы позволить машинам оставаться в центрах обработки данных или на хостах, но и о том, чтобы позволить им выйти в реальный мир и понять этот богатый 3d и 4d мир.

мартин касадо

относится ли «мир», о котором вы говорите, к реальному физическому миру или к абстрактному концептуальному миру?

фэй-фэй ли

я думаю, что и то, и другое. это также отражает наше долгосрочное видение. даже если вы создаете виртуальный мир или контент, позиционирование в 3d все равно дает много преимуществ. или, когда вы идентифицируете реальный мир, частью этого является возможность применить трехмерное понимание к реальному миру.

мартин касадо

ваша команда соучредителей действительно очень сильна. так почему же вы думаете, что сейчас подходящее время для этого?

фэй-фэй ли

на самом деле это длительный эволюционный процесс. после получения докторской степени я начал искать путь к тому, чтобы стать независимым исследователем и задуматься над важными вопросами в области искусственного интеллекта и компьютерного зрения. тогда я пришел к выводу, что последнее десятилетие было посвящено пониманию уже существующих данных, а следующее десятилетие будет посвящено пониманию новых данных.

данные прошлого представляли собой в основном изображения и видео, которые уже существовали в интернете, но данные будущего совершенно новые – появление смартфонов, которые имеют камеры, новые датчики и могут позиционироваться в 3d-мире. это не просто вопрос того, что вы берете кучу пикселей из интернета и пытаетесь определить, кошка это или собака.

мы надеемся рассматривать эти изображения как универсальные датчики физического мира, помогая нам понять трехмерную и четырехмерную структуру мира как в физическом, так и в генеративном пространстве.

после получения докторской степени я совершил большой сдвиг и вошел в область трехмерного компьютерного зрения, работая со своими коллегами над тем, как предсказывать трехмерную форму объектов. позже меня очень заинтересовала идея изучения 3d-структур на основе 2d-данных.

когда мы обсуждаем данные, мы часто упоминаем, что получить 3d-данные сложно, но на самом деле 2d-изображения — это проекции трехмерного мира, и существует множество математических структур, которые можно использовать. даже если у вас много 2d-данных, вы можете вывести структуру 3d-мира с помощью этих математических структур.

2020 год – момент прорыва. наш соучредитель бен милденхолл предложил метод nerf (нейронное радиационное поле). это очень простой и понятный способ выводить 3d-структуры на основе 2d-наблюдений, зажигая всю область 3d-компьютерного зрения.

в то же время начало появляться и llm. многие работы по языковому моделированию уже давно проводятся в академических кругах. еще во время работы над докторской диссертацией я работал над языковым моделированием с андреем карпати в 2014 году.

джастин джонсон

на самом деле это было то, что появилось до transformer, но в эпоху gpt-2 вам сложно создавать такие модели в научных кругах, потому что они требуют слишком много вычислительных ресурсов. однако, что интересно, метод nerf, предложенный беном, требует всего лишь нескольких часов обучения на одном графическом процессоре.

это заставило многих академических исследователей переориентироваться на эти проблемы, поскольку некоторые основные алгоритмические проблемы можно решить с помощью ограниченных вычислительных ресурсов, и вы можете получить самые современные результаты на одном графическом процессоре. в то время многие академические исследователи думали: как мы можем способствовать развитию этой области с помощью основных алгоритмов? мы с фей-феем много говорили и оба глубоко в этом убеждены.

фэй-фэй ли

да, мы обнаруживаем, что направления наших исследований в некоторой степени движутся к схожим целям. еще хочу рассказать очень интересный технический вопрос, или техническую историю о пикселях.

многие люди, занимающиеся языковыми исследованиями, возможно, не знают, что до эпохи генеративного искусственного интеллекта те из нас, кто занимается компьютерным зрением, на самом деле имели долгую историю исследований под названием 3d-реконструкция.

это восходит к 1970-м годам, и вы могли делать фотографии — поскольку у людей два глаза, вы могли использовать стереофотографии, чтобы попытаться триангулировать и построить трехмерные формы. однако это очень сложная задача, которая еще не решена полностью из-за таких сложностей, как проблемы сопоставления.

в этой области наблюдается долгая история прогресса, но когда nerf объединяется с генеративными методами, особенно в контексте диффузионных моделей, 3d-реконструкция и генерация внезапно начинают сливаться. в области компьютерного зрения мы внезапно обнаружили, что если мы что-то видим или представляем себе, то и то, и другое может сходиться в направлении его генерации. это очень важный момент, но многие его могут не заметить, потому что мы не говорим об этом так подробно, как о llm.

джастин джонсон

да, существует реконструкция в пиксельном пространстве: например, вы реконструируете реальную сцену, и если вы не видите эту сцену, вы используете генеративные методы; на самом деле эти двое очень похожи. на протяжении всего разговора вы говорили о языке и пикселях, так что, возможно, сейчас самое время поговорить о пространственном интеллекте и языковых подходах, например, дополняют ли они друг друга или совершенно различны?

фэй-фэй ли

я думаю, они дополняют друг друга. я не знаю, как определить «совершенно разные», но могу попытаться сравнить. сегодня многие говорят о gpt, открытом искусственном интеллекте и мультимодальных моделях. чувствуется, что эти модели могут обрабатывать как пиксели, так и язык. так смогут ли они достичь желаемого нами пространственного мышления? чтобы ответить на этот вопрос, нам нужно открыть «черный ящик» этих систем и посмотреть, как они работают под капотом.

базовое представление языковых моделей и мультимодальных языковых моделей, которые мы видим сейчас, является «одномерным». мы говорим о длине контекста, трансформерах, последовательностях, механизмах внимания, но, в конце концов, представление этих моделей основано на одномерных сериализованных токенах.

такое представление очень естественно при работе с языком, поскольку сам текст состоит из одномерных последовательностей дискретных букв. это одномерное представление является основой успеха llm, и то же самое верно и для мультимодального llm, который мы видим сейчас, который «жестко закрепляет» другие модальности (например, изображения) в этом одномерном представлении.

в области пространственного интеллекта мы думаем прямо противоположно — мы считаем, что трехмерная природа мира должна быть ядром представления. с алгоритмической точки зрения это открывает нам новые возможности для обработки данных и получения различных типов результатов, помогая нам решать совершенно разные проблемы.

даже на грубом уровне вы могли бы сказать: «мультимодальные llm также могут видеть изображения». действительно, они могут, но они не ставят природу трех измерений в основу своего подхода при обработке изображений.

джастин джонсон

я полностью согласен с тем, что очень важно обсудить фундаментальную разницу между одномерным и трехмерным представлением. кроме того, есть несколько более философский момент, но для меня не менее важный: язык — это, по сути, чисто сгенерированный сигнал, и языка в мире не существует. вы не увидите надписи на небе, когда выйдете на природу. независимо от того, какие данные вы вводите, языковая модель может выдать почти одни и те же данные с достаточной степенью обобщения. такова природа генерации языка.

но трехмерный мир другой. он подчиняется законам физики и имеет свою структуру и материалы. возможность по существу извлечь эту информацию, представить ее и сгенерировать — это проблема совершенно другого рода. хотя мы и позаимствуем некоторые полезные идеи из языковых моделей, это принципиально другой философский вопрос.

мартин касадо

верно, поэтому языковая модель является одномерной и, вероятно, плохо отражает физический мир, поскольку она создана человеком с потерями. еще одна модальность генеративных моделей — это пиксели, которые представляют собой 2d-изображения и видео. если вы посмотрите видео, вы увидите 3d-сцену, потому что камера может панорамировать. так в чем же разница между пространственным интеллектом и 2d-видео?

фэй-фэй ли

здесь стоит задуматься о двух моментах. одним из них является базовое представление, а другим — удобство взаимодействия с пользователем. иногда эти два понятия путают. то, что мы воспринимаем, является 2d — наша сетчатка представляет собой двухмерную структуру, но наш мозг видит в ней проекцию трехмерного мира.

возможно, вам захочется переместить объекты, переместить камеру и, в принципе, вы могли бы делать это с 2d-представлениями и моделями, но это не подходит для задачи, которую вы задаете. двумерную проекцию динамического трехмерного мира можно смоделировать, но размещение трехмерного представления в основе модели лучше соответствует потребностям проблемы.

наша цель — интегрировать больше 3d-представлений в ядро ​​модели, чтобы обеспечить удобство для пользователей. это также связано с моей «полярной звездой». почему мы делаем упор на «пространственный интеллект», а не на «интеллект плоских пикселей»?

из-за траектории развития интеллекта, если оглянуться назад на историю эволюции, его конечная цель — позволить животным и людям свободно перемещаться по миру, взаимодействовать, создавать цивилизацию и даже делать бутерброды. таким образом, воплощение этой трехмерной сущности в технологию является ключом к раскрытию бесчисленных потенциальных приложений, даже если некоторые из них могут показаться поверхностными достижениями.

мартин касадо

я думаю, что это очень тонкий, но решающий момент. возможно, мы сможем углубиться в эту дискуссию, рассказав о некоторых сценариях применения. когда мы говорим о разработке технологической модели, обеспечивающей пространственный интеллект, как это конкретно может выглядеть? каковы возможные сценарии применения?

фэй-фэй ли

модель пространственного интеллекта, которую мы представляем, может делать много вещей, одна из которых меня особенно волнует, — это «генерация мира». подобно генераторам текста и изображений, теперь у нас есть генераторы текста и видео — введите изображение или видео, и система сгенерирует потрясающий двухсекундный клип. но я думаю, что мы можем перенести этот опыт в трехмерный мир.

мы можем представить, что пространственный интеллект поможет нам в будущем обновить этот опыт до 3d, не просто создавая изображение или видео, но создавая полный, смоделированный и богатый интерактивный трехмерный мир. может, для игр, может, для виртуальной фотографии, области применения настолько широки, что невообразимо.

джастин джонсон

я думаю, что со временем технология улучшится. создавать такие вещи очень сложно, поэтому статическая проблема может быть относительно простой, но в долгосрочной перспективе мы хотим, чтобы она была полностью динамичной, интерактивной, со всем, что вы только что описали.

фэй-фэй ли

да, это само определение пространственного интеллекта. мы начнем с более статических вопросов, но все, что вы упомянули, — дело будущего пространственного интеллекта.

джастин джонсон

это отражено и в названии нашей компании «world labs» — название о построении и понимании мира. когда мы говорим людям имя, они сначала не всегда его понимают, потому что в области компьютерного зрения, реконструкции и генерации мы часто различаем, что мы можем сделать. первый уровень — распознавать объекты, такие как микрофоны, стулья и другие отдельные объекты в мире. большая часть работы imagenet связана с распознаванием объектов.

но затем мы переходим на уровень сцен — сцены состоят из объектов. например, сейчас у нас есть студия звукозаписи со столом, микрофоном и людьми, сидящими на стульях, что представляет собой комбинацию предметов. но «мир», который мы представляем, выходит за рамки сцен. сцена может быть одной вещью, но мы хотим разрушить эти границы и выйти наружу, на улицу, увидеть проезжающий мимо транспорт, увидеть листья, покачивающиеся на ветру, и иметь возможность взаимодействовать с этими вещами.

фэй-фэй ли

еще одна очень интересная вещь связана с термином «новые медиа». благодаря этой технологии границы между реальным миром, виртуальным воображаемым миром или дополненным и предсказанным миром становятся размытыми. реальный мир трехмерен, поэтому в цифровом мире трехмерное представление необходимо для слияния с реальным миром. вы не можете эффективно взаимодействовать с реальным трехмерным миром только в 2d или даже в 1d.

эта возможность открывает неограниченное количество сценариев применения. как и в первом сценарии применения, упомянутом джастином, создание виртуального мира можно использовать для любых целей. вторым может быть дополненная реальность. примерно в то время, когда была основана world labs, apple выпустила vision pro, и они использовали термин «пространственные вычисления». мы говорим почти об одном и том же, подчеркиваем «пространственный интеллект». нет сомнений в том, что пространственные вычисления требуют пространственного интеллекта.

мы не знаем, как будут выглядеть будущие виды оборудования – это могут быть защитные очки, очки или даже контактные линзы. но на стыке между реальным и виртуальным мирами, будь то повышение вашей работоспособности, помощь в ремонте автомобиля, даже если вы не профессиональный механик, или просто предоставление развлечений в духе pokemon go++, эта технология станет операционной системой для ar/vr.

джастин джонсон

в крайнем случае, ar-устройству необходимо всегда сопровождать вас, понимать мир, который вы видите в реальном времени, и помогать вам выполнять задачи в повседневной жизни. я очень воодушевлен этим, особенно слиянием виртуального и реальности. когда вы сможете прекрасно понимать свое окружение в 3d в реальном времени, это может даже заменить некоторые вещи в реальном мире.

например, теперь у нас есть экраны разных размеров — ipad, компьютерные мониторы, телевизоры, часы и т. д. — которые представляют информацию в разных сценариях. но если мы сможем плавно объединить виртуальный контент с физическим миром, эти устройства больше не будут нужны. виртуальные миры могут показать вам необходимую информацию в нужный момент и самым подходящим способом.

еще одно огромное применение — смешивание цифрового виртуального мира с трехмерным физическим миром, особенно в робототехнике. роботы должны действовать в физическом мире, в то время как их компьютеры и мозг находятся в цифровом мире. мост между обучением и поведением должен быть построен с помощью пространственного интеллекта.

мартин касадо

вы упомянули виртуальные миры, дополненную реальность, а теперь говорите о чисто физическом мире, например в робототехнике. это очень широкая область, особенно если вы планируете работать в этих разных областях. как вы видите глубокие технологии, относящиеся к этим конкретным областям применения?

фэй-фэй ли

мы считаем себя компанией, занимающейся глубокими технологиями, компанией-платформой, предоставляющей модели, которые могут использоваться в различных сценариях применения. что касается того, какой сценарий применения больше подходит для того, на чем мы сосредоточились вначале, я считаю, что нынешнее оборудование недостаточно совершенно.

свою первую vr-гарнитуру я получил, когда учился в аспирантуре. когда я надел его, я подумал про себя: «боже мой, это безумие. я уверен, что у многих людей возникает подобный опыт при первом использовании vr!»

мне так нравится vision pro, что я засиживался допоздна в тот день, когда он был выпущен, чтобы купить его, но сейчас он еще не полностью созрел как платформа для массового рынка. поэтому мы как компания можем выбрать для выхода на уже более зрелый рынок.

иногда простота проявляется в универсальности. у нас есть видение компании, занимающейся глубокими технологиями, и мы считаем, что существуют некоторые фундаментальные проблемы, которые необходимо хорошо решить, и если они будут хорошо решены, их можно будет применить во многих различных областях. мы считаем, что долгосрочной целью компании является создание и реализация мечты о пространственном интеллекте.

джастин джонсон

на самом деле, я думаю, именно здесь и проявляется влияние того, что вы делаете. я не думаю, что мы когда-нибудь добьемся этого, потому что это очень фундаментальная вещь: вселенная, по сути, представляет собой развивающуюся четырехмерную структуру, а пространственный интеллект в широком смысле заключается в понимании всей глубины этой структуры и обнаружении все приложение. итак, хотя сегодня у нас есть определенный набор идей, я верю, что это путешествие приведет нас в места, которые мы сейчас просто не можем себе представить.

фэй-фэй ли

самое удивительное в технологиях то, что они продолжают открывать все больше возможностей. по мере нашего дальнейшего продвижения эти возможности будут продолжать расширяться.

венчурные инвестиции в стартапы в области ии в этом году достигли 64,1 миллиарда долларов сша, что близко к пику 2021 года, но общий мировой годовой доход от ии составляет всего лишь десятки миллиардов долларов сша.