«Крестная мать ИИ» Ли Фейфэй: Сора по-прежнему представляет собой двухмерное изображение, и только трехмерный космический интеллект может достичь AGI

«Крестная мать искусственного интеллекта» Ли Фейфэй: Сора по-прежнему представляет собой двухмерное изображение, и только трехмерный космический интеллект может достичь AGI｜Titanium Media

2024-08-03

Приложение TMTpost сообщило 2 августа, что на закрытом заседании Форума азиатско-американских ученых, проводимом Стэнфордским университетом,Ли Фейфей, профессор Стэнфордского университета, известная как «Крестная мать искусственного интеллекта», эксклюзивно рассказала TMTpost App, что, хотя модель Sora американской компании OpenAI может генерировать видео, по сути, это все же плоская двумерная модель и не имеет способности понимать трехмерные объекты. Только «пространственный интеллект» — это будущее направление AGI.

Ли Фейфей дал вышеупомянутый ответ, обсуждая взаимосвязь между моделью «пространственного интеллекта» и моделью большого языка, предложенной основателем TMTpost Media Чжао Хэцзюанем. Далее она объяснила, что большинство современных моделей, таких как GPT4o и Gemini 1.5, по-прежнему являются языковыми моделями, то есть языком ввода и языком вывода. Хотя существуют также мультимодальные модели, они все равно ограничены языком, даже если есть видео. , они основаны на двумерном плоском изображении. Но ключом к реализации AGI в будущем является «пространственный интеллект», для которого требуется трехмерная визуальная модель.

В качестве примера она использовала видео AI «Японские женщины, идущие по освещенным неоновым светом улицам Токио», показанное Сорой.

«Если вы хотите, чтобы алгоритм изменил угол, чтобы показать видео женщины, идущей по улице, например, поместив камеру позади женщины, Сора не сможет этого сделать. Потому что эта модель на самом деле не имеет глубокого понимания происходящего. Трехмерный мир. Люди могут делать это мысленно. «Представьте себе сцену позади женщины». Ли Фейфей сказал: «Люди могут понять, как двигаться в сложных условиях. Мы знаем, как хватать, как контролировать, как». строить инструменты и как строить города. По сути, пространственный интеллект — это геометрия. Отношения между объектами — это трехмерное пространство. Пространственный интеллект — это высвобождение способности создавать (визуальные карты), рассуждать и планировать действия в трехмерном пространстве. Его приложения разнообразны, например, для AR и VR, для роботов, а также необходим пространственный интеллект».

Ли Фейфей подчеркнул в интервью TMTpost App: «Естественная эволюция позволяет животным понимать трехмерный мир, жить, предсказывать и взаимодействовать в трехмерном пространстве. Эта способность имеет долгую историю, насчитывающую 540 миллионов лет, когда трилобиты впервые увидели свет в воде. , он должен «ориентироваться» в трехмерном мире. Если он не сможет «ориентироваться» в трехмерном мире, он быстро станет пиршеством для других животных. По мере развития пространственный интеллект животных усиливается. наша способность понимать формы. Понимание глубины».

Ли Фейфей, 48 лет, — известный ученый-компьютерщик, академик Национальной инженерной академии и Национальной медицинской академии, а также глава Исследовательского института человеко-ориентированного искусственного интеллекта в Стэнфордском университете в США. В 2009 году она руководила разработкой базы данных изображений ImageNet и конкурсом по визуальному распознаванию, точно комментируя и классифицируя большие изображения, способствуя развитию возможностей распознавания компьютерного зрения, а также являясь одним из ключевых факторов, способствующих быстрому развитию искусственного интеллекта. В прошлом году VoxPoser, о котором она объявила, стал ключевым технологическим направлением развития Embodied AI.

В июле этого года компания World Labs, занимающаяся искусственным интеллектом, основанная Ли Фейфеем, объявила о завершении двух раундов финансирования. В число инвесторов входят a16z (Andreessen Horowitz) и др.Последняя оценка компании достигла 1 миллиарда долларов США (приблизительно 7,26 миллиарда юаней).

На закрытом форуме азиатско-американских ученых в конце июля выступление Ли Фейфэй также позволило большему количеству людей понять, что такое Word Labs и ее концепция развития «пространственного интеллекта», то есть сделать ИИ по-настоящему «от наблюдения к действию». ».

Как перейти от «видеть» к «делать»

Так называемый «пространственный интеллект» относится к способности людей или машин воспринимать, понимать и взаимодействовать в трехмерном пространстве.

Эта концепция была впервые предложена американским психологом Говардом Гарднером в теории множественного интеллекта, которая позволяет формировать в мозгу модель внешнего пространственного мира, которую можно использовать и манипулировать ею. Фактически, пространственный интеллект позволяет людям мыслить трехмерно, позволяя им воспринимать внешние и внутренние изображения, а также воспроизводить, преобразовывать или изменять изображения, чтобы они могли спокойно перемещаться в пространстве и делать все, что захотят. положение объектов для генерации или интерпретации графической информации.

В широком смысле пространственный интеллект включает в себя не только способность воспринимать пространственную ориентацию, но также способность к визуальному различению и образному мышлению. Для машин пространственный интеллект означает их способность обрабатывать визуальные данные в трехмерном пространстве, точно делать прогнозы и предпринимать действия на основе этих прогнозов. Эта способность позволяет машинам перемещаться, работать и принимать решения в сложном трехмерном мире, подобно людям, тем самым преодолевая ограничения традиционного двухмерного видения.

Выступая на конференции TED в апреле этого года, Ли Фейфэй откровенно сказал, что зрительные способности спровоцировали Кембрийский взрыв, а эволюция нервной системы привела к появлению интеллекта. «Нам нужен не просто ИИ, который может видеть и говорить, нам нужен ИИ, который может это делать».

По мнению Ли Фейфея, пространственный интеллект — это «ключевое магическое оружие для решения технических проблем ИИ».

На закрытом мероприятии в конце июля Ли Фейфэй впервые рассмотрел три основные движущие силы современного искусственного интеллекта, возникшие 10 лет назад: «нейронные сети», состоящие из алгоритмов, то есть «глубокого обучения», в основном современных чипов; Чипы NVIDIA GPU и большие данные.

С 2009 года область компьютерного зрения добилась взрывного прогресса. Машины могут быстро распознавать объекты и соответствовать действиям человека. Но это лишь верхушка айсберга. Компьютерное зрение может не только идентифицировать неподвижные объекты и отслеживать движущиеся объекты, но также разделять объекты на разные части и даже понимать взаимосвязь между объектами. Таким образом, на основе больших данных изображений область компьютерного зрения продвинулась семимильными шагами.

Ли Фейфей хорошо помнит, что около 10 лет назад ее ученик Андрей Карпати участвовал в исследовании по созданию алгоритмов смайлов. Они показывали компьютеру картинку, а затем через нейронную сеть компьютер мог выводить естественный язык, например: «Это кот лежит на кровати».

«Я помню, как говорил Андрею: давайте перевернем это. Например, напишите предложение и попросите компьютер дать картинку. Мы все смеялись, думая, что это может никогда не быть реализовано или это будет реализовано в далеком будущем», — Ли Фейфэй. напомнил.

За последние два года технология генеративного искусственного интеллекта быстро развивалась. Тем более, несколько месяцев назад OpenAI выпустила алгоритм генерации видео Sora. Она продемонстрировала аналогичный продукт превосходного качества, разработанный ее студентами в Google. Этот продукт существовал за несколько месяцев до выпуска Sora и использовал гораздо меньший графический процессор, чем Sora. Вопрос в том, куда пойдет ИИ дальше?

«В течение многих лет я говорил, что «видеть» — значит «понимать мир». Но я хотел бы пойти дальше в этой концепции и «видеть» — это не просто понимать, но и делать. Природа создает вещи, подобные нам. Животные, обладающие разумом, но такие животные на самом деле существовали 450 миллионов лет назад, потому что это необходимое условие эволюции: видение и действие — это замкнутый цикл», — сказал Ли Фейфэй.

В качестве примера она привела своего любимого кота.

Фотография кота, стакана молока и растений на столе. Когда вы видите эту фотографию, у вас в голове действительно возникает трехмерное видео. Вы видите формы, вы видите геометрию.

Фактически вы видите, что произошло несколько секунд назад и что может произойти несколько секунд спустя. Вы видите это фото в трех измерениях. Вы планируете, что делать дальше. Ваш мозг лихорадочно прикидывает, что вы можете сделать, чтобы спасти свой ковер, тем более, что и кошка ваша, и ковер ваш.

«Я называю все это пространственным интеллектом, который моделирует трехмерный мир и рассуждает об объектах, местах, событиях и т. д. в трехмерном пространстве и времени. В этом примере я говорю о реальном мире, но также Это может относиться к виртуальному миру. Но суть пространственного интеллекта заключается в том, чтобы соединить «видение» и «действие». Однажды ИИ сможет это сделать», — сказал Ли Фейфэй.

Во-вторых, Ли Фейфэй показала 3D-видео, реконструированное на основе нескольких фотографий, а затем 3D-видео на основе одной фотографии. Эти технологии можно использовать в дизайне.

Ли Фейфей сказал, что воплощенный разумный искусственный интеллект или роботы-гуманоиды могут образовывать замкнутый цикл между «видением» и «действием».

Она сказала, что коллеги из Стэнфордского университета и гиганта микросхем NVIDIA совместно проводят исследование под названием BEHAVIOR, чтобы создать эталонное динамическое пространство для домашней деятельности и оценить производительность различных роботов в домашней среде. «Мы ищем способ связать языковые модели с большими визуальными моделями, чтобы робот мог составить план и инициировать действие», — сказала она. Она привела три примера: один — робот, открывающий ящик, другой — робот, отсоединяющий кабель для зарядки мобильного телефона, а третий — робот, делающий бутерброд. Все инструкции даются на естественном человеческом языке.

Наконец, она привела пример, полагая, что будущее принадлежит миру «пространственного интеллекта», где люди могут сидеть там, носить шляпу ЭЭГ с датчиками и, не открывая рта, чтобы говорить, они могут удаленно сообщать роботам с помощью всего лишь своего мысли: приготовить обед в японском стиле. После того как робот получает идею, он ее расшифровывает и может приготовить полноценный обед.

«Когда мы соединяем «видение» и «действие» посредством пространственного интеллекта, мы можем это сделать», — сказала она.

Ли Фейфэй также сказала, что за последние 20 лет она стала свидетельницей захватывающего развития искусственного интеллекта. Однако она считает, что ключом к ИИ или ОИИ является пространственный интеллект. Благодаря пространственному интеллекту мы можем видеть мир, воспринимать мир, понимать мир и позволять роботу делать что-то, образуя таким образом эффективный замкнутый цикл.

Захватят ли роботы человечество?

Ли Фейфэй заявил на встрече, что сегодня люди слишком преувеличивают возможности ИИ в будущем. Она предостерегает от того, чтобы путать амбициозные и смелые цели с реальностью — рефрен, который мы слышим слишком часто.

Фактически, искусственный интеллект достиг переломного момента, особенно большие языковые модели. «Тем не менее, это по-прежнему ограниченная технология, наполненная ошибками, которая по-прежнему требует от людей глубокого участия в ней и понимания ее ограничений. Очень опасным аргументом сейчас является так называемый риск вымирания человечества, то есть ИИ становится машина-повелитель людей: «Я думаю, что это очень опасно для общества, и такая риторика будет иметь множество непредвиденных последствий. Нам нужны вдумчивые, сбалансированные и непредвзятые коммуникации и образование в области ИИ», — сказал Ли Фейфэй. . подчеркнул.

Ли Фейфэй считает, что искусственный интеллект должен быть основан на людях. Люди создали его, люди его развивают, люди используют его, и люди также должны этим управлять.

Ли Фейфэй рассказал, что в Институте «Человекоориентированного ИИ» Стэнфордского университета приняты три подхода к ИИ, включая три уровня: индивидуум, сообщество и общество:

На индивидуальном уровне ИИ должен быть задействован и принят. Это цивилизованная технология. ИИ меняет то, как учатся дети, как врачи используют методы диагностики, как художники создают дизайн и как преподают учителя. Независимо от того, являетесь ли вы техническим специалистом или нет, вы можете играть свою роль и ответственно использовать ИИ.
На уровне сообщества ИИ может расширить возможности сообщества и удовлетворить его потребности в защите окружающей среды или потребности сельского хозяйства. Некоторые фермерские сообщества используют технологии машинного обучения для мониторинга качества воды. Сообщество художников не только использует ИИ, но и высказывает свои опасения и идеи о том, как решить проблемы и снизить риски.
На уровне общества правительства, исследовательские институты, предприятия, федеральные агентства и международные агентства должны серьезно отнестись к этой технологии. Существует энергетическая проблема, и она имеет геополитические последствия. До сих пор идет большая дискуссия между открытым исходным кодом и неоткрытым исходным кодом, которая влияет на экономику и экологию. Все еще существуют проблемы управления, такие как риски и безопасность ИИ. Мы должны принять позитивный подход, подход с участием многих заинтересованных сторон и подход с участием всего общества. Пути назад сейчас нет, сказал Ли Фейфэй. Она возглавляла проект искусственного интеллекта в Google с 2017 по 2018 год, была членом совета директоров Twitter с 2020 по 2022 год, а в настоящее время является советником по искусственному интеллекту в Белом доме.

Что касается влияния ИИ на работу, Ли Фейфэй поделилась своим мнением.

Ли Фейфей отметил, что в Институте человекоориентированного искусственного интеллекта Стэнфордского университета существует лаборатория цифровой экономики, которую возглавляет профессор Эрик Бриньольфссон. В этом очень сложном вопросе много слоев. Она особо подчеркнула, что «работа» и «задача» — это два разных понятия, поскольку на самом деле работа каждого состоит из множества задач.

В качестве примера она привела американских медсестер. Подсчитано, что за восьмичасовую смену медсестра выполняет сотни задач. Поэтому, когда люди обсуждают, как ИИ захватывает или заменяет человеческие рабочие места, они должны различать, заменяет ли он задачи или рабочие места?

Ли Фейфэй считает, что ИИ изменил множество задач в рамках работы и, следовательно, постепенно изменит характер работы. В сценарии колл-центра качество работы новичков было улучшено с помощью ИИ на 30%, но качество работы квалифицированного персонала с помощью ИИ не улучшилось. Мнения Фей-Фей Ли отражены в статье Лаборатории цифровой экономики Стэнфордского университета, которая озаглавлена: «ИИ не заменит рабочие места менеджеров: менеджеры, использующие ИИ, заменяют менеджеров, которые этого не делают».

Ли Фейфей подчеркнул, что наука и технологии приведут к прогрессу в производительности, но прогресс в производительности не приведет автоматически к общему процветанию общества. Она отметила, что подобные инциденты происходили много раз в истории.

(Эта статья была впервые опубликована в приложении Titanium Media, автор｜Chelsea_Sun, редактор｜Лин Чжицзя)

Новости

Введение

моя контактная информация