Моя контактная информация
Почта[email protected]
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Соединенные Штаты не являются моделью для Китая.
Текст丨Ван Ютун
Редактор: Чэн Манци
В мае этого года на завод в Техасе в США пришла новая группа рабочих ростом 1,72 метра. Они отвечали за загрузку цилиндрических аккумуляторных элементов 4680 с передаточного стола в красную коробку перед ними. . Они не очень умелы, даже медлительны и неуклюжи. Но эти работники — Оптимус, человекоподобный робот Тесла, который выпустят в 2022 году, и всё по-другому.
«Идеальные сценарии использования», «быстрый прогресс» и «предупреждение о безработице» под видео роботов, выпущенным Tesla, комментарии людей варьировались от восклицания до беспокойства.
Ван Хэ так не думает. Он думает, что Оптимус на данном этапе «все еще находится в стадии исследования».
Ван Хэ, 1992 года рождения, в настоящее время является доцентом и научным руководителем в Пограничном вычислительном исследовательском центре Пекинского университета. Он окончил факультет электроники Университета Цинхуа со степенью бакалавра и доктора философии в Стэнфордском университете. участвовал в CVPR ICCV, ведущей конференции по компьютерному зрению, робототехнике и искусственному интеллекту. Подождите, пока будут опубликованы десятки статей.
После мая прошлого года Ван Хэ привлек к себе больше внимания как рулевой компании интеллектуальных роботов «Galaxy General». В июне этого года Galaxy General побила рекорд финансирования ангельского раунда 2024 года, выделив 700 миллионов юаней.
Большинство компаний производят полноценных человекоподобных роботов. Ван Хэ считает, что ноги не являются оптимальным решением на данном этапе и только увеличат затраты. «Дело не в том, что рабочие способности робота-гуманоида достаточно сильны, а в том, что ему не хватает ног. Дело в том, что существует еще много задач, с которыми традиционные роботизированные руки не могут справиться». Ван Хэ решил, что его руки более ценны при приземлении на место происшествия. а большое количество сцен фактически в них не нуждаются. При достаточных двигательных способностях, таких как осмотр и патрулирование, собака-робот может делать то же самое, что и автомобиль.
Галбот от Galaxy Universal собирает мусор. У него нет ножек, а есть складное одноножное + колесное шасси.
Получение достаточного количества данных представляет собой трудность в разработке воплощенного интеллекта. Тесла и Google решили использовать «телеоперацию» для сбора данных, то есть позволить реальным людям носить какое-то оборудование для сбора данных для выполнения действий, которым робот должен научиться. Ван Хэ посчитал, что это невыгодная сделка: «Google потребовалось более десяти месяцев и десятков миллионов долларов, чтобы создать сотни тысяч фрагментов данных». Galaxy Universal выбрала все в «Sim2Real (переход от симуляции к реальной машине). )" , то есть в основном опираясь на данные синтетического моделирования.
Компании, занимающиеся роботами-гуманоидами, в Соединенных Штатах имеют много денег и смелы. Одно из наблюдений Ван Хэ заключается в том, что это мешает им строго искать PMF (соответствие продукта рынку, соответствие продукта и рынка «в Соединенных Штатах». есть деньги, они просто собрали все за один раз. Все готово». Однако такие отраслевые проблемы, как нехватка реальных данных и нестабильное оборудование, должны решаться в сценариях, поэтому он считает, что коммерциализацию необходимо рассматривать с первого дня.
«Мы не должны считать то, что делает Tesla, стандартом», — сказал Ван Хэ, что китайские стартапы, «если они все еще рассказывают истории других людей без обильного капитала в Соединенных Штатах, это может быть только тупиком».
Ван Хэ не согласен с Tesla, и многие люди в отрасли не согласны с Galaxy GM. Взяв в качестве примера Sim2Real, которым интересуется Ван Хэ, многие практики считают, что между смоделированными синтетическими данными и реальным миром существуют естественные различия, которые влияют на эффект обучения. После того, как был выпущен первый робот Gabot от Galaxy Universal, некоторые оппоненты заявили, что почувствовали «облегчение»: «Между демо-версией и реальным приложением существует большой разрыв», «Я написал много статей о захвате, и последняя рука была засасывающей». чашка. "
Более серьезный вопрос заключается в том, что сейчас не время начинать бизнес по производству гуманоидных роботов. Некоторые инвесторы полагают, что эти компании станут мучениками, потому что многие технологии, такие как оборудование, материалы и энергия, еще не достигли зрелости. Кайфу Ли рассказал о воплощенном интеллекте и сказал: «Мы определенно не можем сейчас инвестировать в то, что произойдет 10 лет спустя. Дай Юсен, партнер Zhenge, сказал, что воплощение все еще находится в эпохе BlackBerry и не может инвестировать в iPhone». .
Роботы-гуманоиды и воплощенный интеллект все еще находятся на очень ранней стадии, и это отрасль с длинной цепочкой и сложным набором технологий, включая искусственный интеллект, материалы, энергетику, разработку механического управления, производство, управление цепочками поставок, развитие клиентов и, в конечном итоге,; компания, которая выживает. Недостатков быть не может.
Пока еще слишком рано говорить о победителе, но в этом интервью рассказывается о том, что увидел один молодой ученый через год после своего выступления. Теперь он считает, что, хотя у крупных компаний больше ресурсов, они не обязательно правы. Это его возможность.
Воплощенный интеллект и человеческое обществонаибольший общий делитель
«Позже»: Вы изучаете сегодняшний воплощенный интеллект с 2016 года, комбинируя визуальные модели, модели естественного языка и модели работы роботов. Что вы увидели за эти годы исследований и разработок?
Ван Хэ: Я работал над воплощенным интеллектом, когда учился на докторскую степень. В то время это не называлось «воплощенным интеллектом». Первоначально я объединил эти три отдельные небольшие модели, чтобы получить оценку позы объекта на уровне категории (поза: а). Положение и поза объекта в трехмерном пространстве: оценка положения: определение положения объекта) на самом деле является двуручной операцией;
Вернувшись в Китай и прежде чем основаться здесь, я установил руку на спину робота-собаки Юшу и попытался заставить ее выполнять ряд операций. Однако мы обнаружили, что многие аспекты вычислений, ресурсов и даже всей системы не могут удовлетворить наши потребности.
В то время я чувствовал, что если мы не будем производить оборудование, нам придется полностью полагаться на других, и итерации разработки системы будут ограничены. Когда робототехники не существует, трудно заниматься только разведкой.
«Позже»: Какие изменения произошли позже? Почему вы решили начать бизнес в 2023 году?
Ван Хэ: Воплощенное умное предпринимательство начало развиваться в Китае раньше, чем в США. Основная причина — зрелость аппаратного обеспечения и онтологии.
Обрабатывающая промышленность в США не позволяет быстро производить полные демонстрационные версии воплощенного интеллекта. Запасы деталей в США неполные, многие вещи приходится импортировать, существует нехватка инженеров по аппаратному обеспечению. Производство аппаратного обеспечения в Китае может обеспечить самую низкую стоимость и максимальную надежность. Например, робота-гуманоида Юшу могут построить несколько человек за полгода.
Но онтология — всего лишь большая игрушка. Следующий шаг — как конкурировать с точки зрения интеллекта. К 2023 году во всем мире появились крупные воплощенные мультимодальные модели, такие как PaLM-E, и зажглась искра между мультимодальным восприятием и воплощенной операцией. В это время я решил заняться бизнесом.
«Позже»: Почему вы решили создать робота-гуманоида? Носитель воплощенного разума не обязательно гуманоид.
Ван Хэ: Действительно, существуют различные формы, включая собак, самолеты и автомобили. Но среди всех форм величайшим общим знаменателем между воплощенным разумом и человеческим обществом может быть только «человеческая форма».
Поскольку вся производственная и жилая среда предназначена для людей, гуманоиды могут выполнять большинство операций, их будет больше всего в будущем, и они будут иметь наибольшую экономическую ценность. С точки зрения видения можно приравнять воплощенный интеллект и роботов-гуманоидов.
«Поздно»: многие люди считают, что предпринимательское окно для воплощения интеллекта еще не наступило. Теперь эти компании станут мучениками, а многие технологии, такие как оборудование, материалы и энергия, еще не созрели. Например, когда Кай-фу Ли говорил о воплощенном интеллекте, он сказал: «Мы определенно не можем инвестировать в то, что произойдет 10 лет спустя». Дай Юсен, партнер Zhenge, сказал, что воплощение все еще находится в эпохе BlackBerry. и не может инвестировать в iPhone.
Ван Хэ: Когда я встретился с г-ном Кайфу Ли в 2019 году, он сказал, что это займет еще 50 лет. Теперь он ускорился с 50 лет до 10 лет.
Мы не можем использовать мобильные телефоны как аналогию воплощенному интеллекту. От функциональных телефонов до смартфонов технологии сильно изменились, и теперь техническое направление воплощенного интеллекта стало ясным: онтология интегрируется с большой моделью, чтобы стать универсальным роботом. .
При этом, чем раньше закончится игра, тем больше технологий и данных будет накоплено, что увеличит разрыв на более позднем этапе. После того, как робот выйдет на сцену, данные реальной сцены дополнят его интеллект. Опоздавшим игрокам чрезвычайно сложно превзойти компанию, которая уже имеет десятки тысяч роботов, постоянно возвращает реальные данные и уже сталкивалась с подводными камнями на этой сцене.
Это иАвтономное вождениеАналогично, только продав достаточное количество автомобилей, будет достаточно данных, и данные можно будет использовать для более быстрого улучшения алгоритма. В битве между Google и Tesla Tesla побеждает, потому что у нее достаточно автомобилей.
Воплощенный интеллект имеет потенциал стать рынком, сравнимым с рынком автомобилей. Он имеет те же характеристики, что и предыдущие технологические изменения: вначале он медленный и постепенно заменяет роботов специального назначения, но как только он достигнет масштаба в 10 000 единиц, он ускорит замену традиционных отраслей;
«Поздно»: Одним из фактов является то, что бум предпринимательства в сфере разведки произошел в ЧатGPT и увлечение большими моделями. Но на самом деле большие модели могут решить лишь небольшую часть проблем воплощенного интеллекта, поэтому некоторые считают, что пока еще слишком рано.
Ван Хэ: Воплощенный интеллект — это продукт интеграции программного обеспечения, оборудования и алгоритмов. На этом этапе точками его интеграции с большими моделями являются: общее восприятие и языковое общение, решающее задачи взаимодействия. Например, кто-то приходит в аптеку и спрашивает робота, какое лекарство следует принять, если чувствуете дискомфорт? Разговаривать с людьми могут только роботы, знакомые с названиями и расположением лекарств.
Другая комбинация заключается в том, что теперь при выполнении определенных операций, таких как захват и размещение объектов, робот также реализует сквозную реализацию на основе большой модели (траектория робота выводится напрямую после ввода сенсорной информации). большая модель будет играть роль во всем глобальном планировании.
В целом, большие модели теперь являются вспомогательными, но сочетание больших и маленьких моделей может привести к созданию универсальных роботов.
«Поздно»: Маршрут Галактики — это маленькая трехмерная визуальная модель + большая базовая модель. Как вы это понимаете?
Ван Хэ: Точно так же, как у нас, людей, есть Система 1 и Система 2: быстрое и медленное мышление. Первая — это способность мозжечка, а у роботов — это такие навыки, как интерактивное управление и ловкость, с которыми могут справиться небольшие модели. ; последнее — возможности мозга — познание, понимание, планирование и решение проблем с большими моделями.
Это трехуровневая система: нижний уровень — аппаратное обеспечение, средний уровень — небольшие модели, способные выполнять различные навыки, и верхний уровень — базовая большая модель, отвечающая за планирование задач. После того, как робот получит инструкцию, большая модель отвечает за вызов маленькой модели на среднем уровне. После выполнения маленькой модели большая модель изучает следующий шаг на основе результатов.
Ноги не так важны;Руки – это ключ
«Позже»: Они все гуманоиды. У большинства компаний в отрасли есть роботы с ногами. Ваш первый робот, Гальбот, представляет собой колесное шасси + руки.
Ван Хэ: Самый важный вопрос: какую ценность ваш продукт может принести на рынок? Двуногие решают только проблему дорожного движения и не имеют никаких оперативных возможностей, поэтому они могут только патрулировать, проверять и выполнять другие действия. Это не качественное изменение по сравнению с использованием автомобилей и собак в прошлом.
Но руки могут выполнять гибкое производство, чего не могут сделать традиционные роботы. В трудоемких отраслях это в основном грубая работа, и ее легче обобщать. Существует множество творческих пространств и сценариев, поэтому верхняя часть тела более важна, чем нижняя часть тела.
«Поздно Позже»: Что сложнее, умение управлять руками или умение выполнять сложные движения ногами? Конечная форма, которую все себе представляют, — это полноценная человеческая форма. Не сможет ли компания, которая начала работу первой, поспевать за ней, когда она захочет расширить свои спортивные возможности?
Ван Хэ: В настоящее время большинство операций выполняется обеими руками, поэтому мы сначала используем «руки», чтобы выйти на сцену, а вместо ног используем сменные, недорогие колесные шасси общего назначения. Сначала мы коммерциализируем и получаем реальные данные.
Проблема с двусторонними продуктами заключается в том, что они не могут быть реализованы в реальных сценариях, поэтому компании, выпускающие двусторонние продукты, должны стремиться к устойчивому финансированию, и в ближайшие три года будут большие волны. Конечно, когда характеристики ножек улучшатся и цена станет подходящей, мы также заменим ножки.
«Позже»: Почему нельзя сделать это вместе?
Ван Хэ: Потому что рабочие возможности робота-гуманоида недостаточно сильны, но у него отсутствуют ноги. По-прежнему существует множество задач, с которыми традиционное роботизированное оружие не может справиться.
Учитывая фактическое использование, стоимость и стабильность колесных роботов намного лучше, чем у двуногих роботов. При той же высоте СПЗ (стоимость сырья) двухопорного шасси в десять раз дороже колесного. Более того, ноги легко упасть, и если робот упадет, то он будет полностью поврежден.
Нынешние технические трудности ног еще предстоит преодолеть, и они сильно отстают от двуручного боя. Например, если что-то упадет с полки на пол, ни один четвероногий робот-гуманоид в мире не сможет наклониться, чтобы это поднять.
«Позже»: Людям приседать довольно легко, почему роботы не могут этого делать?
Ван Хэ: Самое сложное — поддерживать баланс тела на протяжении всего процесса. Балансирующая способность ног состоит из нескольких стадий: первый шаг — ходьба, второй — подъем по ступенькам. Это уже поставило в тупик ряд компаний. Третий шаг — наклониться. Трудность в том, что центр тяжести выйдет наружу. Затем идут приседания и сплит-приседания, которые в настоящее время невозможны в лаборатории.
Развитие ног отстает от развития рук, и то же самое справедливо и для людей. Когда дети умеют только ползать, их руки могут исследовать все, но им требуется много времени, чтобы встать и устойчиво ходить. Многие люди все равно падают, когда они ходят. шесть или семь лет.
Фактически, 20 лет назад были демонстрации двуногой ходьбы. Сегодня лишь немногие люди могут без проблем ходить по земле в течение десяти минут. Устойчивость многих двуногих роботов просто не оправдывает всеобщих ожиданий. В области воплощенного интеллекта мозг по развитию опережает руки, а руки и кисти опережают ноги.
«Опоздал»: человекоподобный робот Теслы Оптимус — это и руки, и ноги, и теперь он может работать на заводах.
Ван Хэ: Текущая сцена работы Оптимуса не имеет ничего общего с ногами. Ловить аккумуляторы на заводе и выполнять проверки туда и обратно на парковке не требуют улучшения способностей ног.
И это сложно посчитать: стоимость робота — от сотен тысяч до двухсот тысяч долларов, но его задача — поместить точно такие же батарейки в коробку размером пять на шесть штук с тридцатью решетками, то есть в стандартную корзину кладем батарейки стандартные. В корзине положение корзины фиксированное. Почему нечто подобное требует воплощенного интеллекта? Почему бы не использовать традиционныеПромышленная автоматизация?
«Поздно»: Генерал Галактики Гальбот сортирует лекарства в аптеках Мейтуана. Это также можно сделать с помощью роботизированной руки, но вы также используете гуманоидную верхнюю часть тела.
Ван Хэ: Мы создали эту сцену, чтобы продемонстрировать наши воплощенные способности. Если что-то слишком сложно и технология еще не развита до этой стадии, нам следует сначала поискать что-то, что можно сделать. Сцена Теслы изначально была реализована с помощью роботизированной руки, даже не заменяющей людей. Работу, выполняемую в аптеке, выполняют люди, а сама сложность выше, чем у Теслы. Во-вторых, ее невозможно достичь с помощью одной только промышленной автоматизации, потому что разные лекарства — это не стандартные продукты, а разные заказы — не стандартные требования.
Не считайте Теслу моделью,Удаленная работа не может решить проблемы с данными
«Опоздал»: нехватка данных является одной из трудностей воплощенного интеллекта сегодня: текстовые данные теперь составляют 15 Т, изображения — 6 Б, видео — 2,6 Б, а данные роботов — всего 2,4 МБ. Tesla и Google собирают данные посредством «телеоперации», то есть позволяя реальным людям носить оборудование для сбора данных для выполнения действий, которым робот должен научиться, в то время как Galaxy General использует «все в Sim2Real», то есть смоделированные синтетические данные. Чем вы отличаетесь от них?
Ван Хэ: Удаленное управление — это не то, что стартапы могут себе позволить. Удаленная работа требует найма большого количества людей для многократного выполнения различных операций. Чтобы получить достоверные данные, роботу и человеку нужно провести вместе 30 секунд или минуту.
Именно здесь гуманоидные роботы сильно отличаются от автономного вождения. Автономное вождение Tesla позволяет одному миллиону автовладельцев тратить деньги на покупку автомобиля и ездить на нем сотни миллионов часов без необходимости тратить дополнительные деньги на данные. И водить - это одно, а на заводе много видов работ - те, кто клеит, те, кто ставит батарейки, те, кто закручивает гайки... Взаимосвязь между разными задачами может быть сильной или слабой.
Тесла нашел десятки людей для выполнения удаленных операций на месте установки аккумуляторов, но тогда было еще больше сцен операций, таких как намотка и сборка, и это еще не все. У Tesla много денег и собственная фабрика для покупки собственных роботов. Она может это сделать, а стартапы — нет.
Подобно тому, как беспилотные автомобили теперь имеют удаленные мониторы, телеоперация может играть роль удаленного захвата власти. Если что-то пойдет не так, пока робот работает на месте происшествия, и на месте никого нет, вмешаться можно с помощью дистанционного управления.
«Позже»: Значит, удаленное управление — это игра, выпущенная крупной компанией?
Ван Хэ: Вот история, которую рассказывает Маск. Давайте не будем принимать за стандарт то, что делает Тесла. Честно говоря, это исследование.
Когда Google работал над RT (робот-трансформер, алгоритм управления роботами), существовала команда «Роботы на каждый день», насчитывавшая более 200 человек. После завершения RT-1 этот отдел был упразднен, поскольку бизнес-модели не существовало.
В настоящее время среди воплощенных разведывательных компаний Китая только те, у которых нет собственных маршрутов, могут имитировать Tesla и Google в Соединенных Штатах. Если американская компания недостаточно капитализирована и продолжает рассказывать истории других людей, это будет тупик.
«Позже»: Зависит ли это еще и от объема данных, необходимого для создания универсального робота. Если он меньше на порядок, особо богатая крупная компания или стартап, способный собрать деньги, также сможет управлять удаленно? маршрут операции?
Ван Хэ: Наши собственные эксперименты показали, что, например, в задаче сканирования, когда имеется один миллиард просмотров данных, вероятность успеха робота может достигать 87%. Если объем данных уменьшить до одной десятитысячной доли. , то есть 100 000. При первом сканировании вероятность успеха составила всего 58%. Это показывает, что воплощенный интеллект также имеет четкие законы масштабирования и имеет большую потребность в данных.
В реальном мире сложно получить миллиарды данных. Google потребовалось более десяти месяцев и десятки миллионов долларов, чтобы собрать сотни тысяч фрагментов данных.
«Поздно»: Насколько моделирование может снизить затраты?
Ван Хэ: Благодаря синтезу моделирования все шестьдесят изображений могут быть визуализированы за одну секунду. По сравнению со сбором реальных данных, синтетические данные практически бесплатны. Наша вторая кривая — получить данные из реального мира.
В симуляторе мы синтезируем движение каждого объекта в 200 видеороликов, а затем симулируем и синтезируем один объект в класс объектов. Это генерирует большой объем данных, которые мы используем для тренировки хватательных способностей робота.
«Поздно»: многие люди считают, что синтетические данные, полученные с помощью эмулятора (системы, моделирующей виртуальную среду), естественным образом отличаются от реальных данных, что повлияет на эффект обучения. Как вы это решаете?
Ван Хэ: Симулятор никогда не может быть полностью реальным, но маршрут Sim2Real не требует полной симуляции симулятора. Это процесс совместной оптимизации оборудования, алгоритмов и моделирования.
На этом этапе симулятор является инструментом проверки, а математическая физическая модель, выраженная в алгоритме, является ядром получения квалификации сканирования.
У симулятора действительно есть некоторые ограничения. Например, когда наши руки касаются бутылки с минеральной водой, то есть когда гибкая, деформируемая рука касается, казалось бы, жесткого объекта, который на самом деле может деформироваться, этот процесс не является точечным контактом, а трением. физически идеально смоделирован.
В настоящее время наш алгоритм должен обладать сильными адаптивными возможностями, такими как добавление управления касанием и силой, изучение «формы», а затем управление ею после ее понимания. Таким образом, мы можем избежать самой сложной части моделирования. Другая предпосылка заключается в том, что оборудование должно быть достаточно надежным (надежным, что означает, что система может работать относительно стабильно даже в аномальных обстоятельствах).
«Поздно»: как взаимодействуют симуляторы и алгоритмы, такие как математические и физические модели?
Ван Хэ: Мы предлагаем набор математических и физических моделей для эффективного поиска, а затем используем симулятор, чтобы проверить, возможен ли такой поиск.
Здесь также затрагивается разница между обучением с подкреплением и обучением с учителем. Если это обучение с подкреплением, это означает многократное взаимодействие с симулятором, метод проб и ошибок и поиск решения. Это будет предъявлять множество требований к аутентичности симулятора. Ходьба полностью зависит от обучения с подкреплением на симуляторе Sim2Real. Но это было опробовано, и эффективность относительно низкая.
Если вы сможете сказать роботу, как хватать, его можно будет преобразовать в контролируемое обучение, и эффективность обучения будет выше. Мы используем обучение с учителем, чтобы научиться хватанию двумя и пятью пальцами.
Рассмотрим это с первого днякоммерциализация
«Позже»: большинство китайских компаний, производящих гуманоидов, также производят и другие продукты. Например, у Zhiyuan есть коммерческий робот-уборщик, Zhuji и Yushu производят роботов-собак, в то время как Соединенные Штаты в основном непосредственно запускают роботов-гуманоидов. Почему такая разница?
Ван Хэ: Обилие капитала в Китае и США разное. В США, раз есть деньги, делают все сразу. Такие компании, как Рисунок AI и Tesla, используют гуманоидные модели. Однако текущая оценка Рисунок AI составляет 2,5 миллиарда долларов США, и операции, показанные в демо-версии, не имеют ничего общего со спортивными способностями. Пузырь в Соединенных Штатах не позволяет им мыслить в рамках очень строгого PMF (соответствие продукта рынку).
В августе этого года компанияFigureAI выпустила нового робота, Рисунок 02, который уже может выполнять некоторые демонстрационные сборки на автомобильном заводе BMW.
«Позже»: Считаете ли вы, что более правильный способ — подумать о внедрении продукта с самого начала? Не слишком ли это тревожно в такой передовой области, как роботы-гуманоиды?
Ван Хэ: С одной стороны, это все еще проблема с данными. Воплощенный интеллект привязан к аппаратному обеспечению, поэтому, если робот не развернут на сцене, получить большой объем данных сложно. Но его нельзя распространять в больших количествах бесплатно, поскольку стоимость создания основного корпуса слишком высока. Большие модели не нуждаются в коммерциализации для получения данных, поскольку стоимость их популяризации все равно намного ниже, чем у роботов.
В то же время робот также нуждается в полировке. Без длительного наблюдения за роботом на сцене невозможно довести робота до состояния, в котором он сможет стабильно работать. Это также причина того, что в сфере робототехники нет компаний PPT.
«Позже»: Какую реализацию продукта вы видели?
Ван Хэ: Первый шаг — выполнить одну операцию над несколькими объектами в одной среде, например, перемещение разных объектов на одном заводе или одной производственной линии. Это то, что сейчас делают Google RT-1 и Tesla Optimus, но Optimus обрабатывает меньше объектов. Оба они не являются по-настоящему обобщенными, то есть универсальными, и пока не могут реально приносить деньги.
Следующий шаг — роботы смогут выполнять одни и те же операции с разными объектами в разных сценариях в одной и той же отрасли. Например, в промышленной обрабатывающей промышленности она расширилась от возможности получать детали на автомобильных заводах до возможности получать все детали на любом заводе в сфере розничной торговли; она расширилась от возможности хранить товары в небольших супермаркетах до возможности получать все детали на любом заводе; возможность хранить товары в Wal-Mart. Одна обучающая сессия, позволяющая разобрать различные сценарии в одной и той же отрасли, имеет огромную ценность.
Следующий шаг — иметь больше задач, больше сценариев, охватывать все отрасли и продолжать становиться универсальными.
«Позже»: Вся индустрия сейчас делает первый шаг. Как вы выбираете первую сцену или первую партию сцен сейчас?
Ван Хэ: В любой отрасли, если это гибкое производство, но не полностью автоматизированное, скорее всего, будут внедрены встроенные интеллектуальные роботы. В частности, в обрабатывающей промышленности есть некоторые незаметные операции. Спрос может быть высоким, а требуемая технология может быть несложной.
Мы должны делать это один за другим, от простого к сложному, от высокой стоимости рабочей силы к низкой стоимости рабочей силы, от высокого спроса к низкому спросу.
«Позже»: Соответствует ли покупка лекарств в аптеке упомянутой вами логике? Или вы сделали эту сцену потому, что Мейтуан голосовала за вас?
Ван Хэ: Мы хотим быть первыми, кто воспользуется высокодоходными и ценными сценариями, которые можно превратить в более универсальные. Наша будущая цель — войти в дом.
От B до C больше подходит для домашнего использования, чем просто от B, поэтому мы создали сцену B to C в розничной торговле для взаимодействия с людьми.
«Позже»: Когда выйдет ваш первый робот?
Ван Хэ: В четвертом квартале этого года мы будем принимать небольшие партии заказов по цене 500 000 штук.
«Позже»: Не слишком ли дорого покупать лекарство в аптеке?
Ван Хэ: Сейчас у нас есть два основных направления продаж: сценарии научных исследований и коммерческие сценарии, такие как Meituan. Цены и конфигурации этих сценариев различны.
Для сценариев научных исследований мы продаем разрабатываемую версию с достаточной вычислительной мощностью. Продукты, которые мы продаем для коммерческих сценариев, не поддерживают разработку и добавят некоторые функции и уменьшат другие ненужные функции и вычислительную мощность. Например, роботы теперь оснащены картами OrinX, но в коммерческих сценариях вычисления можно разместить в облаке. .
Сейчас существуют десятки резерваций для проведения научных исследований. В бизнес-сценариях, от машин до услуг, наша команда будет нести ответственность за весь процесс.
«Позже»: Вы как-то сказали, что Galaxy, как ожидается, будет контролировать стоимость набора роботов до 50 000 юаней. Когда это будет?
Ван Хэ: Мы не сможем сделать это в этом году, но когда мы достигнем 1000 или 10 000 единиц, мы продолжим приближаться к этой цели.
«Позже»: Ходят шутки, что продажи человекоподобных роботов в Китае поддерживают стартапы, университетские лаборатории и прочие аналоги.
Ван Хэ: Потолок научных исследований определенно низок, но научные исследования — это первый шаг. Годовалая компания не может продать тысячу роботов, если только это не игрушка.
«Позже»: Мы много говорили о нынешнем несогласии в индустрии воплощенной разведки. Как вы думаете, в чем заключается нынешний консенсус?
Ван Хэ: До сих пор не возникло ни одного воплощенного разведывательного сценария, который мог бы принести крупномасштабные экономические выгоды. Нет единого мнения о том, как зарабатывать деньги, поэтому нет единого мнения о форме продукта, технологии, отрасли и сценариях, которые следует отодвинуть.
Отсутствие консенсуса – это хорошо. То есть, если все достигнут консенсуса, то финальная битва будет за затраты, ресурсы и связи. Эти факторы не являются тем, в чем хороши предприниматели, и они вредны для предпринимательства.
Но представить себе будущее, конец технологий, войти в дом + полный гуманоид + большая модель, боюсь, с этим согласится каждый.
«Later»: Как бы вы описали большое количество новых компаний, которые сейчас занимаются Embodied? АГИ Путешествие?
Ван Хэ: Это процесс, когда люди снова играют роль творца. Автомобильная промышленность также является отраслью, полностью созданной людьми, и то же самое будет справедливо и для роботов общего назначения в будущем. Среди нас также будут ведущие автомобильные компании, такие как Tesla.