Лучший актер SenseTime Ван Сяоган: Даже если «двухэтапный» комплексный подход будет реализован еще в течение десяти лет, он не станет «ChatGPT» интеллектуального вождения

Лучший актер SenseTime Ван Сяоган: Даже если «двухэтапный» сквозной подход будет реализован еще в течение десяти лет, он не станет «ChatGPT» для интеллектуального вождения.

2024-07-15

Ван Сяоган, соучредитель и главный научный сотрудник SenseTime Technology и президент Jueying Intelligent Automotive Business Group

На только что завершившейся выставке WAIC 2024 компания SenseTime выпустила одноразовое видео.

На видео автомобиль УниАД, оснащенный всего 7 камерами, может не только свободно перемещаться по строительным дорогам городской застройки, крупным перекресткам и светофорным перекресткам без изображений, но и плавно перемещаться по сельским дорогам со сложной дорожной ситуацией через несимметричные перекрестки без разметки. вы можете избегать стоящих на обочине транспортных средств и транспортных средств, находящихся в узких полосах движения, а также можете повернуть направо на поворотах большой кривизны без полос движения.

Эта серия плавных и шелковистых движений впечатляет. За ним стоит комплексное решение для автономного вождения UniAD, предложенное SenseTime Jueying, которое является первым в отрасли, интегрирующим восприятие и принятие решений.

В последние несколько лет интеллектуальное вождение было в центре внимания автомобильных компаний, но реальный уровень вождения зачастую оказывается неудовлетворительным. После появления ChatGPT индустрия интеллектуального вождения с нетерпением ждала такого же момента качественных изменений.

В этот момент «сквозь» указывает направление. С этого года индустрия интеллектуального вождения уделяет все больше внимания сквозным технологиям. Будь то автомобильные компании, такие как Xpeng, Ideal, NIO или Great Wall, или поставщики технологий, такие как Huawei, Yuanrong Qixing и Haomo Zhixing, все они обратились к сквозному маршруту.

Еще в конце 2022 года SenseTime Jueying предложила UniAD, общую модель интегрированного автономного вождения в восприятии и принятии решений. DriveAGI также итеративно основан на UniAD. Он использует мультимодальные большие модели для поддержки комплексных решений. создать следующее поколение технологий автономного вождения. Даже если вы встретите на дороге машину скорой помощи, благодаря когнитивным возможностям DriveAGI машина сможет точно идентифицировать и понять цель и активно уступить дорогу.

DriveAGI может не только идентифицировать машины скорой помощи, но и заранее уступать дорогу дежурным машинам скорой помощи.

После двух лет упреждающего планирования постепенно проявляются преимущества SenseTime Jueying в виде раннего входа и быстрого внедрения. Компания сотрудничает с более чем 30 отечественными и зарубежными автомобильными компаниями, охватывая более 90 моделей, и поставила в общей сложности 1,95 миллиона интеллектуальных автомобилей. . В процессе сотрудничества SenseTime Jueying и автомобильные компании нашли свои границы, в полной мере использовали свои преимущества и работают вместе, чтобы ускорить наступление «момента GPT» автономного вождения.

Если технический маршрут неправильный, то даже сесть в автобус будет напрасно».

В то время, когда многие игроки собираются, чтобы выйти на сквозную область, Ван Сяоган, соучредитель, главный научный сотрудник SenseTime и президент Jueying Intelligent Automotive Business Group, рассказал TMTpost Media App, почему он был первым, кто сделал это. сосредоточиться на сквозном подходе?

В 2017 году SenseTime и японская компания Honda Motor объявили о сотрудничестве по совместной разработке технологии автономного вождения L4. Сама SenseTime начинала с технологии искусственного интеллекта. В то время Honda попросила SenseTime использовать только камеры и реализовать интеллектуальные функции вождения без высокоточных карт. Это можно рассматривать как прототип комплексного решения. С тех пор команда продолжает работать непрерывно.

Сейчас, хотя сквозная конкуренция в самом разгаре, общей проблемой является то, что сквозной технический маршрут еще не сформировал передовую практику, и в техническом маршруте имеются различия.

Ван Сяоган рассказал TMTpost App, что большинство нынешних комплексных решений используют «двухэтапное» решение, которое легче реализовать, то есть оно состоит из двух моделей: восприятия и принятия решений. «Часть восприятия в первом параграфе сама по себе уже использует нейронные сети, поэтому особых изменений нет. Самое большое изменение — в части планирования и контроля второго параграфа. Первоначально эта часть была реализована путем написания правил, но теперь она также применяется нейронные сети.

Однако, по его мнению, «двухэтапное» решение — соединить две небольшие модели вместе и совместно оптимизировать их вплотную. В «двухэтапном» решении после того, как информация фильтруется моделью восприятия, происходит много потерь, остаются только некоторые метки, такие как люди, автомобили и объекты, поэтому модель второго этапа на самом деле представляет собой лишь небольшую часть. модель. «Основное различие между двухэтапным планом и одноэтапным планом заключается в том, является ли это эпохой маленьких моделей или эпохой больших моделей».

Ван Сяоган прямо заявил, что даже если «двухступенчатое» решение будет реализовано еще в течение 10 лет, оно не станет «ChatGPT» для автономного вождения.

Именно с учетом этих проблем с самого начала исследований и разработок компания SenseTime Jueying приняла «одноэтапное» решение, которое объединяет модули восприятия, принятия решений, планирования и другие модули в полноценный комплексный преобразователь. конечная модель для достижения интегрированного восприятия и принятия решений. То есть входной сигнал датчика используется для непосредственного вывода траектории поведения.

В этом процессе машина будет синтезировать информацию, думать и судить так же, как человеческий мозг, точно так же, как вы читаете детективный роман. В романе есть различные персонажи и сюжеты, включая секретные комнаты и загадки. роман Совершенно непонятно, что будет дальше. Благодаря различным персонажам и сюжетам романа вы можете предсказать несколько возможностей убийцы. То, что делает машинный мозг, похоже на детективный роман.

Однако, хотя разница между одноэтапным планом и двухэтапным планом составляет всего одно слово, сложность очень разная. Ван Сяоган объяснил, что при одноэтапном маршруте объем видеоинформации на внешнем интерфейсе очень велик, но выходной сигнал должен быть очень точным, что предъявляет более высокие требования к обучению, данным и конвейеру всей сети.

«Одноэтапное решение сложное, но как только модель будет изучена, ее возможности станут очень сильными. Это момент ChatGPT в автономном вождении, который мы преследуем».

Чистая сквозная модель автономного вождения не является окончательным ответом на проблему автономного вождения».

Выбор технического маршрута – первый шаг. В конце 2022 года SenseTime и ее совместные лаборатории предложили UniAD, первую в отрасли универсальную модель интегрированного автономного вождения в восприятие и принятие решений, и выиграли лучший доклад на Международной конференции по компьютерному зрению и распознаванию образов (CVPR) 2023 года. следующий год.

На Пекинском автосалоне в этом году компания SenseTime Jueying продемонстрировала результаты работы реального автомобиля UniAD, который может свободно передвигаться по городским и сельским дорогам. Сразу после этого, на WAIC 2024, компания SenseTime продемонстрировала реальную демонстрацию UniAD на сложных городских дорогах, сельских дорогах и т. д.

UniAD — это чисто визуальная комплексная универсальная модель автономного вождения. Несмотря на то, что она улучшает возможности интеллектуальной системы вождения, чисто сквозная модель автономного вождения не является окончательным ответом на вопрос автономного вождения. Ван Сяоган сказал, что важным признаком того, что умные автомобили станут сверхразумными, является дальнейшее обладание способностями восприятия, рассуждения, принятия решений и взаимодействия в открытом мире. Поэтому компания SenseTime Jueying создала DriveAGI, большую интеллектуальную модель вождения, основанную на мультимодальной большой модели.

Эволюционное направление DriveAGI — сделать комплексное интеллектуальное вождение «интерпретируемым и интерактивным».

Так называемая объяснимость означает, что она не только позволяет транспортным средствам понимать сложный реальный мир больше, чем люди, получать представление о поведенческих мотивах различных участников дорожного движения, быстро изучать различные правила дорожного движения, улавливать постоянно меняющуюся дорожную информацию, но также объяснять вождение. решения для пользователей.

Например, если транспортное средство, которое обычно движется по правой стороне двухполосной дороги, оснащено DriveAGI, то, обнаружив приближающуюся сзади машину скорой помощи, оно сразу же распознает ее и определит, что машина скорой помощи дежурит. Таким образом, в первый раз оценивается, что на левой стороне дороги есть место для перестроения, а правая сторона дороги вовремя меняется на левую, чтобы машина скорой помощи могла проехать плавно и быстро. Весь процесс аналогичен человеческому мозгу. Он не только четко видит различные ситуации, возникающие на дороге, но также может думать и судить, основываясь на правилах дорожного движения, и совершать правильные действия при вождении.

Функциональная совместимость означает, что пользователи могут не только попросить DriveAGI объяснить процесс принятия решений, но и управлять поведением автономного вождения с помощью голосовых или жестовых инструкций. Например, в будущем при автономном вождении навигация предписывает автомобилю развернуться на следующем перекрестке, чтобы добраться до пункта назначения, но водитель знает, что впереди короткий путь, и может повернуть прямо, тогда ему нужно только сказать «повернуть». прямо влево» в систему. Система выполнит эту команду в зависимости от текущих дорожных условий.

От работы «черного ящика» и одностороннего вывода до интерпретируемости и интерактивности — ключевой трюк заключается в том, как обучить модель.

Первый элемент обучения модели — это большой объем данных и большие параметры модели. Маск ранее говорил о важности данных для беспилотных моделей: обучается 1 миллион видео-кейсов, чего едва хватает; 2 миллиона, что немного лучше, и вы почувствуете «Вау» до 10 миллионов; невероятный.

Ван Сяоган также сказал, что текущая структура сети не является основным секретом, и структура сети у всех относительно одинакова. Ключевым моментом является то, как добиться превосходного качества производительности в аналогичных сетевых структурах. В основном это зависит от того, достаточно ли велик размер модели и мощный ли конвейер производства данных.

Будучи глубоко вовлеченным в область искусственного интеллекта в течение десяти лет, SenseTime был использован во многих отраслях, включая городскую разведку, торговлю, медицинское обслуживание, финансы, автономное вождение и даже такие промышленные сценарии, как сталелитейная промышленность, добыча угля и электроэнергетика. и накопил большой объем мультимодальных данных в различных отраслях. 5 июля компания SenseTime Jueying в прямом эфире на выставке WAIC 2024 продемонстрировала, что решение для развертывания на конце автомобиля модели 8B, установленное на платформе 200 TOPS+, имеет 8 миллиардов параметров.

Производительность мультимодальной модели SenseTime Jueying на конце автомобиля 8B

Если есть количество, то и качество должно быть гарантировано. Ван Сяоган сказал, что мы не можем просто сосредоточиться на объеме данных и количестве параметров модели. Если нет сложной задачи, даже если объем данных и параметров будет увеличен, возможности модели будут только крутиться на месте.

Затем он привел пример: пчелы могут работать в таких сложных сотах так точно и так хорошо, но у них всегда есть только один навык и они могут делать только одну вещь. Человеческий мозг устроен иначе. После тысяч лет эволюции люди могут отправлять в небо спутники и ракеты. «В этом разница между общими способностями и исключительными способностями. Пчела делает только одну вещь за всю свою жизнь, две или три жизни. Как и в модели, если вы снабжаете ее только данными о людях, машинах и объектах, она Он сможет делать это только до конца своей жизни».

Помимо данных, самым дефицитным и конкурентным фактором сегодня является поставка мощных вычислительных мощностей.

SenseTime Jueying — один из немногих крупных поставщиков вычислительной мощности в отрасли. Начиная с 2018 года, SenseTime начала планировать вычислительную инфраструктуру и построила интеллектуальный вычислительный центр AIDC в Лингане, Шанхай. Он имеет 45 000 графических процессоров для предоставления услуг по обучению больших моделей и выводам для внешнего мира и может обучать модели с сотнями миллиардов или даже. триллионы параметров. Опираясь на поддержку AIDC, операционная вычислительная мощность SenseTime Jueying достигла 12 000 П. Ожидается, что к четвёртому кварталу 2024 года пиковая вычислительная мощность достигнет 25 000 П.

Не исключайте доставку «белого ящика», только когда растительность процветает, мы можем достичь экологических взаимовыгодных результатов».

Независимо от того, насколько хороша технология, ключ все равно заключается в ее реализации.

Ван Сяоган сообщил, что серийные продукты SenseTime Jueying для интеллектуального вождения были запущены на нескольких брендах и моделях, таких как GAC Aion LX Plus, Hezhong Nezha S, GAC Haopin GT и Hongqi, а также начали внедряться другие функции. реализовано. В то же время Jueying также продвигает поставку большего количества моделей. В начале июня GAC и FAW были выбраны в первую партию отечественных пилотных проектов L3, и SenseTime Jueying предоставила им алгоритмы восприятия, ориентированные на L3. Мало того, в будущем многочисленные серийные решения SenseTime Jueying для интеллектуального вождения могут быть модернизированы до комплексной архитектуры.

У них много клиентов и заказов, но поставщикам технологических решений в лице SenseTime Jueying приходится столкнуться с проблемой — самостоятельными исследованиями автомобильных компаний.

Возьмем, к примеру, Tesla. Ее особенностью является то, что она занимается искусственным интеллектом и имеет большой объем инфраструктуры, например, тысячи графических процессоров. Она также производит миллионы автомобилей каждый год и хранит информацию и данные конечных пользователей, образуя свой собственный замкнутый цикл.

Последуют ли этому примеру другие автомобильные компании? И можно ли этому подражать? Ван Сяоган сказал, что даже такая мощная и богатая человеческими ресурсами компания, как Microsoft, решила отключить свою команду по искусственному интеллекту и вместо этого сотрудничать с OpenAI.

При этом он пояснил, что так называемое «самоисследование» не означает, что вы должны делать все самостоятельно от начала до конца. Главное — управляемость. «Пока клиенты автомобильных компаний понимают и берут на себя инициативу в контроле всего, что происходит, и могут использовать свои собственные платформы для итерации продуктов, этого достаточно».

Поэтому с точки зрения методов сотрудничества в прошлом SenseTime Jueying склонялась к доставке кода в виде черного ящика, полагая, что это самый ценный актив. Но Ван Сяоган сообщил, что теперь SenseTime Jueying не отказывается от доставки «белого ящика». Потому что даже если код будет предоставлен, конкурентоспособность можно быстро повысить за счет более глубокой итерации и сотрудничества.

Кроме того, сотрудничество также может помочь автомобильным компаниям сэкономить деньги. «Мы инвестировали более 10 миллиардов долларов в крупные модели и в процессе создали собственную инфраструктуру, крупные установки и прибыльные облачные сервисы для достижения безубыточности. Работая с нами, автомобильным компаниям не придется нести это бремя. Некоторые огромные инвестиции Автопроизводителям не нужно самим вмешиваться в эти направления, мы откроем соответствующие ресурсы автопроизводителям».

Однако он также признал, что одной из проблем, с которой приходится сталкиваться при сотрудничестве с автокомпаниями, является отсутствие обратной связи. Обычно обратная связь с данными терминала зависит от инициативы производителя автомобиля, что может привести к неэффективной итерации и цикличности данных. Поэтому углубленное сотрудничество с клиентами автомобильных компаний особенно важно.

Благодаря доставке «белого ящика» SenseTime Jueying помогает партнерам автомобильных компаний понять технологию крупных моделей и овладеть ноу-хау. С другой стороны, OEM-производители в качестве партнеров могут обмениваться с Jueying данными и информацией, не требующими конфиденциальности. Это позволит подготовить более мощных специалистов. большая модель автомобиля, и обе стороны будут совместно разрабатывать ее, чтобы ускорить итерацию продукта и создать по-настоящему ориентированный на пользователя продукт большой модели интеллектуального автомобиля с искусственным интеллектом.

Основываясь на лидирующих в отрасли вычислительных мощностях и лучших в мире возможностях больших моделей «Ririxin», а также на основе более глубокой модели стратегического сотрудничества, SenseTime Jueying создаст беспроигрышную ситуацию со многими партнерами, такими как OEM-производители.

SenseTime Jueying установил время запуска сквозной большой модели в 2025 году. Ван Сяоган сказал, что, когда вышел ChatGPT, не все было сделано идеально. Например, когда GPT 3.5 выполнял задачи, было много вещей, которые он не мог сделать. делай. хорошо. Но главное в том, что все увидели правильное направление. В следовании по этому пути нет проблем, но потребуется еще несколько месяцев итераций. То же самое касается и сквозного.

В то же время он также уверенно заявил, что, когда в следующем году начнется серийное производство SenseTime Jueying, пользователи увидят вещи, которые в некоторых сценариях было совершенно невозможно сделать раньше, и это будут новые возможности, которые появятся.

У Синьчжоу, вице-президент автомобильного подразделения NVIDIA, однажды публично заявил, что end-to-end — это последняя песня трилогии умного вождения. На пути к финалу Шантан Цзюйин заслуживает внимания и ожиданий.

Новости

Введение

моя контактная информация