Загадочная базовая видеомодель Nvidia «Космос» раскрыта, а все данные украдены

2024-08-06

Отчет о сердце машины

Редакция «Машинное сердце»

Для этой модели видео NVIDIA каждый день лихорадочно просматривает видеоданные, эквивалентные 80 годам.

Сегодня на Reddit взорвалась новость о решении Nvidia прекратить выпуск видеомоделей.

Источник новостей — зарубежное СМИ 404 Media. Согласно чату Slack (внутренней чат-платформе Nvidia), полученным электронным письмам и документам, Nvidia собирает видео с Youtube и нескольких других источников для сбора данных обучения для своих продуктов AI.

Внутренние разговоры в Nvidia, проанализированные 404 Media, показывают, что, когда сотрудники, участвующие в проекте, выразили обеспокоенность по поводу возможных юридических проблем, возникающих из-за использования «коммерчески запрещенных наборов исследовательских данных» и «видео YouTube», менеджеры сказали им, что они получили одобрение на самом высоком уровне. Компания , которую можно использовать.

Бывший сотрудник Nvidia, анонимный, рассказал, что сотрудников попросили собрать видео с Netflix, YouTube и других источников, чтобы обучить модели искусственного интеллекта для генератора трехмерного мира Omniverse, беспилотных автомобильных систем и продуктов «цифрового человека».

Проект, получивший внутреннее название Cosmos (но отличающийся от существующего продукта глубокого обучения компании Cosmos), еще не был представлен публике. Согласно электронному письму, отправленному сотрудникам руководством проекта, цель Cosmos — создать современную модель видеоинфраструктуры, которая «объединяет световой транспорт, физику и интеллектуальное моделирование в одном месте, чтобы раскрыть различные последующие аспекты, критически важные для Приложение NVIDIA».

Для сбора обучающих видеороликов сотрудники NVIDIA использовали загрузчик видео с YouTube с открытым исходным кодом под названием «yt-dlp». Они пытаются загружать полные видео из различных источников, таких как Netflix, но в основном сосредотачиваются на видео на YouTube. Электронные письма, просмотренные 404 Media, показывают, что руководитель проекта решил использовать от 20 до 30 виртуальных машин в Amazon Web Services для ежедневной загрузки видео за 80 лет.

«Мы завершаем конвейер данных версии 1 и выделяем необходимые вычислительные ресурсы для создания фабрики видеоданных, которая сможет генерировать ежедневные данные обучения, эквивалентные жизненному зрительному опыту человека».

Отвечая на вопрос об использовании Nvidia видео с YouTube в качестве обучающих данных для своих моделей, представитель Google ответил 404 Media, что «предыдущая позиция компании остается в силе». Ранее генеральный директор YouTube Нил Мохан заявил, что если OpenAI будет использовать видео YouTube для улучшения своего искусственного генератора видео Sora, это будет «явным нарушением» условий использования YouTube.

Аналогичным образом, представитель Netflix сообщил 404 Media, что у компании нет соглашения с Nvidia о приобретении контента и что условия обслуживания платформы не позволяют извлекать контент.

Однако Nvidia, похоже, это не волнует. Юридические проблемы, высказанные сотрудниками, участвующими в проекте, часто игнорировались менеджерами проекта, заявлявшими, что решение удалить видео без разрешения было «исполнительным решением», о котором им не нужно беспокоиться, и что оно представляет собой справедливое и этичное использование материалов, защищенных авторским правом. содержание и вопрос академического, некоммерческого использования набора данных считаются «нерешенными юридическими вопросами», которые они решат в будущем.

Начало и конец проекта видеомодели NVIDIA

Подобно другим технологическим гигантам, Nvidia нанимает талантливых ученых-исследователей для публикации научных результатов, но из внутренних электронных писем, полученных 404 Media, видно, что Cosmos, очевидно, будет использоваться в коммерческих целях.

В марте этого года исследователь NVIDIA опубликовал сообщение в Slack и предположил, что использование голливудских фильмов, таких как «Аватар» или «Властелин колец», для обучения OpenAI Sora может быть более эффективным.

Впоследствии его предложение было признано внутри компании, но он также добавил, что Голливуд особенно чувствителен к возможности нарушения авторских прав ИИ. В июле 2023 года SAG-AFTRA, один из трех крупнейших профсоюзов Голливуда, насчитывающий 160 000 членов, объявил забастовку, направленную против продуктов генеративного искусственного интеллекта, таких как ChatGPT и Stable Diffusion. До этого Гильдия писателей Америки бастовала из-за проблем. более 70 дней. В Stable Diffusion есть ситуация. Даже если вы не введете соответствующее слово-подсказку и введете расплывчатое описание, например «Сантехник в стиле аниме», Stable Diffusion напрямую сгенерирует классический образ Марио.

Под этим постом сотрудник по имени «Лю» (а именно Лю Минг-Ю (Liu Mingyu), вице-президент по исследованиям NVIDIA) ответил: «Если статья не будет опубликована публично, это не вызовет вышеуказанных негативных проблем. Нам следует сначала используйте загружаемые видео для экспериментов».

После этого другой исследователь NVIDIA разместил сообщение в интранете. Он нашел список файлов, которые следует загрузить в первую очередь для обучения видеомоделей. Однако в наборе данных HD-VILA-100M, используемом NVIDIA, не хватало около 2,3 миллиона исходных файлов. В этот постоянно расширяющийся список также входят оригинальные видео некоторых известных пользователей YouTube, таких как Маркес Браунли (MKBHD), блоггер с цифровыми обзорами, имеющий в Северной Америке такую репутацию, как «Всем привет, я одноклассник Он».

Из-за защиты авторских прав общие наборы видеоданных часто включают URL-ссылки или идентификаторы YouTube. После того как автор удалит исходное видео, это содержимое больше не будет включаться в набор данных, если автор видео явно не согласится на сохранение и использование контента. .

Хотя Microsoft в своем заявлении об использовании набора данных HD-VILA-100M явно запрещает любое коммерческое использование, сотрудника Nvidia, разместившего сообщение, похоже, это не волновало. Он быстро разместил ссылку на YouTube, соответствующую списку, и поделился ею со своими коллегами. Мы обсудили решение, позволяющее использовать виртуальные машины AWS для изменения IP-адресов и обхода механизма защиты от сканирования YouTube.

Кроме того, сотрудники NVIDIA также обратились к YouTube-8M, крупномасштабному набору данных для распознавания видео, выпущенному Google. Вместо того, чтобы самостоятельно дополнять набор данных Microsoft, они заключили «сделку» с YouTube и Google, нынешней материнской компанией YouTube, Nvidia, которая купила 800 видеороликов по цене 0,00625 доллара США (около 4 центов) за 10 000 видеороликов и будет загружена. через Google Cloud. Независимо от проблемы продажи авторских прав, Google может думать, что он вернул гонорары за рекламу этих видео, но у Nvidia уже есть некоторые ограничения в пропускной способности облака. Загрузка в Google Cloud может обеспечить более стабильное и предсказуемое соединение. Поэтому, как ни посмотри, эта «сделка» кажется выгодной Nvidia.

Что еще более удивительно, так это то, что сотрудник Nvidia спросил в интранете: «Разумно ли нам загружать такие видео с YouTube?»

«Это решение на высоком уровне. У нас есть полное разрешение на использование всех данных». Именно такой ответ он получил.

Данные, разрешенные для принятия этого решения, также включают видеопродукцию на Netflix. Данные Netflix содержат много высококачественных данных о лицах. После того, как они были одобрены, кто-то попросил помочь коллег во внутренней сети компании, у которых был опыт «создания больших наборов данных» в других крупных компаниях.

При этом команда «Космоса» также рассматривала вопрос, как эффективно добавлять игровые кадры к тренировочным данным. Старший научный сотрудник NVIDIA Джим Фан также столкнулся с «нормативными» препятствиями при съемке игровых кадров в реальном времени.

Джим Фан написал:

Обновление: я встречался с ребятами из GeForce Now (GFN) и работал с ними над планами. Мы будем тесно сотрудничать с GFN и соответствующими командами инженеров для разработки методов сбора игровых данных в реальном времени, расширения масштаба конвейера и обработки данных для обучения. Качественные геймплейные ролики будут очень полезным дополнением к «нашей Соре». Так как оборудования для съемки живых геймплейных видео и действий пока нет, статистика пока не ведется, но мы будем подчищать и обрабатывать GFN. данные добавляются в команду-vfm.

В марте этого года сбор видеоданных Project Cosmo достиг важной вехи: Nvidia завершила загрузку 100 000 видео за две недели.

«Прогресс потрясающий. Теперь вопрос в том, как мы можем получить большое количество высококачественных URL-адресов», — ответил Лю в этом посте.

В конце мая члены команды проекта получили электронное письмо о стратегии видеоданных, в котором сообщалось, что они собрали 38,5 миллионов URL-адресов видео. «Согласно плану, в центре видеоколлекции на следующей неделе по-прежнему будут фильмы, кадры с дронов, кадры с видом от первого лица и природные пейзажи», — говорится в электронном письме, в котором также указана диаграмма, показывающая типы загруженного контента. процент.

В электронном письме была раскрыта некоторая ключевая техническая информация, в том числе четыре набора данных из данных обучения модели:

Эго-Exo4D: разнообразный, крупномасштабный, мультимодальный, многоракурсный набор видеоданных и эталонный тест, собранный 740 владельцами камер в 13 городах по всему миру и запечатлевший 1286,3 часа видео квалифицированной человеческой деятельности.
Эго4Д: это крупномасштабный, эгоцентричный набор данных и набор тестов, который собирает более 3670 часов видео повседневной жизни в 74 местах в 9 странах мира.
HOI4D : Крупномасштабный 4D-набор эгоцентрических данных с богатыми аннотациями для облегчения исследования взаимодействия человека и объекта на уровне категории. HOI4D был создан исследователями из Университета Цинхуа, Пекинского университета и Шанхайского научно-исследовательского института Цичжи. Он имеет лицензию CC BY-NC 4.0, коммерческое использование запрещено.
GeForce сейчас: Данные игры.

В другом электронном письме участники проекта Cosmos сообщили: «Исследовательская группа сейчас обучает модель с 1 миллиардом параметров и множеством конфигураций, каждая из которых имеет 16 узлов. Это важный шаг отладки перед дальнейшим масштабированием. несколько недель, а затем масштабируйте модель до 10 миллиардов параметров».

«Это великолепное обновление!» — ответил на письмо генеральный директор Nvidia Дженсен Хуанг: «Многие компании поставили перед собой цель создать базовую модель видео, и мы определенно можем построить ускоренный конвейер».

В июне члены команды проекта обсудили, какие типы контента в модели будут наиболее полезны для продуктов Nvidia в контексте поддержания конкурентоспособности в индустрии искусственного интеллекта.

«У NVIDIA есть робототехника, автономное вождение, Omniverse и Avatar, которых нет у большинства контент-компаний. Чтобы максимизировать рост компании, данные, которые мы организуем, должны быть хорошо применимы к этим «убийственным» приложениям», — сказал участник Cosmos Project.

Нет сомнений в том, что модель, которую разрабатывает команда Cosmos, предназначена для коммерческого использования во многих ее продуктах.

Пока не будет принят закон, который потребует от этих компаний полного раскрытия данных о своем обучении, они будут продолжать использовать «серые зоны» закона для сбора данных, защищенных авторским правом. Без утечек внутренней электронной почты или разговоров в интрасети никто бы не узнал, что происходит за кулисами, и такая модель могла бы принести таким технологическим гигантам, как Nvidia, Runway или OpenAI, миллиарды долларов.

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

Новости

Загадочная базовая видеомодель Nvidia «Космос» раскрыта, а все данные украдены

Введение

моя контактная информация