Новости

Компания Nvidia подверглась краже данных, ежедневно сканируя видеоданные за более чем 80 лет, а также пострадал набор академических данных Пекинского университета.

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

NVIDIA, похоже, недавно вступила в трудный период.
После того, как выяснилось, что массовое производство самого мощного чипа искусственного интеллекта было отложено, а его рыночная стоимость испарилась более чем на 300 миллиардов долларов США, 404 Media разоблачила Nvidia в захвате видеоконтента с таких платформ, как YouTube и Netflix, без разрешения на его обучение. . Видеомодель AI, которая еще не была представлена ​​публике.
Внутренние электронные письма и чаты Slack показывают, что, хотя сотрудники Nvidia поднимали вопросы о законности и этичности использования этих наборов данных, руководство компании заявило, что эти действия были одобрены высшим руководством, и заявило, что их действия соответствуют закону об авторском праве.
Стоит отметить, что во время внутренних обсуждений в конце февраля NVIDIA упомянула несколько используемых ею наборов данных, включая HD-VG-130M.
Последний представляет собой набор данных из 130 миллионов видеороликов YouTube, созданный исследователями Пекинского университета, и в лицензии на его использование прямо указано, что он ограничивается академическими исследованиями.
Подход Nvidia больше похож на микрокосм большинства современных компаний, занимающихся искусственным интеллектом.
Когда пользователей рассматривают как «машины для обработки данных», если только инсайдеры не разоблачают это, внешнему миру действительно трудно узнать, стали ли ваши и мои работы основой для обучения ИИ.
Короче говоря, люди по-прежнему являются потребителями на вершине пищевой цепочки, но мы неизбежно станем участниками цепочки поставок разработок ИИ.
Ниже приводится оригинальный текст новости зарубежного СМИ 404 Media, написанный ГПТ-4о Перевод, наслаждайся~
Накормите модель видеороликами с YouTube и каждый день загружайте эквивалент видеороликов за 80 лет.
Внутренние чаты Slack, электронные письма и документы, полученные 404 Media, показывают, что Nvidia собирает видео с YouTube и множества других источников, чтобы собрать данные обучения для своих продуктов искусственного интеллекта. Отвечая на вопрос о юридических и этических проблемах использования контента, защищенного авторским правом, для обучения моделей ИИ, Nvidia заявила, что ее подход «полностью соответствует букве и духу закона об авторском праве».
Внутренние разговоры в Nvidia, проанализированные 404 Media, показывают, что, когда сотрудники поднимали вопросы о возможных юридических последствиях использования наборов данных и видеороликов YouTube, собранных учеными в исследовательских целях, менеджеры говорили им, что руководство компании одобрило их использование.
Бывший сотрудник Nvidia (которому 404 Media предоставила анонимность для обсуждения внутренних процессов Nvidia) рассказал, что сотрудников просили собирать видео с Netflix, YouTube и других источников для обучения генератору 3D-миров Nvidia Omniverse.АвтопилотАвтомобильные системы и »цифровой человек«ИИ-модель продукта.
Проект, известный внутри компании как Cosmos (но отличающийся от существующего продукта глубокого обучения компании Cosmos), еще не был опубликован публично.
В электронном письме от руководителя проекта говорится, что Cosmos стремится создать современную модель видеоинфраструктуры, которая «объединяет симуляции светового транспорта, физики и интеллекта в одном месте для разработки множества последующих приложений, критически важных для Nvidia».
В электронном письме, полученном 404 Media, показана диаграмма, показывающая, как модель Cosmos применяется к различным продуктам Nvidia.
Сообщения Slack на канале, созданном компанией для проекта, показывают, что сотрудники используют загрузчик видео с YouTube с открытым исходным кодом под названием yt-dlp в сочетании с виртуальной машиной для обновления IP-адреса, чтобы избежать блокировки YouTube.
По словам источника, они пытались загрузить полные видеоролики из нескольких источников, включая Netflix, но в основном ориентировались на видеоролики с YouTube.
В электронных письмах, просмотренных 404 Media, менеджеры проектов обсуждают использование от 20 до 30 виртуальных машин Amazon Web Services для ежедневной загрузки видео за 80 лет.
«Мы завершаем работу над конвейером данных v1 и выделяем достаточные вычислительные ресурсы для создания фабрики видеоданных, которая сможет генерировать эквивалент 100% видеоданных каждый день», — сказал Мингю Лю, вице-президент по исследованиям Nvidia и руководитель проекта Cosmos. в электронном письме в мае. Объем данных в визуальном опыте человека».
Разговоры и инструкции внутри Nvidia показывают, как сотрудники обсуждают юридические и этические аспекты компании при разработке чипов и API, которые способствовали развитию генеративного искусственного интеллекта и сделали ее одной из самых ценных публичных компаний в мире.
В нем также освещаются крупнейшие компании отрасли, такие как Runway и OpenAI, существует неудовлетворенный спрос на контент в качестве данных для обучения моделей ИИ.
Представитель Nvidia сообщил в электронном письме 404 Media:
Мы уважаем права всех создателей контента и твердо верим, что наши модели и исследовательские работы полностью соответствуют букве и духу закона об авторском праве. Закон об авторском праве защищает определенные выражения, но не факты, мнения, данные или информацию. Любой может узнать факты, идеи, данные или информацию из других источников и использовать их для выражения собственного мнения. Добросовестное использование также защищает право использовать произведение в преобразующих целях, например, для обучения моделей.
Отвечая на вопрос об использовании Nvidia видео с YouTube в качестве обучающих данных для своих моделей, представитель Google сообщил 404 Media, что «предыдущие комментарии компании по-прежнему актуальны».
Среди них генеральный директор YouTube Нил Мохан заявил, что если OpenAI будет использовать видео YouTube для оптимизации своего искусственного видеогенератора Sora, это явно нарушит условия использования YouTube.
Представитель Netflix сообщил 404 Media, что у Netflix нет соглашения с Nvidia о приобретении контента и что условия обслуживания платформы не позволяют извлекать данные.
Вопросы о юридических проблемах, поднятые сотрудниками, участвовавшими в проекте, обычно отклонялись менеджерами проекта, которые заявили, что решение удалить видео без разрешения было «решением на высоком уровне» и что сотрудникам не о чем беспокоиться о том, что представляет собой нарушение авторских прав. контент, защищенный авторским правом, а тема справедливого и этичного использования наборов данных для академического некоммерческого использования считается «нерешенной юридической проблемой», которую они решат в будущем.
Наше расследование подчеркивает позицию «не спрашивать» этих технологических компаний, собирающих огромные объемы контента, защищенного авторским правом, в наборы данных, которые используются для обучения некоторых из самых ценных в мире моделей искусственного интеллекта.
Руководители Nvidia предположили, что набор академических данных Пекинского университета также подвергся злоупотреблениям
В феврале 2024 года Франческо Феррони, главный научный сотрудник Nvidia, написал на канале Nvidia Slack под названием #cosmos-dataset-creation:
«Привет всем, @Sanja Fidler рассказала мне об инициативе по объединению большого количества тщательно подобранных наборов видеоданных для генеративного моделирования. Мы подумали, что начать с объединения всех доступных внутри компании (публично или загруженных изнутри) наборов видеоданных, чтобы избежать дублирования, очень важно. »
(Примечание: Санья Фидлер — вице-президент Nvidia по исследованиям искусственного интеллекта.)
Затем Феррони подключился к электронной таблице со ссылками на наборы данных, включая MovieNet, базу данных из 60 000 трейлеров к фильмам, и WebVid, набор видеоданных, составленный из стоковых изображений на Github, который позже был удален Shutterstock его создателем после получения уведомления), InternVid. -10M (набор данных из 10 миллионов идентификаторов видео YouTube на Github) и несколько наборов данных, записанных внутри компании, отснятых видеоигр. 404 Media удалила имена младших сотрудников со скриншотов разговоров в Slack.
Мы включили имена нескольких старших инженеров и руководителей, участвовавших в проекте, поскольку они известны общественности как лидеры отрасли искусственного интеллекта.
В электронной таблице, на которую ссылается Феррони, показаны наборы данных, использованные в проекте.
В ходе последующего обсуждения в феврале инженеры рассказали о полученных ими наборах данных, в том числе о HD-VG-130M, наборе из 130 миллионов видеороликов YouTube. Набор данных был создан исследователями Пекинского университета в Китае, и в лицензии на его использование указано, что его можно использовать только в академических целях.
«Загружая или используя данные, вы понимаете, признаете и соглашаетесь со всеми условиями следующего соглашения», — говорится на странице набора данных Github.
На странице подчеркивается: «Только для академического использования. Любой контент в наборе данных HD-VG-130M предназначен только для использования в академических исследованиях. Вы соглашаетесь не копировать, не продавать и не использовать в каких-либо коммерческих целях. Распространение запрещено. Соблюдайте конфиденциальность личная информация первоисточника». Любая трансляция, изменение или любое другое подобное поведение содержимого набора данных не допускается без разрешения владельца авторских прав.
На протяжении всего проекта наборы данных, собранные и опубликованные исследователями и учеными, считались свободно доступными для использования в моделях NVIDIA. Исследователи искусственного интеллекта все больше беспокоятся о правильном использовании наборов данных, которые они публикуют, включая этические и юридические аспекты.
Роберт Махари из MIT Data Provenance Initiative сообщил 404 Media, что за последний год наблюдается значительный рост использования лицензий на некоммерческое использование наборов исследовательских данных, что позволяет предположить, что ученые пытаются ограничить коммерческое использование своей работы. Наборы данных, собранные для исследовательских целей, существенно отличаются по назначению от наборов данных, собранных для коммерческого использования.
«Когда ученые публикуют общедоступные наборы данных, особенно наборы данных по конкретным задачам, мы не можем специально проверять данные на предмет таких проблем, как определенные типы предвзятости или западоцентризма. Если они не являются предметом исследования, то проверок не будет». - сказал Махари. «Итак, если ученый указывает в лицензии «Только для академического использования» или «Пожалуйста, не используйте эти данные непреднамеренным образом», это веская причина соблюдать эти правила. Поскольку данные могут не иметь коммерческого качества, они могут также плохо работают в других типах сред».
Как и многие другие технологические гиганты, Nvidia нанимает людей, которые проводят и публикуют научные исследования. Однако внутренние разговоры в Nvidia, просмотренные 404 Media, показывают, что Cosmos нацелена на поддержку усилий компании по укреплению ее коммерческих предложений в высококонкурентной индустрии искусственного интеллекта.
Публично опубликованные наборы исследовательских данных часто распространяются в виде URL-адресов или идентификаторов YouTube по двум причинам: во-первых, по практическим соображениям — совместное использование миллионов полных файлов видео или изображений слишком обременительно, во-вторых, по юридическим и этическим причинам; Например, если кто-то удалит свое видео или твит на YouTube, копия не останется в наборе данных без ведома или разрешения владельца.
«Это похоже на обход юридических ограничений, не распространяя набор данных посторонним», — сказала 404 Media Эмили Бендер, профессор и директор Лаборатории компьютерной лингвистики Вашингтонского университета. «Другие могут создать набор данных и использовать его в своих целях».
Раскрыты подробности обсуждения: как NVIDIA крадет данные, находясь на грани закона?
В марте учёный-исследователь начал дискуссию в Slack о возможности использования видеогенератора Sora от OpenAI в качестве обучающих данных голливудских фильмов, таких как «Аватар» и «Властелин колец».
«Фильмы на самом деле являются хорошим источником данных для непрерывности игрового 3D и художественного контента, но в более высоком качестве. Персонажи полностью компьютерные, и многие сцены живых выступлений теперь тоже компьютерные», — сказали они. Кто-то ответил, что команде следует тренироваться на наборе данных о фильмах Discovery Channel.
Лю Мингю сказал: «Нам нужен волонтер, который скачает все фильмы».
Ученый-исследователь, который первоначально предложил фильм, добавил: «Хотя совершенно ясно, что они делают, мы должны быть очень осторожны, чтобы Голливуд не стал сверхчувствительным к ИИ, как это произошло с сообществом художников после выхода SD [Stable Diffusion». ] и теперь происходит в Голливуде».
Затем они разместили в чате две ссылки: статью Hollywood Reporter о том, как Тайлер Перри приостановил расширение студии стоимостью 800 миллионов долларов после просмотра Sora от OpenAI, и статью Vanity Fair о забастовке SAG-AFTRA 2023 года, которая приводит к статьям, включающим в студийных контрактах язык искусственного интеллекта.
Лю Мингю подчеркнул: «То, что мы здесь делаем, не будет публиковать никаких результатов исследований. Мы будем использовать все доступные для скачивания данные для проведения экспериментов. Поскольку мы ничего не будем публиковать, никаких негативных эмоций не будет, — пояснили бывшие сотрудники 404 Media». это «публиковать» относится к исследовательским публикациям.
Человек, заявивший о «высокой чувствительности», ответил: «Если мы реализуем такой проект внутри компании, о нем следует широко рассказать, потому что демонстрация подобных примеров может вызвать негативную реакцию». Лю Мингю ответил: «Да».
В марте Феррони написал на другом канале Slack, связанном с проектом: «Обнаружены некоторые файлы с высоким приоритетом, которые необходимо загрузить. Оказалось, что 2,3 миллиона необработанных видео отсутствовали в имеющемся у нас наборе данных HDVILA [High-Resolution Video Language]». .!» Они имели в виду HD-VILA-100M от Microsoft, крупномасштабный набор данных с высоким разрешением и разнообразным языком видео. Они отправили ссылку на документ на Google Диске и сказали: «Вот недостающая ссылка на YouTube», а затем сказали: «Давайте включим это в процесс загрузки!»
Лицензионное заявление на HD-VILA-100M гласит:
«Вы соглашаетесь использовать данные только в вычислительных целях для некоммерческих исследований. Это ограничение означает, что вы можете участвовать в некоммерческой исследовательской деятельности (включая некоммерческие исследования, проводимые или финансируемые коммерческой организацией), но вы не можете использовать данные или любые результаты для любого коммерческого продукта, в том числе как часть продукта или услуги, которую вы используете или предоставляете другим (или для улучшения любого продукта или услуги).
«Давайте создадим базу данных загруженных URL-адресов», — ответил другой инженер. «Видео на YouTube имеют уникальные идентификаторы. Можем ли мы использовать эти идентификаторы в качестве ссылок (идентификаторы после «?v=")? В будущем мы будем сравнивать и объединять URL-адреса много раз». Феррони ответил: «Да, сейчас мы используем Hive». setup инфраструктура», то есть они добавляют ее в инструмент управления проектами Hive.
Член команды Omniverse, которого они отметили, ответил: «Мы находимся на AWS, и перезапуск экземпляра [виртуальной машины] дает нам новый общедоступный IP-адрес, так что на данный момент это не проблема».
В дискуссии Slack на канале #cosmos-dataset-creation о том, как найти лучшие видеоролики, сотрудники время от времени упоминали юридические и этические проблемы своей работы. В феврале, после того как кто-то упомянул об использовании YouTube-8M, набора исследовательских данных идентификаторов YouTube, собранного Google, Феррони спросил: «Может быть, мы не можем использовать [YT8M] в неисследовательских целях?»
В документе YouTube-8M и на странице проекта не упоминаются вопросы авторского права, но в документе утверждается, что набор данных был создан для продвижения исследований в области машинного обучения: «Мы ожидаем, что этот набор данных обеспечит равные условия для исследователей в академических кругах. Мы надеемся, что этот набор данных послужит испытательной площадкой для разработки новых алгоритмов обучения представлению видео, особенно методов, которые эффективно справляются с зашумленными или неполными метками».
В ответ на вопрос Феррони об использовании его для проекта Cosmos сотрудник NVIDIA, который ранее был соавтором ACAV100M, ответил:
«Да, загрузка данных из Google обходится очень дорого. Однако планирование 10 000 ядер изнутри NVIDIA оказалось непростой задачей.
Кроме того, ограничения пропускной способности NVIDIA в облаке добавляют значительную изменчивость, которая может вызвать проблемы. Загрузка в Google Cloud означает, что каждая задача получает стабильное высокоскоростное соединение с YouTube. "
«Что еще более важно, загрузка видео с YouTube запрещена условиями обслуживания YouTube. Поэтому при загрузке YouTube 8m мы заранее общались с Google и YouTube и использовали Google Cloud для загрузки в качестве стимула.Ведь обычно для 8 миллионов видео, они получают много показов рекламы, которые загружаются при использовании для обучения и приводят к потере дохода, поэтому они должны получить от этого некоторый доход. Плата в размере 0,00625 доллара США за загрузку видео по-прежнему является выгодной сделкой. "
«Хорошо, значит, эти данные будут использоваться только в исследовательских целях? Насколько я знаю, API YouTube от Google может запрашивать условия лицензии каждого видео», — ответил Феррони. «Можете ли вы также прокомментировать условия лицензирования ACAV100M и YouTube8M?»
«Насколько мне известно, условия обслуживания YouTube запрещают загрузку независимо от лицензии; ограничение связано с потерей дохода от рекламы, а не с лицензией», — ответил другой сотрудник. Они продолжили:
«Я не знаю, какие условия лицензирования Google отфильтровал при создании набора данных; мы просто загрузили то, что они указали как включенное в набор данных (они опубликовали функции вместе со ссылками на оригинальные видео). Я скачал данные YouTube 8m. набор поставляется с полными метаданными, поэтому вы можете проверить каждое видео там. Мне все еще нужно проверить набор данных ACAV100M. Вообще говоря, лучше всего использовать CC или общедоступный материал, если доступны материалы, защищенные авторским правом. Использование для обучения в настоящее время открыто. юридический вопрос; большинство компаний, похоже, считают это добросовестным использованием. Я считаю, что наша команда юристов одобрила эту практику для обучения больших языковых моделей и, вероятно, также одобрит видеообучение».
«Я думаю, что существует огромный разрыв между коммерциализацией чего-либо без чьего-либо согласия и исследованием возможностей генеративного искусственного интеллекта на основе публично выпущенного контента», — сказал 404 Media Шейн Лонгпре, докторант Медиа-лаборатории Массачусетского технологического института. Вопросы об условиях обслуживания YouTube на канале Cosmos Slack были не последним случаем, когда возникали юридические проблемы.
Позже другой сотрудник сказал: «Привет, команда. Используем ли мы https://research.google.com/youtube8m/download.html для загрузки видео? Если да, то есть ли у нас юридическое одобрение? В одном проекте юридический отдел отклонил его использовать, потому что лицензия на отдельные видео лучше, чем лицензия, предоставленная на yt8m. «Это административное решение. У нас есть основная лицензия, которая распространяется на все данные», — ответил Лю Мингю. «Хорошо, спасибо!» — ответил человек, задавший вопрос.
Бендер сообщил 404 Media, что компания пользуется нынешней правовой серой зоной, связанной с контентом, защищенным авторским правом, который используется для обучающих данных. «Мне кажется, что определенно существует культура: «Если мы можем это получить, мы можем это использовать», — сказала она. «Это во многом основано на том, что люди хотят, чтобы это произошло, а не на тщательном изучении его законности или глубоком размышлении о его влиянии на людей».
Использование контента, защищенного авторским правом, для обучения ИИ «определенно не является устоявшимся законом», сказал Махари. Правовой системе еще предстоит определить, является ли получение обучающих данных для разработки моделей ИИ достаточно преобразующим, особенно после того, как было показано, что модели способны запоминать или вызывать обучающие данные в качестве выходных данных. «Моя точка зрения (частично изложенная в этой статье в журнале Science) заключается в том, что обучение модели ИИ действительно может представлять собой добросовестное использование, но это не означает, что создание выходных данных, аналогичных конкретным элементам обучающих данных, не является нарушением прав.
В этом случае неясно, будет ли нарушать авторские права поставщик базовой модели или конкретный пользователь, генерирующий выходные данные (это может зависеть от контекста). "
В мае ученый-исследователь разместил ссылки на некоторые каналы YouTube на канале Cosmos Slack и сказал: «Если вы, ребята, все еще открыты для предложений по каналам YouTube, которые вы можете загрузить, вот некоторые из них, которые, возможно, стоит рассмотреть». . Включает официальные каналы Expedia и Architectural Digest, а также отдельных создателей контента, таких как The Critical Drinker и Marques Brownlee (MKBHD). Менеджер проекта поблагодарил их за предложения и сказал, что они передадут их команде, на что Фидлер ответил: «Вы также включили обучающее видео? Астрономия? Медицина?»
«Нерешенный юридический вопрос» использования произведений, защищенных авторским правом, для обучения коммерческой базовой модели, возможно, не останется нерешенным надолго.
Иски о нарушении авторских прав, поданные правообладателями против компаний, занимающихся генеративным искусственным интеллектом, накапливаются, в том числе иск Getty Images против создателя Stable Diffusion Stability AI, иск The New York Times против OpenAI, а также иск художников и создателей против Stability.В середине пути , DeviantArt и Runway подали коллективный иск. Команда обучающих данных Cosmos также обсудила использование Netflix для обучения генератора.
«На сегодняшней встрече мы получили разрешение на загрузку всех видов данных. Должны ли мы загрузить весь Netflix? Как нам это реализовать?» — сказал Лю на канале Slack. «Мы должны скачать весь канал Discovery!»
кто-то ответил. «Нам нужен информационный координатор проекта. Кто хочет делать снимки экрана во время просмотра всех фильмов?», — сказал Лю. «Мы должны получить много высококачественных видео с лицами», — продолжил Лю. Кто-то из команды инфраструктуры Omniverse был отмечен в теме и отметил, что они готовы помочь «ввести в эксплуатацию это», поскольку у них есть «опыт работы с другими крупными компаниями, создающими большие наборы данных».
Команда также подумала, как лучше всего добавить кадры видеоигры к обучающим данным. Джим Фан, старший научный сотрудник Nvidia, упомянул, что существуют «технические и нормативные» препятствия при съемке видео игрового процесса в реальном времени.
«Обновление: я встретился с ребятами из GeForce Now (GFN) и буду работать с ними над планом передачи данных. Мы будем тесно сотрудничать с GFN и связанными с ними инженерными командами для создания системы сбора игровых данных в реальном времени, масштабирования конвейера и обрабатывать эти данные для обучения. Качественные геймплейные видеоролики станут очень полезным дополнением к нашему проекту Sora», — написал Фан. «У нас пока нет статистических данных или видеофайлов, потому что инфраструктура не создана для захвата огромного количества живого игрового видео и действий. Однако после очистки и обработки данных GFN нам необходимо преодолеть инженерные и нормативные препятствия. прибудет, мы будем добавлены в команду-vfm как можно скорее."
В марте проект достиг важной вехи: за две недели было скачано 100 000 видеороликов. Сотрудник упомянул в теме, обсуждающей эту важную веху, что у Ferroni есть загрузчик, который они используют, и Феррони подтвердил, что они загружают аудио и видео. «Потрясающий прогресс. Теперь вопрос в том, как нам получить большое количество высококачественных URL-адресов», — ответил Лю.
В конце мая членам команды проекта было отправлено электронное письмо с информацией о стратегии обработки видеоданных, в котором сообщалось, что они собрали 38,5 миллионов URL-адресов видео. «Исходя из нашего целевого распределения, основное внимание на предстоящей неделе по-прежнему сосредоточено на фильмах, кадрах с дронов, видеороликах от первого лица, а также некоторых видеороликах о путешествиях и природе», — говорится в электронном письме. В электронном письме также была диаграмма, показывающая процент загруженных типов контента.
В этом электронном письме менеджер по продукту предложил добавить к обучающим данным модели четыре дополнительных набора данных. Они написали:

1. Ego-Exo4D: разнообразный крупномасштабный мультимодальный набор видеоданных с несколькими изображениями и эталонный тест, собранный 740 владельцами камер в 13 городах по всему миру и запечатлевший 1286,3 часа видео квалифицированной человеческой деятельности.

2. Ego4D: крупномасштабный набор данных и набор тестов от первого лица, включающий более 3670 часов видео повседневной жизни, собранных в 74 местах и ​​9 странах по всему миру.

3. HOI4D: крупномасштабный четырехмерный набор данных первого просмотра с богатыми аннотациями для облегчения изучения взаимодействий человека и объекта на уровне категорий.

4. GeForce Now: данные игры.
HOI4D был создан исследователями из Университета Цинхуа, Пекинского университета и Шанхайского научно-исследовательского института Цичжи. Он доступен под лицензией CC BY-NC 4.0, коммерческое использование запрещено.
«По моему мнению, если компания берет набор данных, предназначенный только для исследовательских целей, и использует его для исследований, она все равно соблюдает лицензию на этот набор данных», — сказал Бендер.
«Но чтобы гарантировать это, им нужно быть очень осторожными и строить барьеры между исследованиями, которые они проводят, и работой по разработке продуктов».
В другом обновленном электронном письме в мае Лю сказал: «Исследовательская группа сейчас обучает модель с 1 миллиардом параметров, используя множество различных конфигураций, каждая из которых имеет 16 узлов. Это важная отладка перед дальнейшим расширением. Мы планируем сделать выводы в течение несколько недель, а затем масштабируйте модель до 10 миллиардов параметров».
Генеральный директор Nvidia Дженсен Хуанг ответил в этом письме: «Отличное обновление. Многим компаниям приходится создавать модели на основе видео. Мы можем обеспечить полностью ускоренный конвейер».
В июне сотрудники обсуждали, какие типы контента в моделях будут наиболее полезны для продуктов Nvidia, чтобы оставаться конкурентоспособными в индустрии искусственного интеллекта.
«У NVIDIA есть роботы, беспилотные автомобили, Omniverse и Avatar, которых нет у большинства контент-компаний. Чтобы оказать наибольшее влияние на компанию, данные, которые мы курируем, должны быть хорошо применимы к этим убийственным приложениям», — сказал Лю.
«Я понимаю данные, которые влияют на роботов и беспилотные автомобили. Может ли кто-нибудь поделиться подробностями данных, которые влияют на сценарии использования Omniverse и Avatar?» — ответил один менеджер по продукту. «Это будет видео о том, как люди взаимодействуют с объектами. Например, устанавливают мебель, нарезают фрукты, складывают белье», — ответил Лю.
Основан ли прогресс моделей ИИ на ваших и моих творениях?
Хотя Nvidia вносит свой вклад в академические исследования, беседы и электронные письма, полученные 404 Media, показывают, что модель, над которой работает команда Cosmos, предназначена для коммерческого использования во многих ее продуктах.
До тех пор, пока не будет установлен юридический прецедент в отношении того, как собираются данные обучения, или пока компании не потребуют прозрачности в отношении этих данных, компании будут продолжать использовать юридическую серую зону сбора данных обучения, защищенных авторским правом. Утечки внутренних разговоров, подобные этой, — единственный способ узнать, используется ли их работа для обучения моделей, которые приносят таким компаниям, как Nvidia, Runway или OpenAI, миллиарды долларов.
Индустрия искусственного интеллекта уже много лет добивается большей прозрачности, будь то посредством государственного регулирования или отраслевых стандартов.
Ранее в этом году Джек Хардингс, Елена Симперл и Найджел Шедболт из Массачусетского технологического института написали: «Очень важно понять, что находится в наборах данных, используемых для обучения моделей, и как они были составлены. Без этой информации разработчики, исследователи и специалисты по этике пытаются решить проблему. предвзятость или удаление вредного контента из данных будут затруднены.
Информация о данных обучения также будет иметь решающее значение для законодателей, чтобы оценить, использовали ли базовые модели личные данные или материалы, защищенные авторским правом. В дальнейшем предполагаемые операторы систем искусственного интеллекта и те, кого затрагивает их использование, с большей вероятностью будут доверять этим системам, если они понимают, как они были разработаны. "
В прошлом году законодатели представили несколько законопроектов для решения этой проблемы, в том числе Закон о прозрачности базовой модели ИИ в декабре, который потребует от компаний, создающих базовые модели ИИ, сотрудничать с федеральными агентствами, такими как Федеральная торговая комиссия и Бюро авторских прав, для разработки стандартов прозрачности, включая требование им раскрывать определенную информацию потребителям.
Закон о раскрытии авторских прав на генеративный искусственный интеллект, предложенный в апреле этого года, потребует от производителей наборов данных предоставлять регистратору «достаточно подробное описание любой работы, защищенной авторским правом», иначе им грозит штраф.
«Технически очень сложно определить, использовалась ли ваша работа для обучения», — сказал Махари. «С внутренней точки зрения лучшая политика — не сообщать людям, какое обучение вы используете, потому что третьей стороне очень сложно провести аудит и выяснить это. Поэтому, пока вы никому не рассказываете, это очень сложно доказать».
Прилагаем исходный адрес отчета:

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/