Версия Sora от NVIDIA была уличена в незаконном захвате большого количества данных, и чиновник выразил недовольство

2024-08-06

Байцзяо родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Представлена версия Sora от NVIDIA——

Ответственным лицом является вице-президент по исследованиям Лю Мингю под кодовым названием «Космос».

Однако из-за утечки нескольких внутренних документов они также подверглись незаконному получению данных.

(Действительно, это не раз и не два...)

Сотрудникам молчаливо разрешено каждый день сканировать любые несанкционированные и несогласованные данные в Интернете, например YouTube, Netflix и других платформах.

В совокупности визуальные данные, получаемые каждый день, почти равны тому, что человек может воспринять за 80 лет.

В результате Nvidia ответила: «То, что мы делаем,Абсолютно законно!

Обнародована версия Sora от Nvidia: кодовое имя Cosmos

Согласно просочившимся документам, полученным 404Media, NVIDIA каждый день собирает незаконные данные для обучения новых моделей.

Цель Cosmos — создать современную базовую модель видео. Согласно просочившимся электронным письмам, модель объединяет моделирование передачи света, физики и интеллекта для разблокировки различных последующих приложений.

Например, он используется в генераторе трехмерного мира Omniverse, системе беспилотного автомобиля и цифровых человеческих продуктах.

Минг-Ю Лю, вице-президент по исследованиям NVIDIA, является руководителем проекта Cosmos.

Он также является членом IEEE. Он возглавлял исследовательскую группу NVIDIA Deep Imagination и запустил такие продукты, как NVIDIA Picasso [Edify], NVIDIA Canvas [GauGAN] и NVIDIA Maxine [LivePortrait].

В предыдущем письме от Мэй говорилось:

Мы завершаем работу над конвейером данных версии 1 и выделяем необходимые вычислительные ресурсы для создания фабрики видеоданных, которая сможет ежедневно генерировать обучающие данные, эквивалентные жизненному визуальному опыту человека.

На этом изображении главный научный сотрудник NVIDIA Франческо Феррони дает ссылку на таблицу, которая объединяет различные наборы видеоданных, включая MovieNet (база данных из 60 000 трейлеров к фильмам), WebVid, InternVid-10M и несколько наборов данных игровых кадров, захваченных внутри компании.

Теперь, по словам бывшего сотрудника, сотрудникам будет предложено собирать данные из таких источников, как YouTube и Netflix.

Они будут использовать загрузчик видео с YouTube с открытым исходным кодом под названием yt-dlp, который использует виртуальную машину для обновления IP-адресов, чтобы избежать блокировки YouTube.

По этому поводу Nvidia ответила 404 Media:

Мы уважаем права всех создателей контента и считаем, что наши модели и исследовательские работы полностью соответствуют букве и духу закона об авторском праве.
Закон об авторском праве защищает определенные выражения, но не факты, идеи, данные или информацию. Каждый имеет право получать факты, идеи, данные или информацию из других источников и использовать их для выражения своего собственного мнения. Добросовестное использование также защищает возможность использовать произведение в преобразующих целях, например, для обучения моделей. "

Google скинул ссылку на 404 Media. В апреле этого года генеральный директор YouTube заявил, что если OpenAI будет использовать видео YouTube для обучения Соры, тоявное нарушениеУсловия использования YouTube.

Netflix заявила, что у нее нет соглашения об извлечении контента с Nvidia и что условия обслуживания платформы не позволяют извлекать контент.

Интересно, что в тот же день YouTube-блогеры подали коллективный иск против OpenAI, обвиняя компанию в использовании миллионов видеозаписей YouTube для обучения своих генеративных моделей ИИ без уведомления или выплаты компенсации владельцам видео.

Эти крупные компании нередко ранее подвергались незаконному получению данных.

Но надо сказать, что такого рода необработанные данные действительно полезны...

Ранее NVIDIA также использовала игровые видеоролики для улучшения качества обучающих данных.

Исследование, которое недавно появилось на обложке журнала Nature, показывает, что эта большая модель, обученная с использованием оригинальных интернет-данных, имеет преимущество первопроходца, имеет лучшее качество данных, а соответствующая производительность модели также является лучшей.

Позже, когда данных ИИ становилось все больше и больше, большие модели легко разрушались.

Мусор на входе, мусор на выходе。

Что вы думаете по этому поводу?

Справочные ссылки:
[1]https://techcrunch.com/2024/08/05/youtuber-files-class-action-suit-over-openais-scrape-of-creators-transcripts/
[2]https://www.gamedeveloper.com/business/report-nvidia-used-scraped-video-game-footage-to-train-ai-products

[3]https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/
[4]https://pivot-to-ai.com/2024/08/05/nvidia-caught-ingesting-as-much-of-youtube-as-possible/

Новости

Версия Sora от NVIDIA была уличена в незаконном захвате большого количества данных, и чиновник выразил недовольство

Введение

моя контактная информация