소식

NVIDIA 버전의 Sora가 대량의 데이터를 불법적으로 캡처하는 것으로 노출되었으며, 관계자는 불만을 표시했습니다.

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao는 Aofei Temple에서 왔습니다.
Qubits 공개 계정 QbitAI

NVIDIA 버전의 Sora 노출——

코드네임 코스모스(Cosmos) 연구원 류밍위(Liu Mingyu) 부사장이 책임자를 맡고 있다.

그러나 여러 내부 문서가 유출되면서 불법적으로 빼돌린 자료에도 노출됐다.



(사실 이게 한두번이 아니네요...)

직원들은 YouTube, Netflix 및 기타 플랫폼과 같은 인터넷에서 매일 승인되지 않고 동의하지 않은 데이터를 크롤링할 수 있도록 암묵적으로 허용됩니다.

매일 수집되는 시각적 데이터를 종합하면 사람이 80년 동안 인지할 수 있는 양과 거의 맞먹습니다.

그 결과 Nvidia는 다음과 같이 응답했습니다. 우리가 하는 일은완전히 합법적입니다!



노출된 Sora의 Nvidia 버전: 코드명 Cosmos

404Media가 입수한 유출 문서에 따르면 NVIDIA는 새로운 모델을 훈련시키기 위해 매일 불법 데이터를 캡처합니다.

코스모스의 목표는 최첨단 영상 기반 모델을 구축하는 것입니다. 유출된 이메일에 따르면 이 모델은 광 전송, 물리학 및 지능 시뮬레이션을 통합하여 다양한 다운스트림 애플리케이션을 잠금 해제합니다.

예를 들어 Omniverse 3D 세계 생성기, 자율 주행 자동차 시스템 및 디지털 휴먼 제품에 사용됩니다.

NVIDIA의 연구 담당 부사장인 Ming-Yu Liu는 Cosmos의 프로젝트 리더를 맡고 있습니다.



그는 또한 IEEE 펠로우이기도 합니다. 그는 NVIDIA Deep Imagination 연구팀을 이끌고 NVIDIA Picasso [Edify], NVIDIA Canvas [GauGAN] 및 NVIDIA Maxine [LivePortrait]와 같은 제품을 출시했습니다.

5월의 이전 이메일에는 다음과 같이 명시되어 있습니다.

우리는 v1 데이터 파이프라인을 마무리하고 훈련 데이터에 대한 인간의 시각적 경험과 동등한 매일 생성할 수 있는 비디오 데이터 팩토리를 구축하는 데 필요한 컴퓨팅 리소스를 확보하고 있습니다.

이 이미지는 NVIDIA 수석 과학자 Francesco Ferroni가 MovieNet(60,000개의 영화 예고편 데이터베이스), WebVid, InternVid-10M 및 내부에서 캡처한 여러 비디오 게임 장면 데이터세트를 포함하여 다양한 비디오 데이터 세트를 통합하는 테이블에 대한 링크를 제공하는 모습을 보여줍니다.

이제 전직 직원에 따르면 직원들은 YouTube 및 Netflix와 같은 소스에서 데이터를 스크랩하라는 요청을 받게 됩니다.

그들은 YouTube에 의해 차단되는 것을 피하기 위해 가상 머신을 사용하여 IP 주소를 새로 고치는 yt-dlp라는 오픈 소스 YouTube 비디오 다운로더를 사용할 것입니다.

이를 위해 Nvidia는 404 Media에 다음과 같이 응답했습니다.

우리는 모든 콘텐츠 제작자의 권리를 존중하며 우리의 모델과 연구 작업이 저작권법의 조항과 정신을 완전히 준수한다고 믿습니다.
저작권법은 특정 표현을 보호하지만 사실, 아이디어, 데이터 또는 정보는 보호하지 않습니다. 누구든지 다른 출처로부터 사실, 아이디어, 데이터 또는 정보를 자유롭게 얻을 수 있으며 이를 사용하여 자신의 의견을 표현할 수 있습니다. 공정한 사용은 모델 교육과 같은 변형적 목적으로 저작물을 사용하는 능력도 보호합니다. "

Google은 올해 4월 404 Media에 대한 링크를 던졌습니다. OpenAI가 YouTube 비디오를 사용하여 Sora를 교육한다면명백한 위반YouTube 이용약관.

넷플릭스는 엔비디아와 콘텐츠 추출 계약을 맺지 않았으며 플랫폼의 서비스 약관이 콘텐츠 스크랩을 허용하지 않는다고 밝혔습니다.

흥미롭게도 같은 날 YouTube 블로거들은 OpenAI가 동영상 소유자에게 알리거나 보상하지 않고 수백만 개의 YouTube 동영상을 사용하여 생성 AI 모델을 훈련시켰다고 비난하면서 OpenAI를 상대로 집단 소송을 제기하고 있습니다.

이들 대기업이 이전에도 불법적으로 데이터를 빼돌린 적이 있었던 것은 드문 일이 아닙니다.

하지만 이런 원시 데이터가 정말 유용하다고 해야 할까요...

이전에도 NVIDIA는 훈련 데이터의 품질을 향상시키기 위해 게임 비디오를 사용했습니다.

최근 네이처(Nature) 표지에 실린 연구에 따르면, 인터넷 원본 데이터로 훈련된 이 대형 모델은 선점자 이점이 있고, 데이터 품질도 가장 좋으며, 해당 모델 성능도 가장 좋은 것으로 나타났습니다.

이후에는 AI 데이터가 점점 풍부해지면서 대형 모델이 무너지기 쉬웠다.

쓰레기가 들어옴, 쓰레기가 나옴

이 문제에 대해 어떻게 생각하시나요?

참조 링크:
[1]https://techcrunch.com/2024/08/05/유튜버 파일, 크리에이터의 오픈소스 스크랩에 대한 집단 소송/
[2]https://www.gamedeveloper.com/business/report-nvidia-used-scraped-video-game-footage-to-train-ai-products

[3]https://www.404media.co/nvidia-ai-스크래핑-기반-모델-코스모스-프로젝트/
[4]https://pivot-to-ai.com/2024/08/05/엔비디아가 유튜브를 가능한 한 많이 섭취하는 것으로 적발됨/