엔비디아의 미스터리한 영상 베이스 모델 '코스모스'가 노출됐는데, 데이터는 모두 도난당했다

엔비디아의 미스터리한 영상 베이스 모델 '코스모스'가 공개돼 데이터가 모두 도난당했다.

2024-08-06

기계 심장 보고서

머신하트 편집부

이 비디오 모델의 경우 NVIDIA는 매일 80년 분량의 비디오 데이터를 미친 듯이 크롤링하고 있습니다.

오늘 Reddit에서 비디오 모델 제작을 중단하기로 한 Nvidia의 결정에 대한 소식이 폭발적으로 퍼졌습니다.

이 소식의 출처는 외국 언론인 404미디어에서 나왔습니다. Slack 채팅(Nvidia의 내부 채팅 플랫폼), 이메일 및 문서에 따르면 Nvidia는 AI 제품에 대한 훈련 데이터를 수집하기 위해 Youtube 및 기타 여러 소스에서 비디오를 수집하고 있습니다.

404 Media가 검토한 Nvidia의 내부 대화에 따르면 프로젝트에 참여한 직원이 "상업적으로 금지된 연구 데이터 세트" 및 "YouTube 비디오"의 사용으로 인해 발생할 수 있는 법적 문제에 대한 우려를 제기했을 때 관리자는 최고 수준의 승인을 받았다고 말했습니다. 회사에서 사용할 수 있습니다.

익명의 전 Nvidia 직원은 직원들에게 Omniverse 3D 월드 제너레이터, 자율 주행 자동차 시스템 및 "디지털 휴먼" 제품을 위한 AI 모델을 훈련하기 위해 Netflix, YouTube 및 기타 소스에서 비디오를 스크랩하라는 요청을 받았다고 말했습니다.

내부적으로 Cosmos라고 명명된 이 프로젝트는(그러나 회사의 기존 Cosmos 딥 러닝 제품과는 구별됨) 아직 대중에게 공개되지 않았습니다. 프로젝트 리더가 직원들에게 보낸 이메일에 따르면, Cosmos의 목표는 "빛 전송, 물리학 및 지능형 시뮬레이션을 한 곳에 캡슐화하여 프로젝트에 중요한 다양한 다운스트림 측면을 잠금 해제하는 최첨단 비디오 인프라 모델을 구축하는 것입니다. 엔비디아.”

교육 비디오를 수집하기 위해 NVIDIA 직원은 "yt-dlp"라는 오픈 소스 YouTube 비디오 다운로더를 사용했습니다. 그들은 Netflix와 같은 다양한 소스에서 전체 비디오를 다운로드하려고 시도하지만 주로 YouTube 비디오에 중점을 둡니다. 404 Media가 검토한 이메일에 따르면 프로젝트 관리자는 Amazon Web Services에서 20~30개의 가상 머신을 사용하여 매일 80년 분량의 비디오를 다운로드하기로 결정했습니다.

"우리는 v1 데이터 파이프라인을 완성하고 인간의 평생 시각적 경험에 해당하는 일일 교육 데이터를 생성할 수 있는 비디오 데이터 공장을 구축하는 데 필요한 컴퓨팅 리소스를 확보하고 있습니다."

Nvidia가 자사 모델의 교육 데이터로 YouTube 동영상을 사용하는 것에 대해 질문을 받았을 때 Google 대변인은 404 Media에 회사의 "이전 입장은 여전히 유효하다"고 말했습니다. 앞서 유튜브 CEO 닐 모한(Neal Mohan)은 오픈AI가 AI 동영상 생성기 소라(Sora)를 개선하기 위해 유튜브 동영상을 활용한다면 이는 유튜브 이용약관을 '명백하게 위반'하는 것이라고 밝힌 바 있다.

마찬가지로 Netflix 대변인은 404 Media에 회사가 Nvidia와 콘텐츠 획득에 대한 계약을 맺지 않았으며 플랫폼의 서비스 약관에 따라 콘텐츠 스크랩을 허용하지 않는다고 말했습니다.

그러나 Nvidia는 신경 쓰지 않는 것 같습니다. 프로젝트에 참여한 직원들이 제기한 법적 문제는 허가 없이 영상을 스크랩하기로 한 결정은 걱정할 필요가 없는 "집행적 결정"이며 저작권이 있는 콘텐츠를 공정하고 윤리적으로 사용하는 것이 무엇인지에 대한 결정이라고 프로젝트 관리자가 일축하는 경우가 많았습니다. 콘텐츠 및 데이터 세트의 학술적, 비상업적 사용 문제는 향후 해결해야 할 "미해결 법적 문제"로 간주됩니다.

NVIDIA 비디오 모델 프로젝트의 시작과 끝

다른 기술 대기업과 마찬가지로 Nvidia는 학문적 연구 결과를 게시하기 위해 학술 연구 인재를 고용하지만 404 Media에서 얻은 내부 이메일을 통해 Cosmos가 분명히 상업적 목적으로 사용될 것임을 알 수 있습니다.

올해 3월 엔비디아 연구원은 슬랙(Slack)에 '아바타'나 '반지의 제왕' 등 할리우드 영화를 활용해 OpenAI 소라를 훈련시키는 것이 더 효과적일 수 있다고 제안한 바 있다.

이후 그의 제안은 회사 내에서 인정받았지만 할리우드는 특히 AI의 저작권 침해 가능성에 민감하다고 덧붙였다. 2023년 7월, 회원 수 16만 명을 보유한 할리우드 3대 노동조합 중 하나인 SAG-AFTRA가 ChatGPT, Stable Diffusion 등 생성 AI 제품을 겨냥해 파업을 선언했다. 70일 이상. Stable Diffusion에서는 해당 프롬프트 단어를 입력하지 않고 "애니메이션 스타일 배관공"과 같은 모호한 설명을 입력하더라도 Stable Diffusion에서 Mario의 고전적인 이미지를 직접 생성하는 상황이 있습니다.

이 게시물에 '리우'라는 직원(즉, 엔비디아 연구 부사장 밍유(류밍위))은 "논문이 공개적으로 게재되지 않는다면 위와 같은 부정적인 문제가 발생하지 않을 것"이라고 답했다. 먼저 실험을 위해 다운로드 가능한 비디오를 사용하십시오."

이후 또 다른 엔비디아 연구원이 인트라넷에 게시한 글에서 비디오 모델 훈련을 위해 먼저 다운로드해야 할 파일 목록을 발견했는데, 엔비디아가 사용하는 HD-VILA-100M 데이터 세트에는 약 230만 개의 원본 비디오 파일이 부족했습니다. 끊임없이 확장되는 이 목록에는 "안녕하세요 여러분, 저는 동급생입니다"와 같이 북미에서 명성을 얻은 디지털 리뷰 블로거인 Marques Brownlee(MKBHD)와 같은 일부 유명 YouTube 사용자의 원본 비디오도 포함되어 있습니다.

저작권 보호로 인해 일반 동영상 데이터 세트에는 URL 링크나 YouTube ID가 포함되는 경우가 많습니다. 작성자가 원본 동영상을 삭제하면 해당 콘텐츠는 동영상 작성자가 콘텐츠의 보존 및 사용에 명시적으로 동의하지 않는 한 더 이상 데이터 세트에 포함되지 않습니다. .

마이크로소프트는 HD-VILA-100M 데이터 세트의 사용 설명에서 모든 상업적 사용을 명시적으로 금지했지만, 메시지를 게시한 엔비디아 직원은 이에 개의치 않는 듯 재빠르게 목록에 해당하는 유튜브 링크를 게시하고 동료들과 공유했습니다. . YouTube의 크롤러 방지 메커니즘을 우회하기 위해 AWS 가상 머신을 사용하여 IP를 변경하는 솔루션에 대해 논의했습니다.

또한, NVIDIA 직원들은 Google이 공개한 대규모 비디오 이해 데이터 세트인 YouTube-8M에도 연락했습니다. Microsoft의 데이터 세트를 자체적으로 보완하는 대신 Nvidia는 YouTube 및 현재 YouTube의 모회사인 Google과 "계약"을 체결하여 동영상당 0.00625달러(약 4센트)의 가격으로 동영상 10,000개를 다운로드하게 되었습니다. Google Cloud를 통해. 저작권 판매 문제와 상관없이 Google은 이러한 동영상의 광고비를 돌려받았다고 생각할 수 있지만 Nvidia는 이미 클라우드 대역폭에 일부 제한을 두고 있어 보다 안정적이고 예측 가능한 연결을 얻을 수 있습니다. 따라서 어떻게 보더라도 이번 '거래'는 엔비디아에 유리한 것으로 보인다.

더욱 놀라운 점은 엔비디아 직원이 인트라넷을 통해 “우리가 이런 YouTube 동영상을 다운로드하는 것이 합당한가?”라고 물었을 때입니다.

"이것은 높은 수준의 결정입니다. 우리는 모든 데이터를 사용하는 것에 대해 완전한 승인을 받았습니다."

이 결정에 허용되는 데이터에는 Netflix의 비디오 제작물도 포함됩니다. 넷플릭스의 데이터에는 고품질의 얼굴 데이터가 많이 포함돼 있다. 승인을 받은 후 누군가가 회사 인트라넷에서 다른 대기업에서 '대규모 데이터 세트 구축' 경험이 있는 동료들에게 도움을 요청했다.

동시에 코스모스 팀은 훈련 데이터에 게임 영상을 효과적으로 추가하는 방법에 대한 문제도 고려했습니다. NVIDIA 수석 연구 과학자 Jim Fan도 실시간 게임 장면을 캡처할 때 "규제" 장애물에 직면했습니다.

Jim Fan이 게시한 내용:

업데이트: 저는 GeForce Now(GFN) 사람들과 만나서 그들과 함께 계획을 세웠습니다. 우리는 GFN 및 관련 엔지니어링 팀과 긴밀히 협력하여 실시간 게임 데이터를 캡처하고 파이프라인 규모를 확장하며 교육용 데이터를 처리하는 방법을 개발할 것입니다. 고품질 게임 플레이 영상은 "우리 소라"에 매우 유용한 추가 기능이 될 것입니다... 라이브 게임 플레이 영상 및 동작을 캡처할 수 있는 장비가 아직 제공되지 않아 통계가 작성되지 않았지만 정리하고 처리된 GFN 데이터가 team-vfm에 추가됩니다.

올해 3월, Project Cosmo의 비디오 데이터 수집은 획기적인 성과를 거두었습니다. Nvidia는 2주 만에 100,000개의 비디오 다운로드를 완료했습니다.

"진행은 놀랍습니다. 이제 문제는 어떻게 하면 고품질의 URL을 대량으로 얻을 수 있느냐는 것입니다." Liu는 이 게시물에서 답했습니다.

5월 말, 프로젝트 팀원들은 비디오 데이터 전략에 관한 이메일을 받았고, 이를 통해 3,850만 개의 비디오 URL을 편집했다고 발표했습니다. "계획에 따르면 다음 주 비디오 컬렉션의 초점은 여전히 영화, 드론 영상, 1인칭 시점 영상, 자연 풍경이 될 것입니다."라고 이메일에는 다운로드한 콘텐츠 유형을 보여주는 차트도 포함되어 있습니다. 백분율.

이메일에는 모델 훈련 데이터의 네 가지 데이터 세트를 포함하여 몇 가지 주요 기술 정보가 공개되었습니다.

에고-엑소4디: 전 세계 13개 도시의 740명의 카메라 착용자가 수집한 다양한 대규모 다중 모드 다중 뷰 비디오 데이터 세트 및 벤치마크로 숙련된 인간 활동을 1286.3시간의 비디오로 캡처합니다.
에고4디: 전 세계 9개국 74개 위치에서 3,670시간이 넘는 일상생활 활동 영상을 수집하는 대규모 자기중심적 데이터세트이자 벤치마크 제품군입니다.
호이4디 : 카테고리 수준의 인간-객체 상호 작용 연구를 촉진하기 위한 풍부한 주석이 포함된 대규모 4D 자기 중심 데이터 세트입니다. HOI4D는 Tsinghua University, Peking University 및 Shanghai Qizhi Research Institute의 연구원에 의해 만들어졌으며 CC BY-NC 4.0에 따라 라이센스가 부여되었으며 상업적인 사용이 금지됩니다.
지포스 나우: 게임 데이터.

또 다른 이메일에서 코스모스 프로젝트 구성원은 "연구팀은 현재 각각 16개의 노드를 갖춘 여러 구성으로 10억 개의 매개변수 모델을 훈련하고 있습니다. 이는 추가 확장에 앞서 중요한 디버깅 단계입니다. 몇 주 후에 100억 개의 매개변수 모델로 확장됩니다."

"이 업데이트는 훌륭합니다!" Nvidia CEO Jen-Hsun Huang은 이메일에 "많은 회사가 기본 비디오 모델 구축 목표를 설정했으며 우리는 확실히 가속화된 파이프라인을 구축할 수 있습니다."라고 말했습니다.

지난 6월 프로젝트 팀원들은 AI 산업에서 경쟁력을 유지하는 맥락에서 모델의 어떤 유형의 콘텐츠가 Nvidia 제품에 가장 유용할지 논의했습니다.

코스모스 프로젝트 관계자는 "엔비디아에는 대부분의 콘텐츠 기업이 갖고 있지 않은 로봇공학, 자율주행, 옴니버스, 아바타 등이 있다"며 "회사의 성장을 극대화하려면 우리가 구성하는 데이터가 이러한 '킬러' 애플리케이션에 잘 적용 가능해야 한다"고 말했다.

코스모스 팀이 개발하고 있는 모델이 자사의 다양한 제품 전반에 걸쳐 상업적인 용도로 사용된다는 점에는 의심의 여지가 없습니다.

이들 회사가 훈련 데이터를 완전히 공개하도록 요구하는 법안이 제정될 때까지 그들은 저작권이 있는 데이터를 긁어내기 위해 법적 회색 영역을 계속 이용할 것입니다. 내부 이메일이나 인트라넷 대화가 유출되지 않으면 뒤에서 무슨 일이 일어나고 있는지 아무도 알 수 없으며 이러한 모델은 Nvidia, Runway 또는 OpenAI와 같은 거대 기술 기업을 수십억 달러로 만들 수 있습니다.

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

소식

엔비디아의 미스터리한 영상 베이스 모델 '코스모스'가 공개돼 데이터가 모두 도난당했다.

소개

내 연락처 정보