소식

Nvidia는 매일 80년 이상의 비디오 데이터를 크롤링하면서 데이터 도난에 노출되었으며 Peking University의 학술 데이터 세트도 영향을 받았습니다.

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

NVIDIA는 최근 어려운 시기를 맞이한 것 같습니다.
가장 강력한 AI 칩의 대량 생산이 지연되고 시장 가치가 3,000억 달러 이상 증발했다는 사실이 밝혀진 후, Nvidia는 이를 훈련시키기 위한 승인 없이 YouTube, Netflix와 같은 플랫폼에서 비디오 콘텐츠를 빼앗은 혐의로 404 Media에 노출되었습니다. 아직 대중에게 공개되지 않은 AI 영상 모델.
내부 이메일과 Slack 채팅에 따르면 Nvidia 직원은 이러한 데이터 세트 사용의 합법성과 윤리성에 대해 의문을 제기했지만 회사 경영진은 이러한 조치가 고위 경영진의 승인을 받았으며 그들의 행동이 저작권법을 준수한다고 주장했습니다.
2월 말 내부 토론에서 NVIDIA가 HD-VG-130M을 포함하여 사용 중인 여러 데이터 세트를 언급했다는 점은 언급할 가치가 있습니다.
후자는 북경대학교 연구원들이 구축한 1억 3천만 개의 YouTube 동영상 데이터 세트이며, 사용 라이선스에는 학술 연구에만 국한된다는 것이 명시적으로 명시되어 있습니다.
Nvidia의 접근 방식은 오늘날 대부분의 AI 회사의 축소판에 가깝습니다.
사용자가 '데이터 현금화 기계'로 여겨졌을 때, 내부자가 노출하지 않는 한, 당신과 나의 작업이 AI 훈련의 자양분이 되었는지 외부 세계에서는 알기가 정말 어렵습니다.
간단히 말해서, 인간은 여전히 ​​먹이사슬의 최상위에 있는 소비자이지만, 필연적으로 AI 개발 공급사슬의 구성원이 될 것입니다.
다음은 외신 404미디어가 작성한 뉴스 전문이다. GPT-4o 번역해 보세요~
모델에게 YouTube 동영상을 제공하고 매일 80년 분량의 동영상을 다운로드하세요.
404 Media에서 얻은 내부 Slack 채팅, 이메일 및 문서에 따르면 Nvidia는 YouTube 및 기타 여러 소스에서 비디오를 스크랩하여 AI 제품에 대한 교육 데이터를 수집합니다. 저작권이 있는 콘텐츠를 사용하여 AI 모델을 훈련시키는 데 따른 법적, 윤리적 문제에 대해 질문을 받았을 때 엔비디아는 자사의 접근 방식이 "저작권법의 조항과 정신을 완전히 준수한다"고 주장했습니다.
404 Media가 검토한 Nvidia의 내부 대화에 따르면 직원들이 연구 목적으로 학계에서 편집한 데이터 세트와 YouTube 비디오를 사용하는 데 따른 법적 영향에 대해 질문을 제기했을 때 관리자는 회사의 상급자가 해당 사용을 승인했다고 말했습니다.
Nvidia의 전직 직원(Nvidia 내부 프로세스를 논의하기 위해 404 Media에서 익명을 부여받았음)은 직원들에게 Nvidia의 Omniverse 3D 월드 생성기를 교육하기 위해 Netflix, YouTube 및 기타 소스에서 비디오를 스크랩하도록 요청받았다고 말했습니다.자동 조종 장치자동차 시스템과 "디지털 맨"제품의 AI 모델.
내부적으로 Cosmos(그러나 회사의 기존 Cosmos 딥 러닝 제품과는 다름)로 알려진 이 프로젝트는 아직 공개적으로 출시되지 않았습니다.
프로젝트 리더의 이메일에 따르면 Cosmos는 "Nvidia에 중요한 다양한 다운스트림 애플리케이션을 개발하기 위해 빛 전송, 물리학 및 지능 시뮬레이션을 한곳에 통합하는" 최첨단 비디오 인프라 모델을 구축하는 것을 목표로 하고 있습니다.
404 Media에서 얻은 이메일에는 Cosmos 모델이 다양한 Nvidia 제품에 어떻게 적용되는지 보여주는 다이어그램이 나와 있습니다.
프로젝트를 위해 회사가 설정한 채널의 슬랙 메시지에 따르면 직원들은 YouTube에 의해 차단되는 것을 피하기 위해 IP 주소를 새로 고치기 위해 가상 머신과 결합된 yt-dlp라는 오픈 소스 YouTube 비디오 다운로더를 사용하고 있습니다.
소식통에 따르면 그들은 넷플릭스를 포함한 여러 소스에서 완전한 동영상을 다운로드하려고 시도했지만 주로 YouTube 동영상에 중점을 두었습니다.
404 Media가 검토한 이메일에는 프로젝트 관리자가 20~30개의 Amazon Web Services 가상 머신을 사용하여 매일 80년 분량의 비디오를 다운로드하는 것에 대해 논의하는 내용이 나와 있습니다.
엔비디아 연구 부사장이자 코스모스 프로젝트 리더인 Mingyu Liu는 "우리는 v1 데이터 파이프라인을 마무리하고 매일 비디오 데이터의 100%에 해당하는 것을 생성할 수 있는 비디오 데이터 공장을 구축하기 위해 충분한 컴퓨팅 리소스를 확보하고 있습니다"라고 말했습니다. 5월의 이메일에서 인간의 평생 시각적 경험에 대한 데이터의 양.”
Nvidia 내부의 대화와 지침에서는 직원들이 생성 AI의 부상을 촉진하고 세계에서 가장 가치 있는 상장 기업 중 하나로 만든 칩과 API를 설계할 때 회사의 법적, 윤리적 고려 사항을 논의하는 모습을 보여줍니다.
또한 Runway와 같은 업계 최대 기업을 강조합니다. 오픈AI, AI 모델 학습을 위한 데이터로서 콘텐츠에 대한 수요가 만족스럽지 않습니다.
Nvidia 대변인은 404 Media에 보낸 이메일에서 다음과 같이 말했습니다.
우리는 모든 콘텐츠 제작자의 권리를 존중하며 우리의 모델과 연구 작업이 저작권법의 조항과 정신을 완전히 준수한다고 굳게 믿습니다. 저작권법은 특정 표현을 보호하지만 사실, 의견, 데이터 또는 정보는 보호하지 않습니다. 누구나 다른 출처로부터 사실, 아이디어, 데이터 또는 정보를 배울 수 있으며 이를 사용하여 자신만의 표현을 만들 수 있습니다. 공정한 사용은 모델 교육과 같은 변형적 목적으로 저작물을 사용할 권리도 보호합니다.
Nvidia가 자사 모델의 교육 데이터로 YouTube 비디오를 사용하는 것에 대해 질문을 받았을 때 Google 대변인은 404 Media에 회사의 "이전 의견이 여전히 적용됩니다"라고 말했습니다.
이 가운데 유튜브 CEO 닐 모한은 오픈AI가 AI 영상 생성기 소라를 최적화하기 위해 유튜브 영상을 활용한다면 이는 명백히 유튜브 이용약관을 위반하는 것이라고 말했다.
Netflix 대변인은 404 Media에 Netflix는 콘텐츠 획득에 대해 Nvidia와 계약을 맺지 않았으며 플랫폼의 서비스 약관은 데이터 스크랩을 허용하지 않는다고 말했습니다.
프로젝트에 참여한 직원들이 제기한 법적 문제에 대한 질문은 일반적으로 프로젝트 관리자에 의해 일축되었으며, 허가 없이 영상을 스크랩하기로 한 결정은 "고위 수준의 결정"이며 직원들은 침해가 무엇인지에 대해 걱정할 필요가 없다고 말했습니다. 저작권이 있는 콘텐츠와 학술, 비상업적 용도로 데이터 세트를 공정하고 윤리적으로 사용하는 주제는 향후 해결해야 할 "미해결 법적 문제"로 간주됩니다.
우리의 조사는 세계에서 가장 가치 있는 일부 AI 모델을 훈련하는 데 사용되는 데이터 세트에 방대한 양의 저작권이 있는 콘텐츠를 스크랩하는 이러한 기술 회사의 "묻지 마세요" 태도를 강조합니다.
Nvidia 경영진은 Peking University의 학술 데이터 세트도 남용되었다고 제안했습니다.
2024년 2월, Nvidia의 수석 과학자인 Francesco Ferroni는 #cosmos-dataset-creation이라는 Nvidia Slack 채널에 다음과 같이 썼습니다.
“안녕하세요 여러분, @Sanja Fidler가 제너레이티브 모델링을 위해 선별된 다수의 비디오 데이터세트를 집계하는 계획에 대해 언급했습니다. 우리는 중복을 피하기 위해 내부에서 사용 가능한(공개적으로 또는 내부적으로 다운로드한) 모든 비디오 데이터세트를 집계하는 것부터 시작하는 것이 매우 의미 있다고 생각했습니다. ”
(참고: Sanja Fidler는 Nvidia의 AI 연구 부사장입니다.)
그런 다음 Ferroni는 60,000개의 영화 예고편 데이터베이스인 MovieNet과 나중에 통지를 받은 후 제작자에 의해 삭제된 Github의 스톡 이미지에서 편집된 비디오 데이터 세트인 WebVid를 포함한 데이터 세트에 대한 링크가 포함된 스프레드시트에 연결되었습니다. -10M(Github에 있는 천만 개의 YouTube 동영상 ID 데이터세트) 및 내부에서 캡처한 비디오 게임 영상의 여러 데이터세트. 404미디어는 슬랙 대화 스크린샷에서 하급 직원의 이름을 삭제했다.
우리는 AI 산업의 리더로서 대중의 가시성을 높이기 위해 프로젝트에 참여한 여러 수석 엔지니어 및 임원의 이름을 포함했습니다.
Ferroni가 연결한 스프레드시트에는 프로젝트에 사용된 데이터 세트가 표시됩니다.
지난 2월 후속 토론에서 엔지니어들은 1억 3천만 개의 YouTube 동영상 세트인 HD-VG-130M을 포함하여 획득한 데이터 세트에 대해 이야기했습니다. 이 데이터세트는 중국 북경대학교 연구진이 생성했으며, 사용 라이선스에는 학문적 목적으로만 사용할 수 있다고 명시되어 있습니다.
데이터세트에 대한 Github 페이지에는 "데이터를 다운로드하거나 사용함으로써 다음 계약의 모든 조건을 이해하고 인정하며 동의하는 것입니다."라고 나와 있습니다.
이 페이지에서는 "학술적 용도로만 사용됩니다. HD-VG-130M 데이터 세트의 모든 콘텐츠는 학술 연구 전용입니다. 귀하는 상업적 목적으로 복사, 거래 또는 사용하지 않을 것에 동의합니다. 배포는 금지됩니다. 개인 정보 보호를 존중하십시오. 원본 출처의 개인 정보." . 저작권 소유자의 허가 없이는 데이터 세트 내용의 방송, 수정 또는 기타 유사한 행위가 허용되지 않습니다.
프로젝트 전반에 걸쳐 연구원과 학계가 편집하여 공개적으로 제공한 데이터 세트는 NVIDIA 모델에서 무료로 사용할 수 있는 것으로 간주되었습니다. AI 연구자들은 윤리적, 법적 사용을 포함하여 공개된 데이터 세트의 적절한 사용에 대해 점점 더 우려하고 있습니다.
MIT 데이터 출처 이니셔티브(MIT Data Provenance Initiative)의 로버트 마하리(Robert Mahari)는 404 Media에 지난 한 해 동안 연구 데이터 세트에 대한 비상업적 사용 라이선스 사용이 크게 증가했다고 밝혔는데, 이는 학계가 자신의 작업에 대한 상업적 사용을 제한하려고 노력하고 있음을 시사합니다. 연구용으로 수집된 데이터 세트는 상업적 목적으로 수집된 데이터 세트와 목적이 크게 다릅니다.
"학계가 공개 데이터 세트, 특히 작업별 데이터 세트를 공개할 때 특정 유형의 편견이나 서구 중심주의와 같은 문제에 대해 데이터를 구체적으로 조사하지 않을 수 있습니다. 이러한 문제가 연구의 초점이 아니면 조사가 없을 것입니다." 마하리가 말했다. "따라서 학자가 라이센스에 '학술적 용도로만 사용' 또는 '이 데이터를 의도하지 않은 방식으로 사용하지 마십시오'라고 명시한 경우 이러한 규정을 준수해야 할 충분한 이유가 있습니다. 데이터가 상업적인 품질이 아닐 수 있으므로, 다른 유형의 환경에서도 성능이 좋지 않습니다."
다른 많은 기술 대기업과 마찬가지로 Nvidia는 학술 연구를 수행하고 출판하는 사람들을 고용합니다. 그러나 404 Media가 검토한 Nvidia의 내부 대화에 따르면 Cosmos는 경쟁이 치열한 AI 산업에서 상업적 제품을 강화하려는 회사의 노력을 지원하는 것을 목표로 하고 있습니다.
공개적으로 공개된 연구 데이터 세트는 두 가지 이유로 URL 또는 YouTube ID로 배포되는 경우가 많습니다. 첫째, 실용적인 이유 - 수백만 개의 완전한 비디오 또는 이미지 파일을 공유하는 것은 법적, 윤리적 이유로 너무 번거롭습니다. 예를 들어, 누군가 자신의 YouTube 동영상이나 트윗을 삭제하더라도 소유자가 알지 못하거나 허가하지 않으면 사본이 데이터 세트에 더 이상 존재하지 않습니다.
워싱턴 대학교 컴퓨터 언어학 연구소 소장이자 교수인 Emily Bender는 404 Media에 “데이터 세트를 외부인에게 배포하지 않음으로써 법적 제약을 피하는 것과 같습니다.”라고 말했습니다. "다른 사람들도 데이터 세트를 구축하고 자신의 목적에 맞게 사용할 수 있습니다."
공개된 토론 세부 사항, NVIDIA는 어떻게 법의 가장자리에서 데이터를 훔치나요?
지난 3월 한 연구 과학자는 OpenAI의 Sora 비디오 생성기가 '아바타', '반지의 제왕' 등 할리우드 영화를 학습 데이터로 사용하는 가능성에 대해 Slack에서 논의를 시작했습니다.
"영화는 실제로 게임과 같은 3D 연속성과 허구 콘텐츠를 위한 좋은 데이터 소스이지만 품질이 더 높습니다. 캐릭터는 완전히 CGI이며 현재 많은 실사 장면도 CGI입니다."라고 그들은 말했습니다. 누군가 팀이 디스커버리 채널 영화 데이터 세트를 학습해야 한다고 답했습니다.
Liu Mingyu는 "모든 영화를 다운로드하려면 자원 봉사자가 필요합니다."라고 말했습니다.
원래 영화를 제안한 연구 과학자는 다음과 같이 덧붙였습니다. "그들이 무엇을 하고 있는지는 매우 분명하지만, SD [Stable Diffusion] 개봉 이후 아티스트 커뮤니티에 일어난 것처럼 헐리우드가 AI에 과민해지는 것을 매우 조심해야 합니다. ] 그리고 지금 헐리우드에서 일어나고 있습니다."
그런 다음 채팅에 두 개의 링크를 게시했습니다. Tyler Perry가 OpenAI의 Sora를 본 후 8억 달러 규모의 스튜디오 확장을 중단했다는 Hollywood Reporter 기사와 2023년 SAG-AFTRA 파업에 대한 Vanity Fair 기사는 스튜디오 계약의 AI 언어를 포함한 기사로 연결됩니다.
Liu Mingyu는 "우리가 여기서 하는 일은 어떤 연구 결과도 발표하지 않을 것입니다. 우리는 다운로드 가능한 모든 데이터를 사용하여 실험을 수행할 것입니다. 우리는 아무것도 발표하지 않을 것이기 때문에 부정적인 감정은 없을 것"이라고 강조했습니다. "출판"은 연구 출판물을 의미합니다.
'민감도 높음'을 제기한 관계자는 "회사 내에서 이런 프로젝트를 진행한다면 널리 알려야 한다. 비슷한 사례를 보여주면 반발이 생길 수 있기 때문"이라고 답했다.
지난 3월 Ferroni는 다른 프로젝트 관련 Slack 채널에 다음과 같이 썼습니다. "다운로드해야 하는 우선순위가 높은 일부 파일이 발견되었습니다. 우리가 보유한 HDVILA(고해상도 비디오 언어) 데이터세트에서 230만 개의 원시 비디오가 누락된 것으로 나타났습니다. !" 그들은 대규모, 고해상도 및 다양한 비디오 언어 데이터 세트인 Microsoft의 HD-VILA-100M을 언급하고 있었습니다. 구글 드라이브 문서 링크를 보내며 "여기 유튜브 링크가 없어졌네요"라고 한 뒤 "이걸 다운로드 과정에 넣자!"라고 하더군요.
HD-VILA-100M의 라이센스 설명은 다음과 같습니다.
"귀하는 비상업적 연구를 위한 계산 목적으로만 데이터를 사용하는 데 동의합니다. 이러한 제한은 귀하가 비상업적 연구 활동(영리 단체가 수행하거나 자금을 지원하는 비상업적 연구 포함)에 참여할 수 있음을 의미합니다. 귀하가 사용하거나 다른 사람에게 제공하는(또는 제품이나 서비스를 개선하기 위해) 제품 또는 서비스의 일부를 포함하여 모든 상업용 제품에 대한 데이터 또는 결과.
다른 엔지니어는 "다운로드한 URL의 데이터베이스를 만들어 보겠습니다."라고 대답했습니다. "YouTube 동영상에는 고유한 ID가 있습니다. 이 ID를 참조로 사용할 수 있습니까("?v=" 뒤의 ID)? 앞으로 여러 번 URL을 비교하고 병합할 것입니다." Ferroni는 "예, 지금은 이를 사용하고 있습니다."라고 대답했습니다. 인프라 설정'이라는 의미는 프로젝트 관리 도구인 Hive에 인프라를 추가한다는 의미입니다.
그들이 태그한 Omniverse 팀원은 다음과 같이 응답했습니다. "우리는 AWS를 사용하고 있으며 [가상 머신] 인스턴스를 다시 시작하면 새로운 공용 IP가 제공되므로 현재로서는 문제가 되지 않습니다."
최고의 비디오를 찾는 방법에 대한 #cosmos-dataset-creation 채널의 Slack 토론에서 직원들은 때때로 업무의 법적, 윤리적 문제를 언급했습니다. 지난 2월, 누군가가 Google에서 편집한 YouTube ID 연구 데이터 세트인 YouTube-8M을 사용한다고 언급한 후 Ferroni는 "연구 이외의 목적으로 [YT8M]을 사용할 수 없는 것 아닐까요?"라고 물었습니다.
YouTube-8M의 논문과 프로젝트 페이지에는 저작권 문제가 언급되어 있지 않지만, 논문에서는 머신러닝 연구를 발전시키기 위해 데이터 세트가 생성되었다고 명시하고 있습니다. “우리는 이 데이터 세트가 학계의 연구자들에게 공평한 경쟁의 장을 제공할 것으로 기대합니다. - 주석이 달린 비디오 데이터 세트를 확장하고 비디오 이해에 대한 연구를 크게 가속화합니다. 우리는 이 데이터 세트가 새로운 비디오 표현 학습 알고리즘, 특히 잡음이 많거나 불완전한 레이블을 효과적으로 처리하는 방법을 개발하기 위한 테스트 베드 역할을 할 수 있기를 바랍니다."
Cosmos 프로젝트에 이를 사용하는 것에 대한 Ferroni의 질문에 대해 이전에 ACAV100M을 공동 제작한 NVIDIA 직원은 다음과 같이 응답했습니다.
"예, Google에서 데이터를 다운로드하는 데는 비용이 많이 듭니다. 하지만 NVIDIA 내에서 10,000개의 코어를 예약하는 것은 어려운 일이었습니다.
또한 클라우드에서 NVIDIA의 대역폭 제한으로 인해 문제가 발생할 수 있는 상당한 변동성이 추가됩니다. Google Cloud에 다운로드하면 모든 작업이 YouTube에 안정적이고 고대역폭으로 연결됩니다. "
"더 중요한 점은 유튜브 동영상 다운로드가 유튜브 서비스 약관에 의해 금지되어 있다는 점입니다. 그래서 유튜브 8m 다운로드 시 구글, 유튜브와 사전에 소통하고 유인책으로 구글 클라우드를 활용해 다운로드를 진행했습니다.결국 일반적으로 800만 개의 동영상이 해당됩니다., 훈련에 사용될 때 다운로드되는 광고 노출이 많아 수익 손실이 발생하므로 그로부터 일부 수익을 얻어야 합니다. 비디오 다운로드당 $0.00625를 지불하는 것은 여전히 ​​좋은 거래입니다. "
"알겠습니다. 그러면 이 데이터는 연구 목적으로만 사용되어야 합니까? 제가 아는 한 Google의 YouTube API는 각 동영상의 라이선스 조건을 쿼리할 수 있습니다."라고 Ferroni는 대답했습니다. "ACAV100M과 YouTube8M의 라이선스 조건에 대해서도 말씀해주실 수 있나요?"
"내가 아는 한 유튜브 서비스 약관은 라이선스와 관계없이 다운로드를 금지하고 있다. 제한은 라이선스가 아닌 광고 수익 손실에 관한 것이다"라고 다른 직원이 답했다. 그들은 계속해서 다음과 같이 말했습니다:
"데이터 세트를 생성할 때 Google이 어떤 라이센스 조건을 필터링했는지 모르겠습니다. 우리는 데이터 세트에 포함된 것으로 나열한 것을 다운로드했습니다(원본 비디오에 대한 링크와 함께 기능을 게시했습니다). YouTube 8m 데이터를 다운로드했습니다. 세트에는 전체 메타데이터가 포함되어 있으므로 각 비디오를 확인할 수 있습니다. ACAV100M 데이터 세트를 확인해야 합니다. 일반적으로 저작권이 있는 자료를 사용할 수 있는 경우 CC 또는 공개 도메인이 가장 좋습니다. 법적 문제; 대부분의 회사에서는 이를 공정 사용으로 간주하는 것 같습니다. 저는 우리 법무팀이 대규모 언어 모델 교육을 위해 이러한 관행을 승인했다고 생각하며, 비디오 교육도 승인할 것 같습니다.”
MIT 미디어 랩의 박사과정 학생인 셰인 롱프리(Shayne Longpre)는 404 미디어에 “누군가의 동의 없이 무언가를 상용화하는 것과 공개적으로 공개된 콘텐츠를 기반으로 생성 AI의 기능을 연구하는 것 사이에는 큰 격차가 있다고 생각합니다.”라고 말했습니다. Cosmos Slack 채널의 YouTube 서비스 약관에 대한 질문은 법적 문제가 마지막으로 발생한 것이 아닙니다.
나중에 다른 직원이 "안녕 팀. 우리 https://research.google.com/youtube8m/download.html을 사용하여 동영상을 다운로드하는 건가요? 그렇다면 법적 승인을 받은 건가요? 한 프로젝트에서는 법무 부서에서 이를 거부했습니다. 개별 동영상에 대한 라이선스가 yt8m에서 공유된 라이선스보다 낫기 때문에 사용합니다. "이것은 행정상의 결정입니다. 우리는 모든 데이터를 포괄하는 마스터 라이선스를 가지고 있습니다."라고 Liu Mingyu는 대답했습니다. "알겠습니다. 감사합니다!" 질문한 사람이 대답했습니다.
Bender는 404 Media에 회사가 교육 데이터에 사용되는 저작권 콘텐츠와 관련된 현재 법적 회색 영역을 활용하고 있다고 말했습니다. “'얻으면 써도 된다'는 문화가 확실히 있는 것 같아요. "합법성에 대한 주의 깊은 연구나 사람들에게 미치는 영향에 대한 깊은 생각보다는 그것이 일어나기를 원하는 사람들에 기반을 두고 있습니다."
AI 교육을 위해 저작권이 있는 콘텐츠를 사용하는 것은 "확실히 확정된 법률이 아닙니다"라고 Mahari는 말했습니다. 법률 시스템은 AI 모델을 개발하기 위해 훈련 데이터를 얻는 것이 충분히 혁신적인지 여부를 아직 결정하지 못했습니다. 특히 모델이 훈련 데이터를 출력으로 기억하거나 회상할 수 있는 것으로 나타났기 때문입니다. “내 요점(이 사이언스 기사에 부분적으로 요약됨)은 AI 모델을 훈련하는 것이 실제로 공정 사용에 해당할 수 있지만 이것이 훈련 데이터의 특정 항목과 유사한 출력을 생성하는 것이 침해하지 않는다는 것을 의미하지는 않습니다.
이 경우 기본 모델 제공자 또는 출력을 생성하는 특정 사용자가 침해하는지 여부가 불분명합니다(상황에 따라 다를 수 있음). "
지난 5월 한 연구 과학자는 Cosmos Slack 채널에 일부 YouTube 채널에 대한 링크를 삭제하고 "아직도 다운로드할 수 있는 YouTube 채널에 대한 제안을 받고 계시다면 고려해 볼 만한 몇 가지 채널을 소개합니다."라고 말했습니다. Expedia 및 Architectural Digest의 공식 채널은 물론 The Critical Drinker 및 Marques Brownlee(MKBHD)와 같은 개별 콘텐츠 제작자도 포함됩니다. 프로젝트 관리자는 제안에 대해 감사를 표하고 이를 팀에 전달하겠다고 말했고, Fidler는 "튜토리얼 비디오도 포함시켰나요? 천문학? 의학?"이라고 답했습니다.
상업용 기본 모델 훈련을 위해 저작권이 있는 저작물을 사용하는 것에 대한 "현저한 법적 문제"는 오랫동안 해결되지 않은 상태로 남아 있지 않을 수 있습니다.
Getty Images의 Stable Diffusion 창작자 Stability AI를 상대로 한 소송, New York Times가 OpenAI를 상대로 한 소송, 아티스트와 창작자가 Stability를 상대로 한 소송 등 저작권 보유자들이 생성 AI 기업을 상대로 제기한 저작권 침해 소송이 늘어나고 있습니다.중간 여행 , DeviantArt 및 Runway가 집단 소송을 제기했습니다. Cosmos 훈련 데이터 팀은 Netflix를 사용하여 생성기를 훈련시키는 것에 대해서도 논의했습니다.
"오늘 회의에서 우리는 모든 종류의 데이터를 다운로드할 수 있는 권한을 얻었습니다. Netflix 전체를 다운로드해야 할까요? 이를 어떻게 운영할 수 있습니까?"라고 Liu는 Slack 채널에서 말했습니다. "디스커버리 채널 전체를 다운로드해야 해요!"
누군가 대답했다. "프로젝트 정보 코디네이터가 필요해요. 영화를 다 보면서 화면 캡처를 하고 싶은 사람이 누가 있겠어요?" Liu는 계속해서 "우리는 고품질의 얼굴 비디오를 많이 얻어야 합니다"라고 말했습니다. Omniverse 인프라 팀의 누군가가 스레드에 태그가 지정되었으며 "대규모 데이터 세트를 구축한 다른 대기업과의 경험"이 있기 때문에 "이것을 운영화"하는 데 기꺼이 도움을 줄 것이라고 언급했습니다.
또한 팀은 훈련 데이터에 비디오 게임 장면을 추가하는 최선의 방법을 고려했습니다. Nvidia의 수석 연구 과학자인 Jim Fan은 라이브 게임 플레이 비디오를 캡처하는 데 "엔지니어링 및 규제" 장애물이 있다고 언급했습니다.
"업데이트: 나는 GeForce Now(GFN)의 사람들을 만났고 그들과 함께 데이터 계획에 관해 협력할 것입니다. 우리는 GFN 및 관련 엔지니어링 팀과 긴밀히 협력하여 실시간 게임 데이터 캡처를 구축하고 파이프라인을 확장하며 훈련을 위해 이러한 데이터를 처리하는 것은 우리 Sora 프로젝트에 매우 유용한 추가 기능이 될 것입니다."라고 팬은 썼습니다. “아직 방대한 양의 라이브 게임 비디오와 액션을 캡처할 수 있는 인프라가 설정되지 않았기 때문에 통계나 비디오 파일이 없습니다. 그러나 일단 GFN 데이터를 정리하고 처리하면 엔지니어링 및 규제 장애물을 극복해야 합니다. 도착하면 가능한 한 빨리 team-vfm에 추가될 것입니다."
3월에 이 프로젝트는 2주 만에 100,000개의 비디오가 다운로드되는 획기적인 성과를 거두었습니다. Ferroni가 사용 중인 다운로더를 보유하고 있다는 이정표를 논의하는 스레드에서 한 직원이 언급되었으며 Ferroni는 오디오 및 비디오를 다운로드하고 있음을 확인했습니다. "놀라운 진전입니다. 이제 문제는 고품질 URL을 어떻게 대량으로 얻을 수 있느냐는 것입니다."라고 Liu는 답했습니다.
5월 말에는 프로젝트 팀원들에게 비디오 데이터에 대한 데이터 전략 이메일이 전송되어 3,850만 개의 비디오 URL을 편집했다고 발표했습니다. 이메일에는 "우리의 목표 배포에 따라 다음 주의 초점은 영화, 드론 영상, 1인칭 비디오, 일부 여행 및 자연 비디오에 계속 집중되어 있습니다"라고 적혀 있습니다. 이메일에는 다운로드한 콘텐츠 유형의 비율을 보여주는 차트도 포함되어 있습니다.
해당 이메일에서 제품 관리자는 모델의 교육 데이터에 4개의 추가 데이터세트를 추가할 것을 제안했습니다. 그들은 썼다:

1. Ego-Exo4D: 전 세계 13개 도시의 740명의 카메라 착용자가 수집한 다양한 대규모 다중 모드, 다중 뷰 비디오 데이터 세트 및 벤치마크로 숙련된 인간 활동을 1286.3시간의 비디오로 캡처합니다.

2. Ego4D: 전 세계 9개국 74개 위치에서 수집된 3670시간 이상의 일상 생활 활동 비디오를 포함하는 대규모 1인칭 관점 데이터 세트 및 벤치마크 제품군입니다.

3. HOI4D: 카테고리 수준의 인간-객체 상호 작용에 대한 연구를 용이하게 하는 풍부한 주석이 포함된 대규모 4차원 첫 번째 보기 데이터세트입니다.

4. GeForce Now: 게임 데이터.
HOI4D는 Tsinghua University, Peking University 및 Shanghai Qizhi Research Institute의 연구원에 의해 만들어졌으며 CC BY-NC 4.0에 따라 라이센스가 부여되었으며 상업적인 사용은 허용되지 않습니다.
벤더는 "내 생각에는 회사가 연구 목적으로만 데이터 세트를 가져와서 연구에 사용하는 경우 해당 데이터 세트에 대한 라이센스를 여전히 준수하고 있는 것"이라고 말했습니다.
"그러나 이를 보장하기 위해서는 그들이 수행하는 연구와 제품 개발에서 수행하는 작업 사이에 방화벽을 구축하는 데 매우 신중해야 합니다."
Liu는 5월에 또 다른 업데이트 이메일에서 "연구팀은 현재 각각 16개의 노드가 있는 다양한 구성을 사용하여 10억 개의 매개변수로 모델을 훈련하고 있습니다. 이는 추가 확장 전에 디버깅하는 것이 중요합니다. 단계 내에서 결론을 내릴 계획입니다." 몇 주 후에 100억 개의 매개변수 모델로 확장됩니다.”
Nvidia CEO Jensen Huang은 해당 이메일에서 "훌륭한 업데이트입니다. 많은 기업이 비디오 기반 모델을 구축해야 합니다. 우리는 완전히 가속화된 파이프라인을 제공할 수 있습니다."라고 답했습니다.
지난 6월 직원들은 Nvidia 제품이 AI 산업에서 경쟁력을 유지하는 데 가장 유용한 모델 콘텐츠 유형이 무엇인지 논의했습니다.
Liu는 "NVIDIA에는 대부분의 콘텐츠 회사에는 없는 로봇, 자율 주행 자동차, Omniverse 및 Avatar가 있습니다. 회사에 가장 큰 영향을 미치려면 우리가 선별한 데이터가 이러한 킬러 애플리케이션에 잘 적용 가능해야 합니다."라고 Liu는 말했습니다.
"저는 로봇과 자율주행차에 영향을 미치는 데이터를 이해합니다. 누구든지 Omniverse 및 Avatar 사용 사례에 영향을 미치는 데이터의 세부 정보를 공유할 수 있습니까?" 한 제품 관리자가 응답했습니다. Liu는 "가구 설치, 과일 자르기, 빨래 개기 등 인간이 사물과 어떻게 상호 작용하는지에 대한 영상이 될 것입니다"라고 답했습니다.
AI 모델의 발전은 당신과 나의 창조물을 기반으로 합니까?
Nvidia는 학문적 연구에 기여하고 있지만 404 Media에서 얻은 대화와 이메일에 따르면 Cosmos 팀이 작업 중인 모델은 여러 제품에서 상업적으로 사용하기 위한 것입니다.
훈련 데이터가 어떻게 편집되는지에 대한 법적 판례가 마련되거나 회사가 이 데이터에 대해 투명성을 요구할 때까지 회사는 저작권이 있는 훈련 데이터를 스크랩하는 법적 회색 영역을 계속해서 활용할 것입니다. 이와 같은 내부 대화의 유출은 사람들이 Nvidia, Runway 또는 OpenAI와 같은 회사를 수십억 달러로 만드는 모델을 훈련하는 데 자신의 작업이 사용되고 있는지 알 수 있는 유일한 방법입니다.
AI 산업은 정부 규제를 통해서든 산업 표준을 통해서든 수년간 투명성을 강화해 왔습니다.
올해 초 MIT의 Jack Hardinges, Elena Simperl 및 Nigel Shadbolt는 다음과 같이 썼습니다. “모델을 훈련하는 데 사용된 데이터 세트에 무엇이 있는지, 그리고 이 정보가 없으면 개발자, 연구원 및 윤리학자가 이를 해결하려는 노력을 이해하는 것이 중요합니다. 데이터에서 유해한 콘텐츠를 편향하거나 제거하면 방해가 됩니다.
훈련 데이터에 대한 정보는 입법자가 기본 모델이 개인 데이터 또는 저작권 자료를 수집했는지 여부를 평가하는 데에도 중요합니다. 다운스트림에서 AI 시스템의 의도된 운영자와 그 사용으로 영향을 받는 사람들은 이러한 시스템이 어떻게 개발되었는지 이해한다면 이러한 시스템을 신뢰할 가능성이 더 높습니다. "
국회의원들은 이 문제를 해결하기 위해 작년 12월 AI 기본 모델 투명성 법안을 포함하여 여러 법안을 도입했습니다. 이 법안은 기본 AI 모델을 만드는 회사가 FTC 및 저작권청과 같은 연방 기관과 협력하여 투명성 표준을 개발하도록 요구합니다. 특정 정보를 소비자에게 공개합니다.
올해 4월 제안된 제너레이티브 AI 저작권 공개법(Generative AI Copyright Disclosure Act)은 데이터 세트 생산자가 "저작권이 있는 작품에 대한 충분히 자세한 요약"을 등록 기관에 제출하도록 요구하며, 그렇지 않으면 벌금을 물게 됩니다.
Mahari는 "기술적으로 귀하의 작업이 교육에 사용되었는지 여부를 판단하는 것은 정말 어렵습니다."라고 말했습니다. "내부적으로 가장 좋은 정책은 제3자가 실제로 감사하고 알아내는 것이 매우 어렵기 때문에 어떤 교육을 사용하는지 사람들에게 말하지 않는 것입니다. 따라서 아무에게도 말하지 않는 한 증명하는 것은 매우 어렵습니다."
첨부된 보고서의 원본 주소는 다음과 같습니다.

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/