소식

170,000개의 동영상이 참여합니다!NVIDIA 및 기타 거대 기업이 YouTube 데이터를 불법적으로 사용하여 모델을 훈련한 혐의로 노출되었습니다.

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

거대 기술 기업들이 승인되지 않은 YouTube 콘텐츠를 사용하여 AI(인공지능) 모델을 훈련시킨 것으로 드러났습니다.

현지 시간으로 지난 7월 16일 외신들은 애플, 엔비디아, 세일즈포스, 앤스로픽 등 일부 대형 기술 기업들이 AI 모델 훈련 과정에서 구글이 소유한 동영상 웹사이트인 유튜브의 무단 데이터를 사용하는 사실이 노출됐다고 보도했다. 이들 회사는 YouTube에서 스크랩한 대량의 동영상 자막 텍스트가 포함된 제3자가 제공한 데이터 세트를 사용하여 허가 없이 플랫폼에서 콘텐츠를 스크랩하는 것에 대한 YouTube의 규칙을 위반했습니다.

보고서는 이들 기술 기업이 AI 모델을 훈련할 때 '유튜브 자막'이라는 데이터 세트를 사용했다고 지적했다. 이 데이터 세트는 크기가 5.7GB에 유튜브의 48,000개 이상의 채널에서 가져온 4억 8,900만 단어를 포함하고 있다. 이 데이터 세트는 브이로거가 업로드한 부분과 유튜브에서 자동으로 전사한 텍스트를 포함한 비디오 자막의 일반 텍스트로 구성되며 일반적으로 영어 외에도 일본어, 독일어, 기타 언어로의 번역도 함께 제공됩니다. 아라비아 말.

비영리 단체 EleutherAI는 논란의 여지가 있는 데이터 세트를 만든 사람이며 회사는 아직 이 이야기에 응답하지 않았습니다. 공식 홈페이지에 따르면 EleutherAI의 목표는 “AI 개발의 문턱을 낮추고 모델 훈련 및 출시를 통해 모든 사람에게 최첨단 AI 기술에 대한 접근을 제공하는 것”입니다. 앞서 EleutherAI는 'Pile'이라는 데이터 편집본을 출시했는데, YouTube 자막을 포함해 대부분이 대중에게 공개되었습니다.

데이터에 따르면 Apple은 올해 4월 최종 소형 모델 OpenELM 모델을 출시하기 몇 주 전에 Pile을 교육에 사용했습니다. 그러나 Apple 자체가 이 데이터를 다운로드하지 않는다는 점은 주목할 가치가 있습니다. 그러니까 엄밀히 말하면 유튜브 이용약관을 위반한 것은 EleutherAI였습니다.

AI 스타트업 Anthropic의 대변인은 Pile 데이터 세트가 회사의 생성 AI 비서 Claude를 교육하는 데 사용되었으며 YouTube의 약관은 "플랫폼의 직접적인 사용"만 다루고 있으며 Pile의 원래 작성자와 위반 사항에 대해 논의할 것을 권장했음을 확인했습니다. 지휘하다. Apple, Nvidia, Salesforce 및 기타 회사는 아직 이 문제에 응답하지 않았습니다.

이번 사건으로 피해를 입은 크리에이터로는 Marques Brownlee, MrBeast, PewDiePie 등 유명 블로거를 비롯해 뉴욕타임스, 영국방송공사(BBC), 미국 ABC 뉴스 등 대형 뉴스 퍼블리셔들이 포함된다. 또한 데이터 세트의 일부 자료에는 '평평한 지구'와 같은 음모론을 조장하고 삭제된 동영상의 콘텐츠도 포함되어 있습니다. 이제 Pile은 공식 다운로드 사이트에서 제거되었지만 파일 공유 서비스를 통해 계속 액세스할 수 있습니다.

이와 관련하여 유명 기술 블로거인 Marques Brownlee는 내 동영상을 포함하면 기술적으로 Apple이 '실수'를 한 것도 아니고 적극적으로 데이터를 긁어낸 것도 아니지만 이는 오랫동안 문제가 될 것이라고 말했습니다.


마르케스 브라운리(Marques Brownlee)의 트윗.출처: X 플랫폼

애플과 다른 기업들이 공개 데이터 세트를 사용해 위반 사례가 없었을지라도, 이번 ​​사건은 AI 훈련 이면의 데이터 문제에 다시 한 번 관심을 불러일으켰습니다. 올해 초 YouTube의 모회사인 Google은 플랫폼의 동영상을 사용하여 모델을 교육한 사실이 노출되었습니다. 당시 Google은 이러한 행위가 플랫폼과 제작자 간의 계약을 위반하지 않는다고 대응했습니다.

올해 3월 OpenAI 최고기술책임자인 미라 무라티(Mira Murati)는 인터뷰에서 빈센트(Vincent) 비디오 모델 소라(Sora)의 훈련 데이터 출처에 대해 모호하게 밝혔습니다. 지난 4월 유튜브 CEO 닐 모한(Neal Mohan)은 인터뷰에서 OpenAI가 빈센트(Vincent) 비디오 AI 도구인 소라(Sora)를 개선하기 위해 유튜브 비디오를 사용했다는 것을 입증할 직접적인 증거가 없다고 말했다. YouTube 플랫폼의 이용약관입니다.