AI 데이터로 '석유위기' 발발, 콘텐츠 기업은 가만히 앉아 돈만 벌면 된다

2024-07-23

“

대형 AI 모델을 자동차에 비유하면 원시 데이터는 원유다.

”

저자 |

편집자｜만만저우

ChatGPT의 등장과 중간 여행 AI의 폭발적인 도입으로 AI는 최초의 대규모 적용, 즉 대형 모델의 대중화를 달성할 수 있게 됐다.

소위 대형 모델은 대량의 데이터를 처리하고 다양하고 복잡한 작업을 완료할 수 있는 많은 매개 변수와 복잡한 구조를 갖춘 기계 학습 모델을 말합니다.

AI 데이터 저작권 분쟁

현재의 대형 AI 모델을 자동차에 비유한다면 로데이터는 원유다. 어쨌든 AI 모델에는 우선 충분한 '원유'가 필요하다.

AI 기업의 '원유' 주요 공급원은 다음과 같습니다.

●위키피디아, 블로그, 포럼, 뉴스 정보 등과 같은 인터넷의 공개 및 무료 데이터 소스;

●기존 언론매체 및 출판사;

●대학 및 기타 연구 기관;

●C면 사용자가 사용하는 모델입니다.

현실 세계의 석유 소유권은 이미 성숙한 법적 규제를 갖추고 있지만 여전히 혼란스러운 AI 분야에서는 '원유'를 활용할 권리가 아직 명확하지 않아 그에 따른 분쟁도 많습니다.

최근 몇몇 주요 음반사들이 AI 음악 제작사를 고소했습니다.수노그리고오디오 , 저작권 침해로 비난합니다.이번 소송은 The New York Times의 12월 소송에 이은 것입니다.오픈AI소송도 비슷하다.

출처: 빌보드

2023년 7월 일부 작가들은 회사를 상대로 소송을 제기했다.채팅GPT저자의 작업 요약은 저작권이 있는 콘텐츠에서 생성됩니다.

같은 해 12월 뉴욕타임스도 보도했다.마이크로소프트그리고오픈AI인공지능 챗봇을 훈련시키기 위해 두 회사가 신문의 콘텐츠를 사용했다고 비난하면서 유사한 저작권 침해 소송이 제기되었습니다.

또한 OpenAI가 사용자의 동의 없이 ChatGPT를 교육하기 위해 인터넷에서 사용자의 개인 정보를 획득했다고 캘리포니아에서 집단 소송이 제기되었습니다.

OpenAI는 결국 고소에 대한 비용을 지불하지 않았습니다. 그들은 New York Times의 비난에 동의하지 않으며 New York Times에서 언급한 문제를 재현할 수 없다고 밝혔습니다. York Times는 OpenAI에게는 중요하지 않습니다.

출처: https://openai.com/index/openai-and-journalism/

OpenAI 입장에서 이번 사건의 가장 큰 교훈은 아마도 데이터 공급업체와의 관계를 적절하게 처리하고 양측의 권리와 책임을 명확히 했다는 점일 것입니다. 결과적으로 우리는 OpenAI가 작년에 The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project를 포함하되 이에 국한되지 않는 많은 데이터 제공업체와 파트너십을 맺는 것을 보았습니다. 그리고 더.

앞으로 OpenAI는 이러한 미디어의 데이터를 합법적으로 사용할 것이며 이러한 미디어도 OpenAI의 기술을 제품에 통합할 것입니다.

AI가 콘텐츠 플랫폼 수익화를 주도합니다

하지만 OpenAI가 데이터 제공자와 파트너십을 맺게 된 가장 근본적인 이유는 고소에 대한 두려움이 아니라 머신러닝이 직면하고 있는 데이터 고갈이 임박했기 때문입니다. MIT 등 연구자들은 머신러닝 데이터 세트가 2026년까지 '고품질 언어 데이터'를 모두 소진할 수 있다고 추정하는 연구를 수행했습니다.

따라서 "고품질 데이터"는 OpenAI 및 Google과 같은 모델 제작자에게 인기 있는 상품이 되었습니다. 콘텐츠 기업과 AI 모델 제조사는 균일한 수익 모델을 시작하기 위해 협력을 거듭해왔다.

전통 미디어 플랫폼인 셔터스톡(Shutterstock)은 메타(Meta), 알파벳(Alphabet), 아마존(Amazon), 애플(Apple), 오픈AI(OpenAI), 레카(Reka) 등 AI 기업들과 잇따라 협력을 맺었으며, 2023년에는 AI 모델에 콘텐츠 라이선싱을 통해 연매출을 1억400만 달러로 늘릴 예정이다. 2027년에는 2억 5천만 달러의 수익을 창출할 것으로 예상됩니다. Reddit Google에 라이선스가 부여된 콘텐츠 저작권으로 인한 수익은 연간 최대 6천만 달러에 달합니다. Apple은 또한 주류 언론 매체와 협력하여 최소 5천만 달러의 로열티를 제공하려고 합니다. 년도. AI 기업으로부터 콘텐츠 기업이 받는 로열티는 연평균 450%씩 증가하고 있다.

이미지 출처: CX Scoop

지난 몇 년간 스트리밍 미디어 이외의 콘텐츠로 수익을 창출하는 것이 어려웠고, 이는 콘텐츠 산업의 가장 큰 애로사항이었습니다. 인터넷 창업 시대에 비해 AI의 등장은 콘텐츠 산업에 더 큰 상상력과 더 강한 수익 기대를 가져왔습니다.

고품질 데이터는 여전히 부족합니다

물론 모든 콘텐츠가 AI의 요구 사항을 충족하는 것은 아닙니다.

위에서 언급한 OpenAI와 New York Times 간의 논쟁과 관련하여 또 다른 밝은 점은 데이터 품질입니다. 원유에서 기름을 정제하려면 첫째, 기름 자체의 품질이 좋아야 하고, 둘째, 정제 기술이 좋아야 합니다.

OpenAI는 New York Times의 콘텐츠가 OpenAI의 모델 훈련에 큰 기여를 하지 못했다는 점을 OpenAI가 매년 수천만 달러를 지출할 수 있게 해주는 Shutterstock에 비해 New York Times와 같은 텍스트 미디어에 의존하고 있다는 점을 특히 강조합니다. 적시성은 AI 시대의 사랑이 아닙니다. AI에는 심층적이고 고유한 데이터가 필요합니다.

하지만 양질의 데이터가 너무 부족해 AI 기업들도 '정화 기술'과 '원스톱 적용'에 힘을 쏟기 시작했다.

6월 25일 OpenAI는 실시간 분석 데이터베이스 회사인 Rockset을 인수했습니다. 이 회사는 주로 실시간 데이터 인덱싱 및 쿼리 기능을 제공하고 있으며 OpenAI는 Rockset의 기술을 자사 제품에 통합하여 데이터의 실시간 사용 가치를 향상시킬 것입니다.

이미지 출처: DePIN 스캔

OpenAI는 Rockset 인수를 통해 AI가 실시간 데이터를 더 잘 활용하고 액세스할 수 있도록 할 계획입니다. 이를 통해 OpenAI 제품은 실시간 추천 시스템, 동적 데이터 기반 채팅 로봇, 실시간 모니터링 및 경보 시스템 등과 같은 보다 복잡한 애플리케이션을 지원할 수 있습니다.

Rocket은 OpenAI에 내장된 '석유화학 부서'로, 일반 데이터를 애플리케이션에 필요한 고품질 데이터로 직접 변환합니다.

창작자 데이터 권한 확인은 환상인가요?

인터넷 미디어 플랫폼(Facebook, Reddit 등)의 데이터는 주로 다음에서 비롯됩니다.사용자 인터페이스 , 즉 사용자가 제작한 콘텐츠입니다. 많은 플랫폼이 AI 기업에 높은 데이터 요금을 부과하지만, 사용자 약관에 "플랫폼은 AI 모델을 훈련하기 위해 사용자 데이터를 사용할 권리가 있다"는 조항을 조용히 추가하기도 합니다.

사용자 약관에는 AI 모델을 훈련할 수 있는 권리가 명확하게 명시되어 있지만, 많은 작성자는 자신이 제작한 콘텐츠를 어떤 모델이 사용하고 있는지, 비용을 지불하는지, 소속되어야 하는 관련 권리와 이익을 얻을 수 있는지 알지 못합니다. 그들에게.

지난 2월 Meta의 분기별 수익 보고에서 Zuckerberg는 AI 생성 도구를 교육하기 위해 Facebook과 Instagram의 이미지를 사용할 것임을 분명히 했습니다.

보도에 따르면 Tumblr는 OpenAi 및 Midjourney와도 신비롭게 콘텐츠 라이선스 계약을 체결했지만 구체적인 계약 내용은 공개되지 않았습니다.

사진 갤러리 플랫폼 아이엠(EyeEm)의 창작자들도 최근 자신들이 올린 사진이 AI 모델 훈련에 사용될 것이라는 알림을 받았다. 해당 공지에는 사용자가 결과적으로 제품을 사용하지 않을 수 있다고 명시되어 있지만 보상 정책에 대해서는 언급하지 않았습니다. EyeEm의 모회사인 Freepik은 이미지당 약 3센트에 2억 개의 이미지 대부분에 대한 라이선스를 부여하기 위해 두 개의 대형 기술 회사와 계약을 체결했다고 로이터에 말했습니다. 호아킨 쿠엥카 아벨라 최고경영자(CEO)는 다른 5건의 유사한 거래가 진행 중이지만 구매자의 신원을 밝히기를 거부했다고 말했습니다.

Getty Images, Adobe, Photobucket, Flickr 및 Reddit과 같은 UGC 기반 콘텐츠 플랫폼은 모두 비슷한 문제에 직면해 있습니다. 데이터 수익화에 대한 엄청난 유혹 속에서 플랫폼은 사용자의 콘텐츠 소유권을 무시하고 데이터를 패키지화하여 AI 모델에 판매하는 것을 선택합니다. 회사.

모든 과정은 어둠 속에서 진행되었고, 창작자들은 저항할 기회가 전혀 없었습니다. 많은 창작자라도 자신의 작품과 유사한 콘텐츠를 미래의 어느 날 특정 모델에서 훈련해야 이전 작품이 모델 훈련을 위해 특정 플랫폼에서 AI 회사에 판매되었는지 의심할 수 있는 기회를 갖게 될 수도 있습니다.

창작자의 데이터 권리와 소득을 보호하기 어려운 문제를 해결하려면 Web3가 좋은 선택이 될 수 있습니다. AI 기업들이 미국 주식시장에서 최고치를 경신하자 웹3의 AI 컨셉 화폐도 동시에 급등했다. 분산화되고 변조 불가능한 특성을 지닌 블록체인은 창작자의 권리를 보호하는 데 있어 고유한 이점을 누리고 있습니다.

2021년 강세장에서 사진, 동영상 등 미디어 콘텐츠가 체인에서 대규모 채택을 완료했으며, 소셜 플랫폼의 UGC 콘텐츠도 체인에서 조용히 일어나고 있습니다. 동시에 많은 web3 AI 모델 플랫폼은 이미 데이터 소유자이든 트레이너이든 관계없이 모델 훈련에 기여하는 일반 사용자에게 인센티브를 제공하고 있습니다.

AI 모델의 기하급수적인 발전으로 인해 데이터 검증에 대한 요구가 더욱 커졌습니다. 창작자는 왜 내 동의 없이 작품이 AI 모델 회사에 5센트에 팔렸는지 생각해 봐야 합니다. 왜 나는 전체 과정을 모르고 아무런 이익도 얻지 못했습니까?

대물낚시를 위한 미디어 플랫폼의 노력은 AI 모델 기업의 데이터 불안을 완화할 수 없다. 고품질 데이터와 고생산성을 달성하기 위한 전제조건은 창작자와 플랫폼, AI 간 이해관계의 합리적인 분배인 데이터 권리의 확인이다. 모델 회사.

참조 소스:

Shutterstock, 작년에 AI 개발자에게 1억 400만 달러의 라이선싱 자산을 벌어들였다(PetaPixel)
AI 기업과 라이선스 계약을 맺은 모든 사진 회사들(PetaPixel)
Reddit, 사용자 콘텐츠 판매를 위한 새로운 AI 교육 계약 체결（TheEverge）
GPT-4는 우주의 모든 데이터를 소비합니다! OpenAI는 데이터 부족으로 잇달아 소송에 휘말렸고, UC 버클리 교수는 경고를 발령했다(Xinzhiyuan)
OpenAI가 Rockset을 인수（OpenAI）

소식

AI 데이터로 '석유위기' 발발, 콘텐츠 기업은 가만히 앉아 돈만 벌면 된다

소개

내 연락처 정보