Данные ИИ вызывают «нефтяной кризис», контент-компании могут просто сидеть сложа руки и зарабатывать деньги

2024-07-23

“

Если большую модель искусственного интеллекта сравнить с автомобилем, исходными данными будет сырая нефть.

”

Автор | Цзян Цзян

Редактор｜Маньманьчжоу

Появление ChatGPT и В середине пути Бурное распространение ИИ позволило ИИ достичь своего первого крупномасштабного применения, то есть популяризации больших моделей.

Так называемая большая модель относится к модели машинного обучения с большим количеством параметров и сложной структурой, которая может обрабатывать большие объемы данных и выполнять различные сложные задачи.

Споры об авторских правах на данные ИИ

Если нынешние крупные модели искусственного интеллекта сравнить с автомобилями, то исходными данными будет сырая нефть. В любом случае, в первую очередь модели ИИ нужно достаточное количество «сырой нефти».

К основным источникам «сырой нефти» для компаний ИИ относятся следующие категории:

●Открытые и бесплатные источники данных в Интернете, такие как Википедия, блоги, форумы, новостная информация и т.д.;

●Старые средства массовой информации и издательства;

●Университеты и другие исследовательские институты;

● Пользователи C-стороны, использующие модель.

Права собственности на нефть в реальном мире уже имеют зрелое юридическое регулирование. Однако в все еще хаотичной сфере ИИ права на добычу «сырой нефти» еще не ясны, и возникающие в результате споры многочисленны.

Совсем недавно несколько крупных музыкальных лейблов подали в суд на компании по производству музыки с использованием искусственного интеллекта.СуноиАудио , обвинив его в нарушении авторских прав.Иск последовал за декабрьским иском The New York Times.OpenAIсудебные разбирательства аналогичны.

Источник: Рекламный щит

В июле 2023 года некоторые писатели подали иск против компании, утверждая, чтоЧатGPTКраткое изложение работы автора составлено на основе контента, защищенного авторским правом.

В декабре того же года газета New York Times также сообщила.МайкрософтиOpenAIАналогичный иск о нарушении авторских прав был подан, в котором обе компании обвинялись в использовании контента газеты для обучения чат-ботов с искусственным интеллектом.

Кроме того, в Калифорнии был подан коллективный иск, обвиняющий OpenAI в получении личной информации пользователей из Интернета для обучения ChatGPT без согласия пользователя.

OpenAI в конечном итоге не заплатила за обвинение. Они заявили, что не согласны с обвинением New York Times и не могут воспроизвести проблемы, упомянутые New York Times. Что еще более важно, так называемый источник данных, предоставленный New York Times. York Times писала: «Для OpenAI это не имеет значения».

Источник: https://openai.com/index/openai-and-journalism/

Для OpenAI, возможно, самым большим уроком из этого инцидента является правильное регулирование отношений с поставщиками данных и разъяснение прав и обязанностей обеих сторон. В результате за последний год мы стали свидетелями того, как OpenAI установила партнерские отношения со многими поставщиками данных, включая, помимо прочего, The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project. и более.

В будущем OpenAI будет законно использовать данные из этих носителей, и эти носители также будут интегрировать технологию OpenAI в свои продукты.

ИИ стимулирует монетизацию контент-платформы

Однако наиболее фундаментальной причиной для OpenAI установить партнерские отношения с поставщиками данных является не страх перед судебным преследованием, а надвигающееся истощение данных, с которым сталкивается машинное обучение. Такие исследователи, как Массачусетский технологический институт, провели исследование, согласно которому к 2026 году наборы данных машинного обучения могут исчерпать все «высококачественные языковые данные».

Поэтому «высококачественные данные» стали ходовым товаром для производителей моделей, таких как OpenAI и Google. Контент-компании и производители моделей искусственного интеллекта неоднократно договаривались о сотрудничестве, чтобы запустить модель фиксированной прибыли.

Традиционная медиа-платформа Shutterstock успешно сотрудничает с такими компаниями, занимающимися искусственным интеллектом, как Meta, Alphabet, Amazon, Apple, OpenAI, Reka и т. д., и увеличит свой годовой доход до 104 миллионов долларов США за счет лицензирования контента для моделей искусственного интеллекта в 2023 году. ожидается, что в 2027 году выручка составит 250 миллионов долларов США. Reddit. Доход от авторских прав на контент, переданный Google по лицензии, достигает 60 миллионов долларов США в год. Apple также стремится сотрудничать с основными средствами массовой информации и предлагать гонорары в размере не менее 50 миллионов долларов США за штуку; год. Роялти, получаемые контент-компаниями от компаний, занимающихся искусственным интеллектом, растут с ежегодным темпом роста 450%.

Источник изображения: CX Scoop

В последние несколько лет было трудно монетизировать контент, кроме потокового мультимедиа, что было основной проблемой в индустрии контента. По сравнению с эпохой интернет-предпринимательства появление искусственного интеллекта принесло в контент-индустрию большую изобретательность и более высокие ожидания по доходам.

Качественных данных по-прежнему мало

Конечно, не весь контент отвечает потребностям ИИ.

Что касается упомянутых выше дебатов между OpenAI и New York Times, то еще одним ярким моментом является качество данных. Чтобы перерабатывать нефть из сырой нефти, во-первых, сама нефть должна быть хорошего качества, во-вторых, технология очистки должна быть хорошей.

OpenAI особо подчеркивает, что содержание New York Times не внесло существенного вклада в обучение моделей OpenAI. По сравнению с Shutterstock, который позволяет OpenAI тратить десятки миллионов долларов каждый год, текстовые СМИ, такие как New York Times, полагаются на них. своевременность нет Не любимец эпохи ИИ. ИИ требует глубоких и уникальных данных.

Однако высококачественных данных слишком мало, и компании, занимающиеся искусственным интеллектом, также начали усердно работать над «технологией очистки» и «универсальным применением».

25 июня OpenAI приобрела компанию Rockset, занимающуюся базами данных аналитики в реальном времени. Эта компания в основном предоставляет функции индексирования и запроса данных в реальном времени. OpenAI будет интегрировать технологию Rockset в свои продукты, чтобы повысить ценность использования данных в реальном времени.

Источник изображения: DePIN Scan

Приобретя Rockset, OpenAI планирует позволить ИИ лучше использовать данные в реальном времени и получать к ним доступ. Это позволяет продуктам OpenAI поддерживать более сложные приложения, такие как системы рекомендаций в реальном времени, динамические чат-роботы, управляемые данными, системы мониторинга и сигнализации в реальном времени и т. д.

Rocket — это встроенный в OpenAI «нефтехимический отдел», который напрямую преобразует обычные данные в высококачественные данные, необходимые приложениям.

Подтверждение прав на данные создателя — фантазия?

Данные с интернет-медиа-платформ (Facebook, Reddit и т. д.) в основном поступают отПользовательский контент , то есть контент, предоставленный пользователями. Хотя многие платформы взимают высокую плату за данные с компаний, занимающихся ИИ, они также незаметно добавляют в пользовательские условия пункт, согласно которому «платформа имеет право использовать пользовательские данные для обучения моделей ИИ».

Хотя в пользовательских условиях четко указаны права на обучение моделей ИИ, многие авторы не знают, какие модели используют создаваемый ими контент, не знают, платят ли за него, а также не могут получить соответствующие права и интересы, которые должны принадлежать им.

Во время квартального отчета Meta о прибылях и убытках в феврале Цукерберг дал понять, что он будет использовать изображения из Facebook и Instagram для обучения своим инструментам генерации искусственного интеллекта.

По имеющимся данным, Tumblr также таинственным образом заключил соглашения о лицензировании контента с OpenAi и Midjourney, но конкретное содержание конкретных соглашений не разглашается.

Создатели платформы фотогалереи EyeEm также недавно получили уведомление о том, что опубликованные ими фотографии будут использоваться для обучения моделей ИИ. В уведомлении упоминалось, что в результате пользователи могут отказаться от использования продукта, но не упоминалась какая-либо компенсационная политика. Компания-учредитель EyeEm, Freepik, сообщила Reuters, что подписала соглашения с двумя крупными технологическими компаниями о лицензировании большинства из 200 миллионов изображений по цене около 3 центов за изображение. Генеральный директор Хоакин Куэнка Абела заявил, что еще пять подобных сделок находятся в стадии разработки, но отказался раскрыть личность покупателя.

Платформы контента, основанные на пользовательском контенте, такие как Getty Images, Adobe, Photobucket, Flickr и Reddit, сталкиваются с одинаковыми проблемами. Под огромным соблазном монетизации данных платформы предпочитают игнорировать право собственности пользователей на контент, упаковывать данные и продавать их модели искусственного интеллекта. компании.

Весь процесс проводился в темноте, и у создателей не было шансов устоять. Даже многим авторам, возможно, однажды в будущем придется обучать контент, похожий на их собственные работы, на определенной модели, прежде чем у них появится возможность заподозрить, что их предыдущие работы были проданы определенной платформой компании, занимающейся искусственным интеллектом, для обучения модели.

Web3 может быть хорошим выбором для решения проблемы защиты прав на данные и доходов создателей. Когда компании, занимающиеся искусственным интеллектом, достигли новых максимумов на фондовом рынке США, одновременно с этим взлетела и концептуальная валюта искусственного интеллекта web3. Блокчейн с его децентрализованными и не поддающимися изменению характеристиками обладает уникальными преимуществами в защите прав создателей.

Медиа-контент, такой как изображения и видео, получил широкое распространение в сети на бычьем рынке 2021 года, а пользовательский контент на социальных платформах также незаметно появляется в сети. В то же время многие платформы моделей искусственного интеллекта web3 уже стимулируют обычных пользователей, которые участвуют в обучении моделей, независимо от того, являются ли они владельцами данных или инструкторами.

Экспоненциальное развитие моделей ИИ выдвинуло более высокие требования к проверке данных. Создателям следует задуматься: почему моя работа была продана компании, занимающейся моделями ИИ, по 5 центов за штуку без моего согласия? Почему меня держали в неведении обо всем процессе и не могли получить никакой выгоды?

Усилия медиаплатформы по ловле крупной рыбы не могут облегчить беспокойство компаний, занимающихся моделями ИИ, в отношении данных. Предпосылкой для достижения высококачественных данных и высокой производительности является подтверждение прав на данные, что представляет собой разумное распределение интересов между создателями, платформами и ИИ. модельные компании.

Справочные источники:

Shutterstock заработал 104 миллиона долларов на лицензировании активов для разработчиков ИИ в прошлом году (PetaPixel)
Все фотокомпании, заключившие лицензионные соглашения с фирмами, занимающимися ИИ (PetaPixel)
Reddit заключил новую сделку по обучению искусственного интеллекта для продажи пользовательского контента (TheEverge)
GPT-4 поглощает все данные во вселенной! OpenAI был вовлечен в судебные процессы один за другим из-за отсутствия данных, а профессор Калифорнийского университета в Беркли вынес предупреждение (Синьчжиюань)
OpenAI приобретает Rockset（OpenAI）

Новости

Данные ИИ вызывают «нефтяной кризис», контент-компании могут просто сидеть сложа руки и зарабатывать деньги

Введение

моя контактная информация