Вовлечено 170 000 видео! NVIDIA и другие гиганты были уличены в незаконном использовании данных YouTube для обучения моделей

Вовлечено 170 000 видео!NVIDIA и другие гиганты были уличены в незаконном использовании данных YouTube для обучения моделей

2024-07-17

Технологические гиганты были уличены в использовании несанкционированного контента YouTube для обучения моделей искусственного интеллекта.

16 июля по местному времени зарубежные СМИ сообщили, что некоторые крупные технологические компании, в том числе Apple, Nvidia, Salesforce и Anthrophic, столкнулись с использованием несанкционированных данных с YouTube, видеосайта, принадлежащего Google, при обучении моделей ИИ. Компании использовали набор данных, предоставленный третьей стороной, который содержал большое количество текста субтитров к видео, взятого с YouTube, что нарушило правила YouTube, запрещающие сбор контента с платформы без разрешения.

В отчете отмечается, что эти технологические компании использовали набор данных под названием «Субтитры YouTube» при обучении моделей искусственного интеллекта. Он имеет размер 5,7 ГБ и содержит 489 миллионов слов из более чем 48 000 каналов на Youtube. Этот набор данных состоит из обычного текста субтитров видео, включая часть, загруженную видеоблогерами, и текст, автоматически расшифрованный Youtube. Помимо английского, он обычно также включает переводы на такие языки, как японский, немецкий и другие. Арабский.

Некоммерческая организация EleutherAI является создателем скандального набора данных, и компания пока не отреагировала на эту историю. Согласно официальному сайту, цель EleutherAI — «понизить порог развития ИИ и предоставить каждому доступ к передовым технологиям ИИ посредством обучения и выпуска моделей». Ранее EleutherAI выпустила сборник данных под названием «Pile», большая часть которого открыта для общего доступа, включая субтитры YouTube.

Данные показывают, что за несколько недель до того, как Apple выпустила небольшую оконечную модель OpenELM в апреле этого года, компания использовала Pile для обучения. Однако стоит отметить, что сама Apple эти данные не загружает. Итак, технически именно EleutherAI нарушил условия использования YouTube.

Представитель AI-стартапа Anthropic подтвердил, что набор данных Pile использовался для обучения помощника компании по генеративному искусственному интеллекту Клода, и что условия YouTube охватывают только «прямое использование его платформы», и рекомендовал обсуждать любые нарушения с первоначальным автором Условий обслуживания YouTube Pile. Руководить. Apple, Nvidia, Salesforce и другие компании пока не отреагировали на этот вопрос.

В число создателей, пострадавших от этого инцидента, входят известные блоггеры, такие как Marques Brownlee, MrBeast и PewDiePie, а также крупные издатели новостей, такие как The New York Times, Британская радиовещательная корпорация (BBC) и ABC News в США. Кроме того, некоторые материалы в наборе данных пропагандируют теории заговора, такие как «Плоская Земля», и даже содержат контент из удаленных видео. Теперь Pile удален с официального сайта загрузки, но он по-прежнему доступен через файлообменники.

В связи с этим известный технологический блоггер Маркес Браунли заявил в программе «Включая мое видео». Технически Apple не «допустила ошибку», они не собирали данные заранее, но это будет давняя проблема».

Твит от Маркеса Браунли.Источник: X-платформа

Хотя Apple и другие компании, возможно, использовали общедоступные наборы данных и нарушений не было, этот инцидент еще раз привлек внимание к проблемам с данными, лежащими в основе обучения ИИ. В начале этого года материнская компания YouTube, Google, столкнулась с использованием видео платформы для обучения своих моделей. Google тогда ответила, что такое поведение не нарушает соглашения платформы с создателями.

В марте этого года технический директор OpenAI Мира Мурати в интервью расплывчато рассказала об источнике данных обучения для видеомодели Винсента Сора. В апреле генеральный директор YouTube Нил Мохан заявил в интервью, что у него нет прямых доказательств того, что OpenAI действительно использовала видео YouTube для улучшения своего инструмента искусственного интеллекта для видео Vincent Sora. Если бы он действительно использовался, это было бы «явным нарушением» закона. Условия использования платформы YouTube.

Новости

Вовлечено 170 000 видео!NVIDIA и другие гиганты были уличены в незаконном использовании данных YouTube для обучения моделей

Введение

моя контактная информация