компания по клонированию голоса с помощью искусственного интеллекта использовала технологию записи three sheep для «суицидального маркетинга»?

2024-09-29

инцидент с тремя овцами вызвал настоящий переполох. неожиданно жертвой оказался ии.

позавчера вечером полиция хэфэя опубликовала уведомление об «инциденте с записью лу вэньцина, основателя группы «три овцы», в котором говорится, что широко распространенная аудиозапись была создана искусственным интеллектом, а подозреваемый был подвергнут уголовным принудительным мерам в соответствии с закон.

в заключение, это уведомление не только изложило официальную позицию, но и нанесло удар «первому человеку в отечественном ии», о котором слухи ходили в интернете несколько дней назад. в конце концов, решение было вынесено «первым человеком в отечественном ии». в то время было: «технология клонирования ai voice еще не настолько гладкая».

но что еще более удивительно, так это то, что вчера компания, занимающаяся искусственным интеллектом, «выпустила заявление», заявив, что аудиоконтент был создан подозреваемым с помощью собственной разработки искусственного интеллекта, дублирующей большую модель.

пользователи сети тоже были в шоке. после всего этого они все равно не забыли про рекламу. ai — король роллов? мы проследили за компанией, упомянутой в заявлении, чтобы найти источник заявления, и нашли соответствующий контент на weibo с таким же названием. однако аккаунт не был официально сертифицирован, поэтому мы не можем сделать окончательный вывод.

однако дискуссия вокруг этого заявления все еще растет. ».

просто попробуйте... основываясь на сокрытии названий соответствующих компаний и продуктов, мы провели несколько реальных испытаний продукта. следует отметить, что следующие тесты предназначены только для научно-популярных целей. инструмент зависит от того, как его используют пользователи, мы никогда не будем поддерживать кого-либо, использующего ии для проверки границ закона.

в то же время мы также проконсультировались с соответствующими юристами, чтобы узнать, существуют ли какие-либо прецеденты такого рода случаев нарушения прав голоса при клонировании искусственного интеллекта и на какие юридические вопросы следует обращать внимание создателям и платформам при использовании или продвижении новых технологий. .

ии клонирует голос человека,

всего несколько секунд звукового примера

вводите текст, назначайте роли, автоматически сегментируйте текст по предложению и генерируйте его одним щелчком мыши.

после входа на страницу продукта мы выполнили вышеуказанные шаги, и потребовалась всего 1 минута, чтобы заставить цзян вэня прочитать строки лю цзы из «пусть пули летят».

папа, я все обыскал, но нет ни денег, ни товаров, ни серебра. в живых осталось только два человека, стоит ли их убить или нет?

с такой интонацией и тоном я не знаю, думал ли я, что роль лю цзы сыграл цзян вэнь. на самом деле лю цзы играл сына в фильме, а цзян вэнь играл роль отца лю цзы.

этот звук был создан с использованием голосового персонажа «цзян вэнь» в продукте.

в настоящее время в этом продукте озвучено множество персонажей, в том числе известные интернет-знаменитости, такие как «сунь сяочуань» и «дин чжэнь», а также суперзвезды в культурных и спортивных кругах, такие как «коби брайант» и «джей чжоу». .

все эти голосовые персонажи загружены пользователями сообщества. если нажать на официальных персонажей на платформе, появится надпись «скоро, так что следите за обновлениями».

помимо использования голосовых персонажей, загруженных пользователями сообщества, на платформе также легко клонировать голос знаменитости.

здесь мы выложили реальную запись интервью маска, в которой ии маск «лично» сказал: «ты лебедь, он лягушка! (жаба хочет съесть лебединое мясо)», фраза чинглиша, очень популярная за рубежом.

платформа требует, чтобы сэмпл голоса был длиннее 2 секунд, а качество сэмпла важнее длины, поэтому при выполнении клонирования голоса наиболее трудоемким шагом является поиск четкой записи маска.

по словам официальных лиц, эта запись будет использоваться для определения голосовых характеристик персонажа по умолчанию, включая голос, эмоции, скорость речи, интонацию, ритм и т. д. если вам нужны разные стили голоса для одного и того же персонажа, вы также можете добавить разные образцы стиля голоса персонажа.

на данный момент мы загрузили в эту версию только аудиофрагмент и по-прежнему используем режим быстрого клонирования платформы вместо платного профессионального режима клонирования (официально заявлено, что степень тембрально-эмоционального восстановления в этом режиме достигает 99,9%). исполнение коротких предложений лучше. это уже на 6-7 баллов похоже на собственный голос маска.

с точки зрения формы контента, генеративный ии «вторгся» в текст, аудио, видео и даже 3d-контент. среди них можно сказать, что аудио является одним из наиболее зрелых направлений применения технологий.

клонирование звука ии — это лишь часть генерации звука ии. другие приложения включают в себя музыку, генерируемую ии, и звуковые эффекты, генерируемые ии.

задолго до появления генеративного ии клонирование голоса ии действительно существовало. в то время я хотел клонировать голоса, что было основано на традиционной технологии tts (text-to-speech, преобразование текста в речь). для этого требовалось создать голосовую библиотеку искусственного интеллекта и собрать большое количество образцов человеческого голоса для создания. позже ее пришлось моделировать посредством ручной отладки человеческого голоса.

или на основе проектов с открытым исходным кодом, таких как bert vits, новейшая технология синтеза речи с глубоким обучением может использоваться для прямого преобразования текста в речь для восстановления тембра, но оборудование и технические требования относительно высоки.

источник изображения: учебное пособие gpt-sovits мастера up станции b «хенджи вейзи».

сегодня, под волной aigc, «обкатанным» инструментам искусственного интеллекта для точного воспроизведения звука требуется всего 10 секунд или меньше звуковых сэмплов.

ранее мы представили принцип технологии клонирования голоса ai в прямой трансляции, которая обычно делится на такие этапы, как сбор голоса, извлечение признаков, обучение модели и синтез речи. сопутствующие инструменты продукта включают fish audio, cosyvoice, elevenlabs, cutting и т. д. ., что позволяет порог для операций клонирования голоса стал ниже. (для просмотра соответствующих повторов прямых трансляций вы можете подписаться на видеоаккаунт «ai new list» или отсканировать qr-код на изображении ниже, чтобы просмотреть)

следовательно, технически возможно создание «трех овечьих ворот» с помощью ии. особенно в руках «осторожных людей», помимо генерации ии, для достижения поддельных и реальных эффектов также могут использоваться ручная отладка, постредактирование и другие методы.

не говоря уже о том, что в циркулирующих записях много сложных шумов окружающей среды и настроек «пьяного состояния» говорящего, что значительно усложняет идентификацию подлинности записей. неудивительно, что многие пользователи сети предполагают, что ии просто действует как «временный работник» и может противостоять всему.

фактически, это также отражает то, что с быстрой итерацией технологии искусственного интеллекта между нами, обычными людьми и передовыми практиками, существует информационный разрыв в отношении того, что может делать искусственный интеллект и в какой степени он может это делать.

кроме того, инцидент «три овцы записывающих ворот» также выявил юридические проблемы, такие как отсутствие контроля за платформой и неправомерное использование ее создателями.

дискуссия о нарушении голосовых прав ии на контент-платформах

на самом деле, это не первый случай нарушения аудио с помощью подделки ии.

в апреле этого года интернет-суд пекина рассмотрел первое в стране «дело о нарушении голосовых прав ии».

истец инь мумоу занимается дубляжом и записал множество аудиоработ. он случайно обнаружил, что его голос был преобразован в искусственный интеллект и продан в приложении magic sound workshop. в конечном итоге суд постановил, что использование ответчиком голоса истца без его разрешения представляет собой нарушение, и компенсировал истцу 250 000 юаней за различные убытки.

согласно статье 1023 гражданского кодекса китайской народной республики, голос физического лица охраняется законом, а способ его защиты аналогичен праву на портрет. это означает, что если звук, генерируемый ии, можно идентифицировать и общественность может связать с конкретным физическим лицом, то использование звука без разрешения этого физического лица может представлять собой нарушение авторских прав.

ли юнькай, истец по первому в китае делу об авторских правах на картины, созданные искусственным интеллектом, и партнер пекинской юридической фирмы тяньюань, рассказал «новому списку ai»:

в настоящее время наши законы не нуждаются в пересмотре. поскольку технология искусственного интеллекта все еще находится в процессе разработки, новые технологии могут быть внедрены в течение двух лет. если наши законы будут для этого законодательно приняты, то на это уйдет от 3 до 5 лет. к тому времени форма технологии изменится, тогда это. закон на самом деле стал бумажкой.

наши нынешние законы уже заложили базовую основу. что необходимо скорректировать, так это то, как интерпретировать эти законы и как формировать соответствующие судебные позиции на основе типичных дел. только когда технология действительно станет зрелой, мы должны продвигать законодательство, разъясняющее правила, установившиеся в судебной практике.

помимо случаев нарушения прав в судебной практике, нарушения голоса ии на контент-платформах являются более масштабными и скрытными.

в настоящее время бесконечное появление инструментов искусственного интеллекта значительно снизило порог создания, и aigc стал популярным методом производства контента после pgc и ugc.

очень часто на отечественных и зарубежных контент-платформах используется технология клонирования голоса ии, чтобы воссоздать популярную музыку, позволить персонажам аниме и игр исполнять кавер-версии ии или позволить умершим знаменитостям говорить и т. д.

по сравнению с клише-фанатским творчеством, использование ии для вторичного творчества представляет собой более широкую концепцию. работы фанатов обычно ограничиваются творениями внутри фан-групп, в то время как вторичные творения могут исходить от обычных энтузиастов технологий искусственного интеллекта, и, благодаря технологии искусственного интеллекта, появляется больше возможностей для воображения для адаптации и инноваций.

звуковые произведения второго поколения с искусственным интеллектом, обладающие высоким качеством и количеством, могут не только достичь фанатской базы за счет популярности оригинального ip или самих знаменитостей, но и имеют потенциал прорваться через этот круг.

вообще говоря, учитывая нынешнее количество и влияние контента второго поколения, а также экологию контент-платформ, защита авторских прав в основном опирается на сознательность создателей, владельцев авторских прав и общественный контроль.

если оригинальное произведение и правообладатель не предъявляют претензий к произведению второго поколения, юридических проблем, как правило, не возникает.

большинство контент-платформ также позволяют этому контенту свободно расти, налагая при этом определенные ограничения. ведь чрезмерно строгий надзор за авторскими правами неизбежно ослабит энтузиазм создателей и затруднит распространение контента, что также станет огромной потерей для контент-платформ.

конечно, поощряя инновации в сфере контента, контент-платформы также должны совершенствовать соответствующие механизмы проверки, маркировки и контроля.

14 сентября 2024 года управление киберпространства китая опубликовало «меры по маркировке синтетического контента, созданного искусственным интеллектом (проект для комментариев)», в котором дополнительно разъясняются конкретные требования для добавления меток контента aigc.

те, кто предоставляет услуги редактирования, генерирующие речь, такую как синтезированные человеческие голоса или имитированные голоса, или значительно изменяющие характеристики личности, должны добавлять голосовые подсказки или подсказки аудиоритма и другие знаки в начале, конце или середине аудио в соответствующих местах или добавлять их. к интерфейсу интерактивной сцены. яркие предупреждающие знаки.

помимо двусмысленного и трудно поддающегося определению вопроса о праве собственности на авторские права, еще одно противоречие возникает из-за реалистичных этических и моральных конфликтов.

например, использование ии для «воскрешения» голосов и улыбок умерших знаменитостей под видом тепла и воспоминаний также расценивается как неуважение и чрезмерное потребление умершего.

будь то голосовые работы ии второго поколения на платформе контента или преступный инцидент с дублированием ии компанией three sheep, по-прежнему существует множество вопросов авторского права, этики, конфиденциальности данных, незаконных и криминальных вопросов, связанных с технологией клонирования голоса ии, которые необходимо продолжить. обсуждалось.

автор | цукияма татибана исидэ

редактор | чжан цзе

новости

компания по клонированию голоса с помощью искусственного интеллекта использовала технологию записи three sheep для «суицидального маркетинга»?

введение

моя контактная информация