раскрываем секрет подделки ии записи сяо яна: нулевая стоимость, всего три секунды

раскрытие секрета подделки ии записи сяо яна: нулевая стоимость и занимает всего три секунды

2024-09-30

«запись лу вэньцина», обнаруженная в инциденте с сяо яном, сначала вызвала общественный резонанс из-за масштаба контента, а затем выяснилось, что все это было подделано ии.

со временем технологии искусственного интеллекта снова вышли на передний план.

изображение/официальный ответ от yanyu technology

независимо от того, хороша технология или плоха, по сути, запись, синтезированную ии, можно понимать как своего рода deepfake, который использует алгоритмы глубокого обучения для моделирования и подделки аудио и видео, то есть с помощью модели глубокого обучения в технологии искусственного интеллекта. голоса людей, выражения лиц и движения тела объединены в очень реалистичный фейковый контент.

с технической точки зрения он нейтрален. помимо моделирования голоса, подобные методы также включают в себя изменение лица ии, синтез лица, генерацию видео и т. д., которые в совокупности называются глубокой подделкой.

однако нейтральная технология не может помешать пользователям искать злые намерения.

лань медиахуэй проконсультировался с линь хунсяном, основателем и генеральным директором fengping intelligence, ведущей отечественной компании по производству цифровых технологий в сфере искусственного интеллекта. по поводу такого рода инцидентов линь хунсян откровенно сказал, что повышение эффективности производства, вызванное ии, носит всеобъемлющий характер, но находится в середине расширения. «применения», если нарушения должны быть полностью изолированы, может потребоваться систематическое регулирование и эффективное внедрение.

в соответствии с текущим техническим уровнем отрасли пользователям нужно всего лишь найти несколько минут разрозненных материалов в качестве образцов обучения ии, чтобы быстро клонировать полный человеческий голос ии. некоторые речевые паузы, эмоции и интонации в записи можно добавлять, убирать и корректировать техническими средствами.

более того, когда дело доходит до практических приложений, стоимость копирования набора человеческих голосов ии «теперь невелика». многие приложения на рынке предоставляют некоторые бесплатные входы. возьмем, к примеру, модель reecho. услуга клонирования голоса, более профессиональная версия требует дополнительной оплаты.

часть прямой трансляции босса лу, перехваченная из интернета, была преобразована в аудио и импортирована. всего за несколько секунд ии-голос босса лу был клонирован.

затем мы имитировали запись исходного инцидента, в которой были очень возмутительные эмоции и текст, и использовали ее в качестве модели импорта сценария для создания записи, где лу вэньцинжуй комментирует маска, и на этом все было готово.

«сяо ма и остальные ушли, верно? я говорю вам, тот, кого я хочу сделать популярным, может стать популярным, поймите. я знаю много генеральных директоров, и я не хвалю тех, кого хвалю. не упоминайте маск мне, не работает, понимаешь, не работает, даже когда пьем, кто он без трех овец, кто ему товар продаст, ты это понимаешь? »

честно говоря, если вы слишком много раз слушали подобные мошеннические звонки ии или чувствительны к человеческим голосам, вы действительно можете сказать, что звук ии имеет «машинное ощущение» — интонация слишком стабильна от начала до конца. конец, и он никогда не прозвучит, когда люди эмоционально возбуждены. это будет так. но это всего лишь самая базовая модель обычной версии и функция мгновенного клонирования. если имеется более достаточный корпус и выбрана функция профессионального клонирования, эффект будет более «реальным».

итак, возможно ли, чтобы аудио и видео, синтезированные с помощью ии, были такими же интуитивно понятными, как детектор лжи, чтобы отличать подлинность данных?

на техническом уровне это осуществимо. линь хунсян сказал, что помимо авторизации самого пользователя, в индустрии цифрового искусственного интеллекта действительно разрабатываются соответствующие стандарты, требующие, чтобы все виды контента, созданного искусственным интеллектом, добавлялись специальными опознаваемыми «особенностями».

этот ярлык не просто добавляет водяной знак «создано xx ai» в углу. если взять в качестве примера синтезированный искусственным интеллектом звук, он добавит дополнительные диапазоны частот шума за пределами диапазона частот звуков человеческой речи, даже в пределах диапазона видимых звуков. добавьте определенные характерные полосы частот.

эта характеристическая частота может быть идентифицирована машиной. если требуется идентификация, устройство может извлечь эти частотные диапазоны, и теоретически можно определить подлинность.

но в настоящее время не так много компаний, желающих популяризировать эту функцию. ограничивающим фактором является стоимость еще одной процедуры. хотя стоимость одноразовой модели невелика, каждая аудио- и видеомодель предварительно установлена. на этапе обучения, а затраты, понесенные при разработке аудио- и видеомодели следующего поколения после поэтапного выпуска, по-прежнему оказывают большое давление на компании, занимающиеся искусственным интеллектом, на этом этапе.

в настоящее время индустрия аудио и видео с использованием искусственного интеллекта все еще находится на ранних стадиях своего развития. как привлечь клиентов, одновременно покрывая расходы на этапе продвижения, — это тема, которую практики не могут избежать.

но преступники со злыми намерениями, очевидно, не рассматривают такие вещи. будет ли это фейерверк или бомба, зависит от того, как используется порох.

более полугода назад полиция гонконга раскрыла дело о мошенничестве на общую сумму 200 миллионов гонконгских долларов. в данном случае сотрудники гонконгского филиала транснациональной компании получили уведомление от финансового директора штаб-квартиры, в котором говорилось, что штаб-квартира планировала «секретную транзакцию» и ей необходимо перевести средства компании на несколько локальных счетов в гонконге для дальнейшего использования. использовать.

затем сотрудников пригласили принять участие в «видеоконференции с участием нескольких человек», инициированной штаб-квартирой, и в соответствии с требованиями встречи 200 миллионов гонконгских долларов были переведены 15 раз на 5 банковских счетов.

источник/новости cctv

фактически, в этой видеоконференции с участием нескольких человек, за исключением сотрудников филиала, остальные «люди» представляли собой изображения искусственного интеллекта, синтезированные мошенниками с использованием общедоступных аудио- и видеофрагментов, а затем использовавшие видеоконференцию для изменения лиц и голосов. непосредственно команда по борьбе с мошенничеством становится руководящей командой.

в случае с гонконгом преступники эквивалентны использованию искусственного интеллекта для изменения лица + искусственного интеллекта для изменения голоса, чтобы появиться на месте происшествия. однако на этот раз поддельная запись сяо яна была полностью синтезирована большой моделью после изучения соответствующих аудиоматериалов лу. вэньцин из three sheep company, эмоции близки ко всему звуку реального человека. процесс очень прост: синтезирование аудио и видео с помощью искусственного интеллекта уже является зрелой технологией, а сопутствующие продукты также превратились в целую индустрию.

однако мейнстрим синтезированного ии аудио и видео определенно не является подделкой. по сюжету «блуждающей земли. часть 2» ту хэнъюй, которого играет энди лау, воскресил яю в виде цифровой жизни. вне сюжета на экране посредством ии также появилась покойная знаменитая кинозвезда нг мэн-тат.

поэтому, если в будущем произойдет еще один инцидент, подобный инциденту с записью сяо яна, прежде чем обсуждать, виновата или невиновна технология, мы должны сначала попытаться контролировать людей.

позаботьтесь о человечестве и спасите ии.

новости

раскрытие секрета подделки ии записи сяо яна: нулевая стоимость и занимает всего три секунды

введение

моя контактная информация