¿una empresa de clonación de voz mediante ia utilizó la tecnología de grabación de three sheep para realizar un "marketing suicida"?

2024-09-29

el incidente de las tres ovejas causó un gran revuelo, pero no esperaba que la víctima resultara ser ia.

anteayer, la policía de hefei emitió un aviso sobre el "incidente de grabación de lu wenqing, fundador del grupo tres ovejas", diciendo que el audio de amplia circulación fue generado por ai y que el sospechoso había sido objeto de medidas coercitivas criminales en conforme a la ley.

con una última palabra, esta notificación no solo dio una posición oficial, sino que también abofeteó a la “primera persona en ia doméstica” que se rumoreaba en internet hace unos días. después de todo, en ese momento, el juicio emitido por el “primero”. persona en ia doméstica” era “la tecnología de clonación de voz de ia aún no es tan suave como la seda”.

pero lo que es aún más inesperado es que una empresa de inteligencia artificial saltó ayer para "emitir una declaración", diciendo que el contenido de audio fue producido por el sospechoso a través de un gran modelo de doblaje de inteligencia artificial desarrollado por él.

los internautas también se sorprendieron. después de todo esto, todavía no se olvidaron de hacer publicidad. ¿es la ia el rey de los rollos? seguimos a la empresa mencionada en la declaración para encontrar la fuente de la declaración y encontramos contenido relevante en una cuenta de weibo con el mismo nombre. sin embargo, la cuenta no ha sido certificada oficialmente, por lo que no podemos llegar a una conclusión final.

sin embargo, la discusión en torno a esta afirmación sigue aumentando. los internautas la han llamado "marketing suicida". algunos bebés curiosos han preguntado si el producto de clonación de voz de la empresa de inteligencia artificial es realmente tan poderoso. el sitio web”.

pruébelo... sobre la base de ocultar los nombres de las empresas y productos relevantes, realizamos algunas pruebas reales en el producto. cabe señalar que las siguientes pruebas son solo para fines científicos. la herramienta radica en cómo la usan los usuarios, nunca apoyaremos a nadie que use ia para probar los límites de la ley.

al mismo tiempo, también hemos consultado a abogados relevantes para saber si existen precedentes de este tipo de casos de infracción de voz por clonación de ia y a qué cuestiones legales deben prestar atención los creadores y las plataformas al utilizar o promover nuevas tecnologías, para su referencia. .

la ia clona la voz de una persona

sólo unos segundos de muestra de sonido.

ingrese texto, asigne roles, segmente automáticamente el texto oración por oración y generelo con un solo clic.

después de ingresar a la página del producto, seguimos los pasos anteriores y solo tomó 1 minuto que jiang wen leyera las líneas de liu zi en "let the bullets fly".

papá, lo he buscado todo, pero no hay dinero, ni bienes, ni plata. sólo quedan dos personas con vida, ¿deberíamos matarlas?

con esta cadencia y tono, no sé si pensé que el papel de liu zi lo interpretó jiang wen. de hecho, liu zi interpretó al hijo en la película y jiang wen interpretó el papel del padre de liu zi.

este audio se generó utilizando el carácter de voz "jiang wen" en el producto.

actualmente, hay muchos personajes de voz en este producto, incluidas celebridades de internet conocidas como "sun xiaochuan" y "ding zhen", así como superestrellas de los círculos culturales y deportivos como "kobe bryant" y "jay chou". .

todos estos personajes de voz son cargados por usuarios de la comunidad. al hacer clic en los personajes oficiales en la plataforma, se mostrará "próximamente, así que estad atentos".

además de utilizar personajes de voz subidos por usuarios de la comunidad, también es fácil clonar la voz de una celebridad en la plataforma.

aquí hemos subido una grabación de una entrevista real a musk, en la que ai musk "personalmente" decía "¡tú, cisne, él rana! (el sapo quiere comerse la carne del cisne)", una frase en chinglish que se ha hecho popular en el extranjero.

la plataforma requiere que la voz de muestra solo dure más de 2 segundos. la calidad de la muestra es más importante que la duración, por lo que al realizar la clonación de voz, el paso que lleva más tiempo es encontrar la grabación clara de musk.

según los funcionarios, esta grabación se utilizará para definir la interpretación vocal predeterminada del personaje, incluida la voz, la emoción, la velocidad del habla, la entonación, el ritmo, etc. si desea diferentes estilos de voz para el mismo personaje, también puede agregar diferentes muestras de estilo del personaje de voz.

en la actualidad, solo hemos subido una pieza de audio en esta versión y todavía estamos usando el modo de clonación rápida de la plataforma en lugar del modo de clonación profesional pago (se dice oficialmente que el grado de restauración emocional y de timbre del modo llega al 99,9%). el rendimiento de las frases cortas es mejor. ya es entre 6 y 7 puntos similar a la propia voz de musk.

desde la perspectiva de la forma del contenido, la ia generativa ha "invadido" texto, audio, video e incluso contenido 3d. entre ellos, se puede decir que el audio es una de las vías más maduras para la aplicación de tecnología.

la clonación de sonido por ia es solo una subdivisión de la generación de audio por ia. otras aplicaciones incluyen música generada por ia y efectos de sonido generados por ia.

mucho antes de la llegada de la ia generativa, la clonación de voz mediante ia existía. en ese momento, quería clonar voces, lo cual se basaba en la tecnología tradicional tts (text-to-speech, text to speech). requería construir una biblioteca de voces de ia y recopilar una gran cantidad de muestras de voces humanas para crear una base de datos. posteriormente, hubo que simularlo mediante depuración manual.

o basándose en proyectos de código abierto como bert vits, se puede utilizar la última tecnología de síntesis de voz de aprendizaje profundo para convertir directamente texto en voz para restaurar el timbre, pero los requisitos técnicos y de equipo son relativamente altos.

fuente de la imagen: tutorial gpt-sovits del maestro up de la estación b, “henji weizi”

hoy en día, bajo la ola de aigc, las herramientas de ia "enrolladas" solo requieren 10 segundos o menos de muestras de sonido para reproducir con precisión el sonido.

anteriormente, presentamos el principio de la tecnología de clonación de voz de ia en una transmisión en vivo, que generalmente se divide en pasos como recopilación de voz, extracción de características, entrenamiento de modelos y síntesis de voz. las herramientas de productos relacionados incluyen fish audio, cosyvoice, elevenlabs, cutting, etc. ., permitiendo que el umbral para las operaciones de clonación de voz se haya reducido. (para ver repeticiones de transmisiones en vivo relacionadas, puede seguir la cuenta de video "ai new list" o escanear el código qr de la imagen a continuación para ver)

por lo tanto, es técnicamente factible que la “puerta de grabación de las tres ovejas” sea producida por ia. especialmente en manos de "personas cuidadosas", además de la generación de ia, también se pueden utilizar la depuración manual, la posedición y otros métodos para lograr efectos reales y falsos.

sin mencionar que hay muchos ruidos ambientales complejos y la configuración de "estado de ebriedad" del hablante en las grabaciones que circulan, lo que aumenta en gran medida la dificultad de identificar la autenticidad de las grabaciones. no es de extrañar que muchos internautas especulen que la ia sólo actúa como un "trabajador temporal" y puede resistirlo todo.

de hecho, esto también refleja desde el lado que con la rápida iteración de la tecnología de ia, existe una brecha de información entre nosotros, la gente común y los profesionales de primera línea sobre lo que la ia puede hacer y en qué medida puede hacerlo.

además, el incidente de "three sheep recording gate" también expuso problemas legales como la falta de supervisión de la plataforma y el uso inadecuado por parte de los creadores.

debate sobre la infracción de voz de ia en plataformas de contenido

de hecho, este no es el primer caso de infracción de audio mediante falsificación de ia.

en abril de este año, el tribunal de internet de beijing escuchó el primer “caso de infracción de voz de ia” del país.

el demandante yin moumou es un artista de doblaje y ha grabado numerosos trabajos de audio. accidentalmente descubrió que su voz había sido mejorada con inteligencia artificial y vendida en una aplicación llamada "magic sound workshop". el tribunal finalmente dictaminó que el uso por parte del demandado de la voz del demandante sin su permiso constituía una infracción y compensó al demandante con 250.000 yuanes por diversas pérdidas.

según el artículo 1023 del código civil de la república popular china, la voz de una persona física está protegida por la ley y su método de protección es similar al derecho de retrato. esto significa que si el sonido generado por la ia es identificable y el público puede asociarlo con una persona física específica, entonces utilizar el sonido sin el permiso de esa persona física puede constituir una infracción.

li yunkai, el demandante en el primer caso de derechos de autor de pintura de ia en china y socio del bufete de abogados tianyuan de beijing, dijo a “ai new list”:

actualmente, nuestras leyes no necesitan ser revisadas. debido a que la tecnología de ia todavía está en proceso de desarrollo, las nuevas tecnologías pueden repetirse en dos años. si nuestra ley legisla para esto, la legislación tardará entre 3 y 5 años. para entonces, la forma de la tecnología habrá cambiado, entonces esta ley. en realidad se convirtió en un pedazo de papel.

nuestras leyes actuales ya han establecido el marco básico. lo que es necesario ajustar es cómo interpretar estas leyes y cómo moldear actitudes judiciales relevantes a través de casos típicos. sólo cuando la tecnología esté realmente madura deberíamos promover una legislación que aclare las reglas que se han establecido en la práctica judicial.

además de los casos de infracción en la práctica judicial, la infracción de la voz de la ia en las plataformas de contenidos es más extensa y secreta.

en la actualidad, la aparición interminable de herramientas de inteligencia artificial ha reducido considerablemente el umbral de creación y aigc se ha convertido en un método de producción de contenido popular después de pgc y ugc.

es muy común utilizar la tecnología de clonación de voz de ia para recrear música popular, permitir que personajes de anime y juegos interpreten versiones de ia, o permitir que celebridades fallecidas hablen, etc., en plataformas de contenido nacionales y extranjeras.

en comparación con la creación cliché de fans, el uso de ia para la creación secundaria es un concepto más amplio. las obras de los fanáticos generalmente se limitan a creaciones dentro de grupos de fanáticos, mientras que las creaciones secundarias pueden provenir de entusiastas comunes de la tecnología de inteligencia artificial y, con la bendición de la tecnología de inteligencia artificial, hay mayor espacio para la imaginación para la adaptación y la innovación.

las obras de sonido de ia de segunda generación con alta calidad y cantidad no solo pueden llegar a la base de fans aprovechando la popularidad de la ip original o de las propias celebridades, sino que también tienen el potencial de romper el círculo.

en términos generales, considerando la cantidad y la influencia actuales del contenido de segunda generación y la ecología de las plataformas de contenido, la protección de los derechos de autor depende principalmente de la conciencia de los creadores, los propietarios de los derechos de autor y la supervisión pública.

si la obra original y el titular de los derechos de autor no presentan reclamaciones contra la obra de segunda generación, generalmente no habrá problemas legales.

la mayoría de las plataformas de contenidos también optan por permitir que estos contenidos crezcan libremente al tiempo que imponen ciertas restricciones. después de todo, una supervisión demasiado estricta de los derechos de autor inevitablemente disminuirá el entusiasmo de los creadores y obstaculizará la difusión de contenidos, lo que también supondrá una enorme pérdida para las plataformas de contenidos.

por supuesto, al tiempo que fomentan la innovación de contenidos, las plataformas de contenidos también necesitan mejorar los correspondientes mecanismos de revisión, etiquetado y supervisión.

el 14 de septiembre de 2024, la administración del ciberespacio de china publicó las "medidas para el etiquetado de contenido sintético generado por inteligencia artificial (borrador para comentarios)", que aclaraban aún más los requisitos específicos para agregar etiquetas de contenido aigc.

aquellos que brinden servicios de edición que generen voz, como voces humanas sintetizadas o voces imitadas, o que cambien significativamente las características de identidad personal, deben agregar indicaciones de voz o indicaciones de ritmo de audio y otros signos al principio, al final o en la mitad del audio en las posiciones apropiadas, o agregarlos. a la interfaz de escena interactiva. señales de advertencia prominentes.

además de la cuestión ambigua y difícil de determinar de la propiedad de los derechos de autor, otra controversia surge de conflictos éticos y morales realistas.

por ejemplo, utilizar la ia para "resucitar" las voces y sonrisas de celebridades fallecidas, bajo la apariencia de calidez y recuerdo, también se considera una falta de respeto y un consumo excesivo de los fallecidos.

ya sean las obras de voz de ia de segunda generación de la plataforma de contenidos o el incidente criminal del doblaje de ia de three sheep, todavía hay muchos problemas de derechos de autor, ética, privacidad de datos, ilegales y criminales relacionados con la tecnología de clonación de voz de ia que deben abordarse. discutido.

autor | tsukiyama tachibana ishize

editor | zhang jie

noticias

¿una empresa de clonación de voz mediante ia utilizó la tecnología de grabación de three sheep para realizar un "marketing suicida"?

introducción

mi información de contacto