noticias

Los modelos de gran tamaño favorecen la falsificación profunda y la industria exige esfuerzos conjuntos interdisciplinarios para abordar la tecnología de falsificación

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·El desarrollo de la tecnología de identificación de falsificaciones requiere cooperación interdisciplinaria. La tecnología de identificación de falsificaciones actual se basa principalmente en algoritmos de software y en el futuro avanzará hacia la integración de software y hardware.


El auge de los modelos grandes ha sentado las bases para una falsificación profunda, y la industria ha pedido esfuerzos conjuntos interdisciplinarios para abordar la tecnología de falsificación.

En la era de los grandes modelos, los límites entre el habla sintetizada por inteligencia artificial y el habla real se están volviendo cada vez más borrosos, y es urgente mejorar la tecnología de reconocimiento coincidente. El 23 de julio, se celebró en Shanghai la final del 9º Concurso Mundial de Algoritmos de Inteligencia Artificial de la Copa de Tecnología Xinye, con el tema Reconocimiento de falsificación del habla profunda. Se alentó a los participantes a utilizar contramedidas de aprendizaje profundo e inteligencia artificial para desarrollar algoritmos que puedan identificar con precisión. modelo de voces falsas.

Deepfake es un método que utiliza tecnología de aprendizaje profundo e inteligencia artificial para generar contenido falso muy realista. El auge de los modelos grandes ha preparado el terreno para una falsificación profunda. Simplemente ingrese una palabra y el sistema de inteligencia artificial generará imágenes, videos y audios, lo que dificultará distinguir lo verdadero de lo falso.

Tomando como ejemplo las voces falsas, los modelos grandes pueden generar una variedad de voces falsas. Estas voces falsas son más realistas, antropomórficas y tienen conversaciones fluidas, lo que plantea mayores desafíos para el reconocimiento de voces falsas. "En algunos escenarios de alto valor, el fraude de voz generado por IA a menudo ocurre. Sin embargo, el desarrollo actual de la tecnología de identificación de voz va por detrás de la tecnología de síntesis de voz", dijo Chen Lei, vicepresidente de Xinye Technology y jefe de big data e IA.

En la final, los concursantes utilizaron diferentes modelos de algoritmos e ideas de entrenamiento para identificar el discurso falso, incluida la tecnología de reconocimiento basada en modelos grandes y la tecnología de reconocimiento tradicional de extremo a extremo. La tecnología de reconocimiento de extremo a extremo tiene una cantidad menor de parámetros y se centra en problemas más verticales; el modelo grande tiene una mayor cantidad de parámetros, mayores requisitos de datos y una fuerte capacidad de generalización de los datos de voz falsos generados. por el modelo grande se ha mejorado significativamente.

Según Lu Qiang, científico de algoritmos de Xinye Technology, el conjunto de datos de voz para la competencia preliminar consiste principalmente en voz falsa generada por TTS (texto a voz) tradicional de extremo a extremo, que es menos difícil de identificar. Por primera vez, el conjunto de datos de las semifinales agrega discursos falsos generados en función del último modelo grande, transcribe voces falsas y muestras fusionadas de idiomas reales y falsos, que cubren más de cinco idiomas, como inglés, francés. y español, y la dificultad de la competición aumenta. "La incorporación de voces falsas generadas por modelos grandes en las semifinales ha dificultado la competencia, lo que también demuestra que la capacidad de los últimos modelos grandes para 'disfrazar falsificaciones como reales' se ha vuelto más fuerte, lo que requiere la correspondiente tecnología de reconocimiento de deepfake. para mantenerse al día."

"Agregamos deliberadamente algunos datos de escenas nuevos a la competencia, como la extracción de voces falsas, que son datos generados después de múltiples grabaciones de voces reales. Creemos que se trata de voces falsas, para este escenario, la competencia utiliza voces reales y falsas". corte y mezcla de discursos falsos para construir datos contradictorios para evitar la escucha artificial y el etiquetado para interferir con la competencia "Mientras un fragmento sea discurso falso, entonces todo el fragmento es discurso falso. Esto está más cerca de la escena real, pero. El desafío del reconocimiento es enorme. Si se puede resolver el problema de la extracción y la confrontación entre autenticidad y falsedad, tendrá valor académico ". Lv Qiang también dijo que la información multimodal, como el texto y el video, ayudará en la detección de falsificaciones de voz. Y los modelos grandes y multimodales serán la clave para la detección de falsificaciones de voz en una importante dirección de desarrollo.

La tecnología de falsificación y la tecnología de identificación falsificada "corren", y el desarrollo de las dos va en espiral. Chen Lei dijo que la investigación sobre grandes modelos de habla debe abstraer y refinar los problemas de aplicación para convertirlos en problemas académicos. Después de resolver los problemas académicos, deben diseñarse para resolver las necesidades reales de escenarios comerciales específicos. El desarrollo de la tecnología antifalsificación requiere cooperación interdisciplinaria. La tecnología antifalsificación actual se basa principalmente en algoritmos de software. En el futuro, integrará software y hardware con la ayuda de la recopilación de sonido de trazabilidad del hardware para prevenir y controlar las falsificaciones. riesgos de voz desde el nivel del hardware.

"No existe un punto final para la detección de falsificaciones. Mientras el camino generativo no haya llegado a su fin, la detección de falsificaciones seguirá disminuyendo". Chen Lei dijo que después del juego, Xinye Technology abrirá los datos de origen y los utilizará para fines. investigación académica más amplia para desensibilizar los materiales de los concursantes. Al mismo tiempo, absorbe ideas de modelos de vanguardia en escenarios comerciales y construye una plataforma de falsificación AIGC. Él cree que la IA generativa debe cumplir con las reglas de gobernanza. La gobernanza de la inteligencia artificial requiere un diseño de alto nivel por parte de los reguladores para estandarizarla y guiarla. También pide la co-construcción ecológica y la co-creación de la industria para prevenir riesgos sistémicos.