revelando el secreto de la ia falsificando la grabación de xiao yang: costo cero, solo tres segundos

revelando el secreto de la ia que falsificó la grabación de xiao yang: costo cero y solo toma tres segundos

2024-09-30

la "grabación de lu wenqing" expuesta en el incidente de xiao yang primero provocó una protesta pública debido a la escala del contenido, y luego se descubrió que todo fue falsificado por ia.

con el tiempo, la tecnología de ia ha vuelto a pasar a primer plano.

imagen/respuesta oficial de yanyu technology

independientemente de si la tecnología es buena o mala, en esencia, la grabación sintetizada por ia puede entenderse como una especie de deepfake, que utiliza algoritmos de aprendizaje profundo para simular y falsificar audio y video, es decir, a través del modelo de aprendizaje profundo en la tecnología de inteligencia artificial. , las voces, las expresiones faciales y los movimientos corporales de las personas se fusionan en contenido falso muy realista.

desde una perspectiva técnica, es neutral además de la simulación de voz, métodos similares también incluyen el cambio de rostros con ia, la síntesis de rostros, la generación de videos, etc., denominados colectivamente falsificación profunda.

sin embargo, la tecnología neutral no puede impedir que los usuarios busquen malas intenciones.

lan mediahui consultó a lin hongxiang, fundador y director ejecutivo de fengping intelligence, una empresa líder en humanos digitales de ia en el país. con respecto a este tipo de incidente, lin hongxiang dijo con franqueza que la mejora en la eficiencia de producción aportada por la ia es integral, pero se encuentra en medio de la expansión. de "aplicación", si se quieren aislar completamente las violaciones, es posible que se requieran regulaciones sistemáticas y una implementación efectiva.

de acuerdo con el nivel técnico actual de la industria, los usuarios solo necesitan encontrar unos minutos de material disperso como muestras de aprendizaje de ia para clonar rápidamente una voz humana completa de ia. algunas de las pausas del habla, emociones y entonaciones de la grabación se pueden sumar, restar y ajustar mediante medios técnicos.

además, cuando se trata de aplicaciones prácticas, el costo de copiar un conjunto de voces humanas de ia "ahora no es alto". muchas aplicaciones en el mercado proporcionarán algunas entradas gratuitas. tomando como ejemplo el modelo involucrado, el modelo reecho ofrece acceso gratuito. servicio de clonación de voz, la versión más profesional requiere una tarifa adicional.

una sección de la transmisión en vivo de boss lu interceptada desde internet se convirtió en audio y se importó. en solo unos segundos, se clonó la voz de ia de boss lu.

luego imitamos una grabación del incidente original que tenía emociones y texto muy escandalosos, y la usamos como modelo de importación de guión para crear una grabación de lu wenqingrui comentando sobre musk, y listo.

"xiao ma y los demás se han ido, ¿verdad? te lo digo, quienquiera que quiera que sea popular puede ser popular, entiéndelo. conozco a muchos directores ejecutivos y no elogio a nadie a quien elogio. no menciones musk para mí, no funciona, ya sabes, no funciona, no funciona incluso cuando bebemos, ¿quién es él sin tres ovejas, quién le venderá productos, entiendes esto? "

hablando francamente, si ha escuchado ese tipo de llamadas fraudulentas de ia demasiadas veces o es sensible a las voces humanas, puede darse cuenta de que el audio de la ia tiene una "sensación de máquina": la entonación es demasiado estable de principio a fin. terminar, y nunca sonará cuando la gente esté emocionalmente emocionada. será así. pero este es sólo el modelo de versión normal más básico y la función de clonación instantánea. si hay más corpus suficiente y se selecciona la función de clonación profesional, el efecto será más "real".

entonces, ¿es posible que el audio y el vídeo sintetizados por ia sean tan intuitivos como un detector de mentiras para distinguir la autenticidad a través de los datos?

a nivel técnico es factible. lin hongxiang dijo que, además de la autorización del propio usuario, de hecho hay estándares relevantes en construcción en la industria humana digital de ia, que requieren que todo tipo de contenido generado por ia se agregue con "marcas características" especiales identificables.

esta etiqueta no consiste simplemente en agregar una marca de agua "generado por xx ai" en la esquina. tomando como ejemplo el sonido sintetizado por ia, agregará bandas de frecuencia de ruido adicionales fuera de la banda de frecuencia de los sonidos del habla humana, incluso dentro del rango de sonidos visibles. añade ciertas bandas de frecuencia características.

esta frecuencia característica puede ser identificada por la máquina. si se requiere identificación, el dispositivo puede extraer estas bandas de frecuencia y, en teoría, se puede determinar la autenticidad.

pero actualmente no hay muchas empresas dispuestas a popularizar esta función. el factor limitante es el costo de un procedimiento más. aunque el costo de un modelo de un solo uso no es alto, cada modelo de audio y video viene preinstalado. en la fase de capacitación y los costos incurridos en el desarrollo del modelo de audio y video de próxima generación después de la producción gradual, todavía ejercen una gran presión sobre las empresas de ia en esta etapa.

en la actualidad, la industria del audio y el vídeo con ia todavía se encuentra en sus primeras etapas. cómo adquirir clientes y cubrir los costos durante la etapa de promoción es un tema que los profesionales no pueden evitar.

pero obviamente estas no son cosas que los criminales con malas intenciones considerarían. que sean fuegos artificiales o bombas depende de cómo se use la pólvora.

hace más de medio año, la policía de hong kong reveló un caso de fraude por un importe total de 200 millones de dólares de hong kong. en este caso, los empleados de la sucursal de hong kong de una empresa multinacional recibieron un aviso del director financiero de la sede, diciendo que la sede estaba planeando una "transacción secreta" y necesitaba transferir fondos de la empresa a varias cuentas locales en hong kong para más tarde. usar.

luego, los empleados fueron invitados a participar en una "videoconferencia de varias personas" iniciada por la sede y, de acuerdo con los requisitos de la reunión, se transfirieron 200 millones de dólares de hong kong 15 veces a 5 cuentas bancarias.

fuente/noticias cctv

de hecho, en esta videoconferencia de varias personas, a excepción de los empleados de la sucursal, las otras "personas" eran imágenes de inteligencia artificial sintetizadas por estafadores utilizando cortes de audio y video públicos, y luego usaban la videoconferencia para cambiar caras y voces. el equipo de fraude directamente se convierte en el equipo ejecutivo que toma las decisiones.

en el caso de hong kong, los delincuentes equivalen a usar un cambio de rostro con ia + un cambiador de voz con ia para aparecer en la escena. sin embargo, la grabación falsificada por ia de xiao yang esta vez fue completamente sintetizada por un modelo grande después de conocer los materiales de audio relevantes de lu. wenqing de three sheep company, las emociones se acercan al audio completo de una persona real. el proceso es así de simple: el audio y el video sintetizados por ia ya son una tecnología madura y los productos relacionados también se han convertido en una industria completa.

sin embargo, la corriente principal de audio y vídeo sintetizados por ia definitivamente no es falsa. en la trama de the wandering earth part 2, tu hengyu, interpretado por andy lau, resucitó a yaya en forma de vida digital. fuera de la trama, la fallecida estrella de cine ng meng-tat también apareció en la pantalla a través de ia.

por lo tanto, si hay otro incidente como el de grabación de xiao yang en el futuro, antes de discutir si la tecnología es culpable o inocente, primero debemos intentar controlar a las personas.

cuida a la humanidad y salva la ia.

noticias

revelando el secreto de la ia que falsificó la grabación de xiao yang: costo cero y solo toma tres segundos

introducción

mi información de contacto