¿se puede construir la ia de grabación del sr. lu de three sheeps? mi respuesta es: por supuesto

¿se puede construir la ia de grabación del sr. lu de three sheeps? mi respuesta es: por supuesto.

2024-09-27

en las primeras horas de esta mañana, n personas me enviaron una foto, diciendo que la policía lo había notificado y preguntándome cómo saber si la grabación de three sheep era ia.

algunos amigos me dijeron que hay una persona que dice ser la persona número uno en inteligencia artificial en china. anteriormente prometió que esta grabación no puede ser realizada por inteligencia artificial y que la inteligencia artificial no puede producirla. entonces, ¿podría haber alguna teoría de conspiración detrás de este informe?

casi chorreo. ¿quién es la primera ia en china? mi primera reacción fue que los académicos también dejaron de participar en cosas tan aburridas.

luego lo busqué... oh... olvídalo.

creo que es necesario que popularice algo de ciencia, es decir, ¿puede la ia alcanzar el nivel de grabación de sanyanglu?

puedo darte una respuesta clara: sí.

primero, hablemos brevemente sobre los antecedentes.

las tres ovejas y simba estaban teniendo una aventura complicada. simplemente estaban peleando entre sí, yendo y viniendo, y era muy animado.

luego, cuando la agitación estaba en su punto máximo, una grabación explosiva de lu wenqing, el presidente de three sheep, se volvió viral en internet.

esto es todo, hice algunos cortes y también silencié algunas de las partes indecentes.

el contenido es explosivo e impactante, con gran credibilidad y contenido impactante. involucra luchas de poder, trampas, etc. en resumen, el sr. lu reveló que había tenido relaciones inapropiadas con todas las presentadoras femeninas de three sheep. también nombró a zhang yiming y lo menospreció. . .

probablemente eso fue lo que sucedió, y luego three sheep lo informó, diciendo que la grabación fue sintetizada por ia.

hay muchas disputas en internet. la mayoría de la gente entiende que la ia no puede producir este nivel de grabación. porque lo dijo la "primera persona en ia doméstica".

esta grabación suena muy real, ¿verdad? hay emociones, dialectos y ruidos, por lo que en realidad hay dos preguntas. ¿esta grabación fue realizada por ia? ¿y puede la ia alcanzar este nivel de grabación?

la primera pregunta ha sido respondida hoy. siempre creeré incondicionalmente en nuestra seguridad pública. también creo que los informes que emiten son hechos. entonces, la respuesta a la primera pregunta es bastante clara: eso es lo que hace la ia.

entonces, la segunda pregunta, la más crítica, es si la ia puede alcanzar este nivel de grabación.

mi respuesta es, por supuesto.

en primer lugar, necesito popularizar algo de ciencia aquí. la ia es una categoría amplia y hay muchas subdivisiones.

hay grandes modelos de lenguaje (gpt, claude, doubao, etc.), dibujo ai (mj, sd, flux, etc.), audio ai (11labs, svc, gpt-sovtis, suno, etc.), video ai (runway , keling, doubao, pixverse, etc.) y ai 3d (tripoai, meshy, etc.).

en el audio con ia, se divide en música generada por ia, efectos de sonido generados por ia y clonación de sonido.

esta grabación pertenece a la pista de clonación de sonido.

así que no digas que si la ia puede hacer esto, es más poderosa que openai o chatgpt. no están en el mismo camino, por lo que no hay comparación. como dijiste, vaya, esta lavadora es realmente buena para lavar. ropa, incluso mejor que ese refrigerador. . .

la clonación de voz se divide en dos tipos: tts (text to speech) y svc (ai voice changing).

tts consiste en darle a la voz de una persona unos segundos y decenas de segundos de material para entrenar un modelo de ia, y luego usar texto directamente para generar una síntesis de voz del audio de voz de una persona específica. el mejor proyecto de código abierto ahora debería ser gpt -sovits.。

svc puede entenderse comúnmente como un cambio de voz de ia, que es el cambiador de voz en la era de la ia. actualmente hay tres subproyectos líderes en el campo de los cambiadores de voz con ia: so-vits-svc, rvc y ddsp.

bien, ahora está claro que en el campo de la clonación de voz mediante ia, existen dos métodos para lograr la falsificación de voz.

la ventaja del proyecto tts es que los requisitos de datos son cortos, solo 5 segundos de material de audio son suficientes y su voz se puede clonar. luego, solo necesita proporcionar texto para generar audio. el costo es extremadamente bajo y el efecto. es muy rápido. pero la desventaja es que los límites superiores de emoción, pausas y realismo son muy bajos. después de escuchar durante decenas de segundos, se puede decir fácilmente que se trata de un sabor de ia.

antes, todos pensaban que la ia no podía falsificar el audio del sr. lu. todos tenían ideas preconcebidas sobre tts y pensaban que debía hacerse con tts.

para ser sincero, a tts le resulta un poco difícil producir audio del nivel del sr. lu, basándose en los productos disponibles públicamente en el mercado que yo sepa (excluyendo proyectos en laboratorios internos de grandes empresas).

sin embargo, si lo piensas bien, tts no puede hacer esto, pero ¿qué pasa con svc?

la desventaja de svc es su alto costo. requiere un conjunto de datos de audio de 30 minutos y luego varias horas de entrenamiento de alquimia para entrenar el modelo vocal de la persona. finalmente, necesita encontrar a otra persona para grabar un audio y luego usar svc. para cambiar la voz. el sonido se reemplaza.

la ventaja es muy sencilla. esto puede retener todas las emociones, pausas, tono, dialecto, etc. del hablante, y el límite superior de calidad es aproximadamente infinito. mientras el modelo sea bueno, no se puede saber si lo es. ia o no.

incluso la voz que canta se puede cambiar sin problemas. cambiar su voz al hablar es solo un caso pequeño.

stefanie sun, la ia que se hizo popular el año pasado, estaba hecha de svc.

también he escrito varios tutoriales sobre svc.

déjame también escucharte. después de usar svc para cambiar mi voz, la reemplacé con mi propia voz.li rong haoel efecto del modelo.

esto es ia directamente, solo agregué música de fondo.

esto es svc.

entonces, al usar svc para falsificar el audio de la ia del sr. lu, los pasos son muy simples.

1. recopile unos 30 minutos de datos del discurso del sr. lu de internet. después de todo, es una celebridad.

2. utilice svc o rvc para limpiar la voz del sr. lu y entrenarla en un modelo de ia.

3. el sr. lu es de anqing y hay mucha gente de anqing en hefei.busque a alguien con un acento similar al suyo y lea primero el audio que va a sintetizar usted mismo.

4. finalmente, use el modelo de ia de svc para reemplazar el audio terminado con su voz.

lo mismo ocurre con las voces femeninas.

eso es todo, se acabó.

si aún desea escucharlo de manera más realista, simplemente use recortes o algo para agregar algo de sonido ambiental. hay demasiados, simplemente búsquelo. si desea sonido ambiental, el software de audio tradicional puede manejarlo. úselo también con sonido ambiental. el conjunto de datos se utiliza para entrenamiento, aunque no lo recomiendo. . .

especialmente el método del video original es enviar la grabación al teléfono móvil, luego reproducirla en el teléfono móvil y usar otro teléfono móvil para grabarlo. el sonido ambiental en sí es mucho y también se mezcla con el fondo. risas de mis amigos, que es un desastre. todos estos son factores fuera del campo. . .

entonces, volviendo a la segunda pregunta, ¿puede la ia hacer grabaciones falsificadas como las del sr. lu? por supuesto que puedes.

no piense que la ia es demasiado mítica y no piense que la ia es demasiado basura.la inteligencia artificial suele ser inteligencia artificial + inteligencia.

el tts actual no puede resolver problemas emocionales, entonces, ¿por qué la ia debe lidiar con las emociones?

¿no puedes simplemente cambiar el timbre después de terminar de recitarlo manualmente? esto es inteligencia artificial + inteligencia.

abre tu mente y no te limites demasiado.

la ia es su asistente, una herramienta auxiliar que usted puede utilizar, no que usted debe dejarle todo a ella como un comerciante que no interviene.

por último, quiero hacer una declaración.

estoy escribiendo este artículo para no que todos sepan acerca de esta tecnología y luego infringir la ley, hacer algunas cosas extralegales y convertirme en un gángster extralegal.

en cambio, espero hacer un poco de divulgación científica sobre el audio de ia, suavizar la brecha de información y hacerles saber a todos que existe tal tecnología y que el límite superior está aquí. no creas que la ia no puede tomarla a la ligera. . pero necesitamos saber dónde y qué nivel puede alcanzar la ia actual.

qué se puede hacer con el apoyo de inteligencia artificial + inteligencia.

el progreso de la ciencia y la tecnología es irreversible. todo el mundo es una gota de agua en este enorme torrente, y sólo será arrastrado hacia adelante. saber es siempre mejor que no saber. sólo conociéndose a uno mismo y al enemigo se podrá salir victorioso de cada batalla.

aprendemos muchas cosas y aprendemos ia, a menudo para protegernos.

además, proteja a nuestras familias.

entonces, una vida mejor.

ahora que has visto esto, si te parece bueno, no dudes en darle me gusta, verlo y retuitearlo tres veces. si quieres recibir notificaciones lo antes posible, también puedes regalarme una estrella⭐. ~gracias por leer mi artículo. hasta la próxima.

>/ autor: kazik

noticias

¿se puede construir la ia de grabación del sr. lu de three sheeps? mi respuesta es: por supuesto.

introducción

mi información de contacto