“Ella” de OpenAI es difícil de cumplir. ¿Qué lo está frenando?

2024-07-27

Mengchen proviene del templo de Aofei.
Qubits | Cuenta pública QbitAI

Han pasado dos meses y dos semanas y todavía no hemos visto la versión lanzada públicamente de OpenAI "Her".

El 14 de mayo, OpenAI lanzó GPT-4o yModo de conversación de audio y vídeo en tiempo real de un extremo a otro, demostración en vivo del diálogo de IA tan fluido como el de los seres humanos.

Puede sentir su ritmo respiratorio y puede responder en tiempo real con un tono más rico que antes. Incluso puede interrumpir la IA en cualquier momento y el efecto es sorprendente.

Pero como todo el mundo lo espera con ansias, de vez en cuandoposponersalió la noticia.

¿Qué está frenando a OpenAI? Según información conocida:

tenerDisputas legales, para asegurar que el timbre de la voz no vuelva a causar polémica como la "hermana viuda" Scarlett Johansson.

También hayPregunta de seguridad, deben estar alineados adecuadamente, y las conversaciones de audio y video en tiempo real abrirán nuevos escenarios de uso, y su uso como herramienta de fraude también será uno de ellos.

Sin embargo, aparte de lo anterior, ¿existen problemas y dificultades técnicas que deban superarse?

Tras el revuelo inicial, los expertos empezaron a mirar hacia la puerta.

Es posible que los internautas más perspicaces se hayan dado cuenta,Durante la manifestación en la rueda de prensa, el teléfono móvil estaba conectado a un cable de red.。

A los ojos de los expertos de la industria, la demostración de la conferencia GPT-4o fue muy fluida, pero todavía existen varias limitaciones:

necesidad"Red fija, equipo fijo, entorno físico fijo"。

Después de su lanzamiento al público, aún se desconoce si los usuarios globales podrán obtener una experiencia que no se vea comprometida en comparación con la conferencia de prensa.

En la rueda de prensa hubo otro detalle interesante: el guapo investigador Barret Zoph.ChatGPT se utilizó como mesa al demostrar una videollamada。

El retraso en la parte de la videollamada es evidente.La parte de voz de la pregunta ha sido procesada y la parte visual aún está procesando la toma anterior., que es la mesa de madera captada por la cámara cuando recién levantaban el teléfono.

¿Imagínese cuántas personas lo usarán después de su lanzamiento final?

Uno de los casos más comentados en el vídeo promocional, en el que un hombre ciego hacía señas para pedir un taxi con la ayuda de una voz de IA, fue inmediatamente comentado por los internautas.

Sin embargo, también cabe señalar que esto será unEscenarios que dependen en gran medida de funciones de baja latencia, si la guía de la IA llega un poco más lenta, el taxi pasará.

Es posible que no se garantice que la señal de la red en escenas al aire libre sea estable, sin mencionar escenas como aeropuertos, estaciones de tren y atracciones turísticas donde hay muchas personas y dispositivos ocupando ancho de banda, por lo que la dificultad aumentará mucho.

también,También habrá problemas de ruido en escenas al aire libre.。

Los modelos grandes tienen inherentemente el problema de la "ilusión". Si el ruido afecta el reconocimiento de la voz del usuario y aparecen algunas palabras que no están relacionadas con las instrucciones, la respuesta no será clara.

Finalmente, hay otra cuestión que fácilmente se pasa por alto:Adaptación multidispositivo。

Se puede ver que la conferencia OpenAI actual y los videos promocionales utilizan el nuevo iPhone Pro.

Habrá que esperar hasta el lanzamiento oficial para saber si se puede obtener la misma experiencia en modelos de gama baja.

OpenAI promueve que GPT-4o se puede utilizar enTan solo 232 milisegundos, un promedio de 320 milisegundosresponder a la entrada de audio en un tiempo que sea consistente con la rapidez con la que los humanos responden en una conversación.

Pero este es sólo el tiempo desde la entrada hasta la salida del modelo grande, no todo el sistema.

Con todo, con solo hacer un buen trabajo en IA, todavía no es posible crear una experiencia fluida como "Her". También requiere una serie de capacidades como baja latencia, adaptación a múltiples dispositivos y capacidad de hacer frente. diversas condiciones de red y entornos ruidosos.

La IA por sí sola no puede crear "Ella"

Para conseguir baja latencia, adaptación multidispositivo, etc., nos apoyamos enRTC(Comunicaciones en tiempo real, Comunicaciones en tiempo real).

Antes de la era de la IA, la tecnología RTC se había utilizado ampliamente en transmisiones en vivo, videoconferencias y otros escenarios, y su desarrollo era relativamente maduro.

Desde la perspectiva de RTC, las palabras de las indicaciones de voz del usuario deben pasar por una serie de procesos complejos antes de ingresarse en el modelo grande.

Adquisición y preprocesamiento de señales:En dispositivos finales, como teléfonos móviles, la voz del usuario se recopila en señales originales y se procesa, como reducción de ruido y eliminación de eco, para prepararla para el reconocimiento posterior.

Codificación y compresión de voz: Para ahorrar al máximo el ancho de banda de transmisión, la señal de voz debe codificarse y comprimirse. Al mismo tiempo, se deben agregar de forma adaptativa algunos mecanismos de redundancia y corrección de errores de acuerdo con las condiciones reales de la red para resistir la pérdida de paquetes de la red.

transmisión de red: Los datos de voz comprimidos se dividen en paquetes de datos y se envían a la nube a través de Internet. Si la distancia física desde el servidor es larga, la transmisión a menudo tiene que pasar a través de múltiples nodos y cada salto puede introducir retrasos y pérdida de paquetes.

Decodificación y restauración de voz:Una vez que el paquete de datos llega al servidor, el sistema lo decodifica y restaura la señal de voz original.

Finalmente, fue el turno de la IA de actuar.Solo convirtiendo primero la señal de voz en tokens a través del modelo de incrustación el modelo grande multimodal de extremo a extremo podrá comprender y generar respuestas.

Por supuesto, después de que el modelo grande genera una respuesta, tiene que pasar por una serie de procesos inversos y luego la señal de audio de la respuesta finalmente se transmite de regreso al usuario.

Cada paso de todo el proceso requiere una optimización extrema para lograr realmente un diálogo de audio y vídeo con IA en tiempo real.

Entre ellos, la compresión, la cuantificación y otros métodos del modelo grande en sí afectarán las capacidades de la IA después de todo, por lo que la optimización conjunta combinada con factores como el procesamiento de señales de audio y la pérdida de paquetes de red es particularmente importante.

Se entiende que OpenAI no resolvió este problema de forma independiente, sino que optó por cooperar con un tercero.

Los socios sonProveedor de RTC de código abierto LiveKit, convirtiéndose actualmente en el foco de la industria con su soporte para el modo de voz ChatGPT.

Además de OpenAI, LiveKit también ha cooperado con empresas de IA relacionadas, como Character.ai y ElevenLabs.

Quizás, a excepción de algunos gigantes como Google, que tienen tecnología RTC de desarrollo propio relativamente madura,Cooperar con fabricantes de RTC que se especializan en la industria es la opción principal actual para los reproductores de diálogos de audio y video en tiempo real con IA.。

Por supuesto, esta ola también involucra la participación de actores nacionales. Muchas empresas nacionales de IA ya están intensificando el desarrollo de grandes modelos multimodales de extremo a extremo y aplicaciones de diálogo de audio y video en tiempo real de IA.

¿Pueden las aplicaciones nacionales de IA ponerse al día con los resultados de OpenAI y cuándo podrán todos realmente experimentarlo por sí mismos?

Dado que estos proyectos se encuentran básicamente en las primeras etapas, no se ha divulgado mucha información públicamente, pero sus socios de RTCred de sonidoSe convirtió en un gran avance.

Qubit preguntó a Sound Network,Con el nivel actual de tecnología nacional, el retraso de una ronda de diálogo se puede reducir a aproximadamente 1 segundo.Además, junto con más técnicas de optimización, ya no es un problema lograr conversaciones fluidas que puedan responder de manera oportuna.

Para hacer bien el RTC, la IA no es sólo "ella"

¿Quién es SoundNet?

Una empresa representativa en la industria RTC, que se convirtió en el primer proveedor global de servicios interactivos en la nube en tiempo real en 2020.

La primera vez que SoundNet salió de la industria fue porque brindaba soporte técnico para Clubhouse, una aplicación social de audio de gran éxito.

De hecho, muchas aplicaciones conocidas como Bilibili, Xiaomi y Xiaohongshu han elegido la solución RTC de Agora, y los negocios en el extranjero también se han desarrollado rápidamente en los últimos años.

Entonces, para las aplicaciones de diálogo de audio y video en tiempo real de IA, ¿cómo resolver específicamente las dificultades de baja latencia y adaptación de múltiples dispositivos, y qué efectos se pueden lograr?

hemos invitadoZhong Sheng, científico jefe y CTO de Shengwangpara responder a esta pregunta.

Según Zhong Sheng, la inferencia de modelos grandes no se calcula;Simplemente diga que el tiempo que tarda una señal en ir y venir en una línea de red ya puede ser de 70 a 300 milisegundos.。

Específicamente, nos centramos principalmente en la optimización desde tres aspectos.

primero,Shengwang ha construido más de 200 centros de datos en todo el mundo y las ubicaciones elegidas al establecer conexiones son siempre las más cercanas a los usuarios finales.

Combinado con la tecnología de enrutamiento inteligente, cuando una determinada línea está congestionada, el sistema puede seleccionar automáticamente otras rutas con mejor retraso y ancho de banda para garantizar la calidad de la comunicación.

Si no está involucrada la transmisión entre regiones, de un extremo a otro puede ser inferior a 100 ms. Si incluye regiones interregionales, como de China a Estados Unidos, es más probable que tarde entre 200 y 300 ms.

segundo, Shengwang, fundada en 2014, analiza varios escenarios de redes débiles mediante la extracción de datos basándose en la enorme cantidad de datos de escenas reales acumulados a lo largo de los años, y luego los reproduce en el laboratorio. Esto proporciona un "campo de tiro" para optimizar el algoritmo de transmisión de modo que pueda hacer frente a entornos de red complejos y cambiantes. También puede realizar ajustes oportunos a la estrategia de transmisión cuando ocurre un modo de red débil correspondiente durante la transmisión en tiempo real para realizar la transmisión; más suave.

tercero, Para industrias verticales y tareas específicas, Shengwang también está intentando personalizar modelos con parámetros más pequeños para comprimir el tiempo de respuesta de modelos grandes. Las capacidades extremas de los modelos de lenguaje grandes y de los modelos de voz de un tamaño específico son direcciones que vale la pena explorar, que son clave para optimizar la rentabilidad y la experiencia de baja latencia de la IA conversacional o los chatbots.

por fin, El RTC SDK desarrollado por Shengwang también está adaptado y optimizado para diferentes dispositivos terminales, especialmente para algunos modelos de gama baja, que pueden lograr un bajo consumo de energía, bajo uso de memoria, tamaño de paquete extremadamente pequeño, etc. En particular, las capacidades del dispositivo de reducción de ruido de voz, cancelación de eco y mejora de la calidad del video basadas en algoritmos de IA pueden afectar directamente el alcance y el efecto del chatbot de IA.

Zhongsheng también presentó que en el proceso de exploración de la combinación de RTC y tecnología de modelos grandes, el alcance de la tecnología RTC en sí también está cambiando.

Citó algunas de sus direcciones de pensamiento, como pasar de la transmisión de señales de audio a la transmisión de tokens que puedan ser entendidos directamente por modelos grandes, e incluso implementar la conversión de voz a texto (STT) y el reconocimiento de emociones al final, de modo que solo el texto y Se puede transmitir información relacionada.

De esta manera, se pueden colocar más procesos de procesamiento de señales en el extremo y el modelo de incrustación que requiere menos potencia informática se puede colocar más cerca del usuario, lo que reduce los requisitos de ancho de banda de todo el proceso y el costo del modelo en la nube.

A partir de este punto, Zhong Sheng cree que la combinación final de tecnología AI y RTC avanzará hacia la integración de dispositivos y nubes.

Es decir, no se puede confiar completamente en modelos grandes en la nube. Esta no es la mejor opción en términos de costo, consumo de energía y experiencia de latencia.

Desde la perspectiva de la integración final de la nube, toda la infraestructura debe cambiar en consecuencia. La potencia informática no solo está en la nube, sino que también se utilizará la potencia informática de los teléfonos móviles. Los nodos de transmisión en el borde también distribuirán la potencia informática y el protocolo de transmisión de datos también cambiará en consecuencia...

En la actualidad, Agora y los grandes fabricantes de aplicaciones de modelos han descubierto cómoTres modelos de cooperación, es decir, los diferentes métodos de suministro de las tres partes de todo el sistema: modelo grande, RTC y servidor en la nube:

Implementación privada:Shengwang solo proporciona RTC SDK, que se implementa junto con modelos grandes en los centros de datos de los socios. Es adecuado para empresas con modelos grandes de desarrollo propio o infraestructura de inferencia de modelos grandes.
Plataforma en la nube Shengwang: Shengwang proporciona RTC SDK y recursos de servidor en la nube, y los desarrolladores pueden seleccionar de manera flexible modelos, ubicaciones de implementación y recursos informáticos según sus necesidades. No es necesario crear su propia infraestructura y puede crear rápidamente aplicaciones de voz de IA.
Solución integral de Agora: Shengwang proporciona modelos grandes de desarrollo propio, RTC SDK y recursos de servidor en la nube. Los modelos verticales se pueden personalizar para industrias segmentadas como educación, comercio electrónico, entretenimiento social, servicio al cliente, etc., y están profundamente integrados con las capacidades de RTC para proporcionar soluciones integradas de interacción de voz.

Además, en los proyectos de cooperación existentes, la aplicación más rápida no está lejos de satisfacer a todos.

En la comunicación con Acoustic Network, hay otra nueva tendencia en el descubrimiento de qubits que merece atención:

Las aplicaciones nacionales de IA están yendo gradualmente más allá del alcance de las preguntas y respuestas del asistente de IA y del compañerismo emocional de la IA.

Tomemos como ejemplo industrias como el entretenimiento social, la transmisión en vivo del comercio electrónico y la educación en línea. A lo que todos prestan más atención son a los presentadores famosos de Internet y a los maestros famosos. Las personas digitales impulsadas por el diálogo de audio y video en tiempo real de IA pueden convertirse en sus "clones digitales" e interactuar aún más uno a uno con cada fan o estudiante. Al mismo tiempo, el tiempo y la energía del usuario también son limitados, no tienen habilidades para dividirse en múltiples tareas y también necesitan sus propios clones de IA. Con el desarrollo de la tecnología, la mejora de la experiencia de la tecnología de avatar de IA y la reducción de costos, su alcance de aplicación se ampliará cada vez más.

Tomemos como ejemplo las palabras de Zhong Sheng: "Lo más escaso para los seres humanos es el tiempo":

Todos debemos tener esta experiencia. ¿Qué pasa si dos reuniones entran en conflicto y solo podemos asistir a una?

Puede participar en uno usted mismo y enviar un asistente de IA a otro evento para traer información interesante. En el futuro, este asistente puede incluso ser su propio avatar de IA. Durante la actividad, podrá realizar comunicaciones personalizadas, hacer o responder diversas preguntas según sus propios intereses e inquietudes e interactuar con otras personas o con los avatares de otras personas.

Por lo tanto, los diálogos de audio y vídeo en tiempo real de la IA pueden hacer mucho más que simplemente "Ella".

noticias

“Ella” de OpenAI es difícil de cumplir. ¿Qué lo está frenando?

Introducción

Mi informacion de contacto