noticias

El anuncio de GPT-4o se convierte en futuros, ¿qué está frenando a OpenAI?

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


La tecnología RTC es una de las claves de la popularidad de la IA en tiempo real.


Autor | rayo
editar|

Ella, está pasando del cine a la realidad.

En mayo de este año, OpenAI lanzó el último modelo grande multimodal de IA, GPT-4o. En comparación con el GPT-4 Turbo anterior, el GPT-4o es el doble de rápido y cuesta la mitad. El retraso promedio de la interacción de voz con IA en tiempo real es de 2,8 segundos (GPT-3.5) a 5,4 segundos (GPT) en comparación con la versión anterior. . -4), llegando incluso a 320 milisegundos, casi la misma velocidad de respuesta del diálogo humano diario.

No sólo se mejora la eficiencia, sino que el análisis emocional en las conversaciones también se ha convertido en una de las características de esta actualización del producto. Durante la conversación con el anfitrión, la IA puede escuchar el "nerviosismo" cuando habla y hace sugerencias específicas para respirar profundamente.

IA abierta, se está convirtiendo en el “creador” basado en silicio en la era de los modelos grandes.

Sin embargo, la rueda de prensa fue impactante, pero la realidad fue muy flaca. Después del lanzamiento del producto, OpenAI, el iniciador de esta revolución tecnológica de gran modelo, se está convirtiendo gradualmente en una empresa de "futuro".

Después del lanzamiento del GPT-4o completo y de baja latencia, el lanzamiento de la función de audio y video en tiempo real aún se retrasa; se lanza el producto de video multimodal Sora, pero también se ha retrasado.

Pero esto no es sólo un problema para OpenAI como empresa: después del lanzamiento de ChatGPT, ha habido tantas versiones nacionales de ChatGPT como carpas cruzando el río. Sin embargo, actualmente solo hay un SenseTime 5.5 que realmente compara GPT-4o. , y el progreso es el mismo. Permanece en beta abierta dentro del mes.

¿Por qué en la conferencia de prensa, el gran modelo multimodal en tiempo real está a solo un paso de cambiar el mundo, pero en el proceso de avanzar hacia la productización, siempre pasa de "lugar" a "opción"?

Está surgiendo una nueva voz: en un mundo multimodal, tal vez la violencia (algorítmica) no tenga milagros.

01

voz en tiempo real,una pieza

debe pasardeRuta de comercialización de IA

La madurez de la tecnología está ayudando a que gradualmente tome forma una nueva industria del océano azul.

Los datos de a16z, una conocida institución de capital riesgo en Silicon Valley, muestran que entre las 50 principales aplicaciones de IA con usuarios globales, 9 son productos complementarios. Los datos de la lista de productos de IA muestran que el número de visitas a AI Companion en mayo de este año alcanzó los 432 millones, un aumento interanual del 13,87%.

La alta demanda, la alta tasa de crecimiento, el gran espacio de mercado y la compañía de la IA provocarán cambios duales en los modelos de negocio y en la interacción persona-computadora.

La madurez de los negocios también está obligando al progreso continuo de la tecnología a la inversa.Tomando solo la primera mitad de este año como nodo, la tecnología de voz AI en tiempo real ya ha pasado por tres iteraciones en solo seis meses.

El producto representativo de la primera ola de tecnología es Pi.

En marzo de este año, la startup Inflection AI actualizó su chatbot emocional Pi para usuarios individuales.

La interfaz del producto Pi es muy simple. El cuadro de diálogo Texto + es la interfaz interactiva principal, pero también agrega funciones de voz AI, como lectura de voz y llamadas telefónicas.

Para lograr este tipo de interacción de voz, Pi se basa en la tecnología de voz tradicional de tres pasos: STT (reconocimiento de voz, voz a texto), LLM (análisis semántico de modelo grande) y TTS (texto a voz). Se caracteriza por una tecnología madura, pero una respuesta lenta, falta de comprensión de información clave como el tono y la incapacidad de lograr un verdadero diálogo de voz en tiempo real.

Otro producto destacado del mismo período es Call Annie. En comparación con Pi, Call Annie tiene un diseño completo de experiencia de videollamada. Además del diseño para responder y colgar llamadas, la función obediente también se puede minimizar y cambiar a otras aplicaciones, y admite más de 40 configuraciones de roles de conversación.

Sin embargo, todos comparten problemas técnicos comunes: alta latencia y falta de color emocional. En términos de latencia, incluso el OpenAI más avanzado de la industria experimentará un retraso de 2,8 segundos (GPT-3.5) a 5,4 segundos (GPT-4).Emocionalmente, información como el tono, el tono y la velocidad del habla se perderán durante la interacción y será imposible producir expresiones del habla avanzadas como la risa y el canto.

Después de eso, el representante de la nueva ola de tecnología fue un producto llamado EVI.

Este producto fue lanzado por Hume AI en abril de este año y le aportó a Hume AI 50 millones de dólares (aproximadamente 362 millones de yuanes) en financiación Serie B.

En términos de diseño de producto, Hume AI ha lanzado una función de campo de juego en el algoritmo subyacente. Los usuarios pueden elegir sus propias configuraciones y modelos grandes. Además del valor predeterminado oficial, también pueden elegir Claude, GPT-4 Turbo, etc.Pero la diferencia es que la voz lleva emoción, por lo que también hay cambios de ritmo y entonación en la expresión.

La realización de esta función se basa principalmente en agregar el nuevo algoritmo SST (teoría del espacio semántico, teoría del espacio semántico) al proceso tradicional de tres pasos STT-LLM-TTS. SST puede dibujar con precisión todo el espectro de emociones humanas a través de una extensa recopilación de datos y modelos estadísticos avanzados, revelando la continuidad entre los estados emocionales humanos, dando a EVI muchas características antropomórficas.

El precio del progreso emocional es el sacrificio adicional del retraso en el tiempo., el tiempo que el usuario necesita esperar para hablar con EVI aumenta aún más en comparación con Pi y Call Annie.

A mediados de mayo se lanzó el GPT-4o y la integración de tecnología multimodal se convirtió en la dirección técnica de este período.

En comparación con los productos anteriores de interacción de voz de tres pasos, GPT-4o es un nuevo modelo entrenado de extremo a extremo en texto, imágenes y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.

El problema del retraso también se ha mejorado mucho. OpenAI anunció oficialmente que la interacción de voz en tiempo real de GPT-4o puede responder a la entrada de audio a una velocidad más rápida de 232 milisegundos y un promedio de 320 milisegundos. Emocionalmente, la interacción entre los usuarios y la IA se ha vuelto cada vez más inteligente, consiguiendo cambios en la velocidad del habla y la comprensión emocional.

A nivel de producto, es posible que los humanos se enamoren de la IA y que la IA reemplace a las personas ciegas en la visión del mundo.

Character.ai, que lanzó recientemente la función de llamada de voz y es una nueva estrella llamativa en Silicon Valley en 2024, se ha convertido en el mayor beneficiario de esta ola tecnológica.

En Character.ai, los usuarios tienen la oportunidad de enviar mensajes de texto con réplicas de personajes de anime, personalidades de televisión y personajes históricos en juegos de rol ultrarrealistas. La novedosa configuración ha provocado un aumento en el número de usuarios del producto. Según datos de Similarweb, Character.ai puede manejar 20.000 solicitudes de inferencia de IA por segundo, y el número de visitas en mayo llegó a 277 millones.


Comparación de tráfico entre Character.ai y perplexity.ai|Fuente de la imagen: Similarweb

Al mismo tiempo, Microsoft, Google y otros han anunciado oficialmente que sus modelos grandes lanzarán funciones de llamadas de voz en tiempo real.

Sin embargo, el diseño del producto hermético, en la implementación real, siempre muestra el efecto de implementación de la descarga de la inundación de las Tres Gargantas: en la tercera ola, los productos complementarios de estilo casi "ella" en la conferencia de prensa han cambiado en la implementación real. se convirtió en un "plan" para su lanzamiento, se lanzará pronto y se encuentra en pruebas internas.

Una conclusión indudable es que el audio y el vídeo en tiempo real pueden convertirse en la forma definitiva de interacción persona-computadora.AIAdemás de la escena complementaria, se espera que exploten escenas como los NPC inteligentes del juego, los profesores hablados por IA y la traducción en tiempo real. Sin embargo, antes de eso, cómo resolver el último kilómetro desde la "conferencia de prensa" hasta el lanzamiento del producto. Es el problema más difícil de la industria hoy en día.

02

Voz AI en tiempo real,

No hay milagros con mucha fuerza.

AIVoz en tiempo real "no hay milagros con grandes esfuerzos", un dicho pesimista se está extendiendo silenciosamente en Silicon Valley.

La resistencia proviene de todos los aspectos de la tecnología, la regulación y los negocios.

El líder espiritual de la oposición técnica es Yann LeCun, el "padre de las redes convolucionales".

En su opinión: en comparación con varios algoritmos de IA del pasado, la característica más importante de la tecnología de modelos grandes es que "grandes esfuerzos pueden producir milagros". A través de la alimentación de big data, así como el soporte de hardware de clústeres informáticos con cientos de millones de parámetros y alto rendimiento, se pueden utilizar algoritmos para manejar problemas más complejos y lograr una mayor escalabilidad. Sin embargo, actualmente somos demasiado optimistas acerca de los grandes modelos, especialmente la opinión de que los grandes modelos multimodales pueden ser modelos mundiales, lo cual es aún más absurdo.

Por ejemplo, las personas tenemos cinco sentidos, que forman nuestra verdadera comprensión del mundo, que se entrena en base a una gran cantidad de textos de Internet, carece de observación e interacción con el mundo físico y carece de suficiente sentido común. Por lo tanto, en el proceso de generar video o voz, siempre habrá contenido, trayectorias de movimiento o emociones de voz aparentemente fluidos, pero falta de realismo. Además, las duras limitaciones físicas también son un problema frente al creciente tamaño del modelo y las dimensiones de interacción, los grandes modelos actuales carecen de suficiente ancho de banda para procesar dicha información.

nivel regulatorio,AIEl discurso en tiempo real, es decir, el modelo grande de discurso de extremo a extremo, se enfrenta a un juego entre tecnología y ética.

En el pasado, el proceso de tres pasos de STT-LLM-TTS en la industria tradicional de voz con IA fue causado por tecnología inmadura. La evolución hacia un modelo de voz grande de extremo a extremo requiere una implementación adicional en términos de arquitectura del modelo y métodos de capacitación. y la interacción multimodal. Al mismo tiempo, debido a que la voz en sí es más difícil de supervisar que el texto, la voz con IA puede usarse fácilmente en escenarios como fraude telefónico, pornografía y marketing spam. Para facilitar la revisión, el enlace de texto intermedio también se ha hecho necesario hasta cierto punto.

Y a nivel empresarialEl entrenamiento de modelos grandes de audio y video de un extremo a otro requiere una gran cantidad de datos de YouTube y podcasts durante la fase de entrenamiento. El costo es decenas de veces o incluso mayor que el de los modelos de entrenamiento de texto anteriores. millones de dolares.

En cuanto a este tipo de costo, para las empresas de inteligencia artificial comunes en este momento, es inútil dejar caer dinero del cielo. También tienen que pagar por las tarjetas informáticas de inteligencia artificial de alta gama de NVIDIA, el almacenamiento gigabit y los derechos de autor de audio y video inagotables y sin riesgos. .

Por supuesto, ya sea el juicio técnico de Yang Likun, las posibles dificultades regulatorias o el dilema de los costos de comercialización, estos no son los problemas centrales de Open AI.

Realice la clase GPT-4o en tiempo realAILa razón fundamental por la que los productos de interacción de voz han cambiado de spot a futuros es el nivel de implementación del proyecto.

03

GPT-4o para demostración con cable de red enchufado,

Todavía falta una útil asistencia RTC

Un secreto tácito en la industria es, clase GPT-4oAILos productos de voz en tiempo real, a nivel de ingeniería, son sólo la mitad de la batalla.

En el lanzamiento de GPT-4o, aunque se afirmó una baja latencia, algunos usuarios perspicaces descubrieron que el teléfono móvil en el vídeo de demostración todavía estaba conectado con un cable de red.Esto también significa que el retraso promedio de 320 ms anunciado oficialmente por GPT-4o probablemente sea una demostración de equipos fijos, redes fijas y escenarios fijos, y es un indicador de laboratorio que se puede lograr en condiciones ideales.


La conferencia de lanzamiento de GPT-4o de OpenAI muestra claramente que los teléfonos móviles están conectados Fuente de la imagen: OpenAI

¿Dónde está el problema?

Desmantelándolo desde el nivel técnico, para realizar llamadas de voz AI en tiempo real, los tres pasos a nivel de algoritmo se combinan en uno, que es solo uno de los enlaces principales. El otro enlace principal, el nivel de comunicación RTC, también enfrenta una serie. de desafíos técnicos. El llamado RTC puede entenderse simplemente como la transmisión e interacción de audio y video en un entorno de red en tiempo real. Es una tecnología que admite voz en tiempo real, video en tiempo real y otras interacciones.

Chen Ruofei, jefe de tecnología de audio de Agora, dijo a Geek Park que en escenarios de aplicaciones reales, los usuarios generalmente no siempre pueden estar en equipos fijos, redes fijas y entornos físicos fijos. En nuestros escenarios de videollamadas diarias, cuando la red de una de las partes es deficiente, los retrasos y retrasos en la voz aumentarán. Esta situación también ocurrirá en las llamadas de voz con IA en tiempo real, por lo que la transmisión de baja latencia y una excelente optimización de la red son cruciales para la transmisión RTC.

Además, la adaptación multidispositivo, el procesamiento de señales de audio, etc. también son aspectos técnicos que no se pueden ignorar en la implementación de voz en tiempo real con IA.

¿Cómo solucionar estos problemas?

La respuesta está en los últimos requisitos de contratación de OpenAI. OpenAI mencionó específicamente que quiere reclutar talentos de ingeniería para ayudarlos a implementar los modelos más avanzados en el entorno RTC.

En términos de selección de solución específica, la tecnología RTC utilizada por GPT-4o es una solución de código abierto basada en WebRTC, que puede resolver ciertos retrasos a nivel técnico, así como la pérdida de paquetes, la seguridad del contenido de la comunicación y la multiplataforma causada por diferentes entornos de red.

Sin embargo, el lado B del código abierto es la debilidad de la productización.

Para dar un ejemplo simple, con respecto a los problemas de adaptación de múltiples dispositivos, los escenarios de uso de RTC están representados principalmente por teléfonos móviles, pero las capacidades de comunicación y recopilación de sonido de diferentes modelos de teléfonos móviles varían ampliamente: actualmente, los teléfonos móviles de Apple pueden lograr un retraso estable de Aproximadamente decenas de milisegundos. Sin embargo, el ecosistema de Android, que es relativamente complejo, no solo tiene muchos modelos, sino que la brecha de rendimiento entre los productos de gama alta y baja también es bastante obvia. puede alcanzar cientos de milisegundos en los niveles de recopilación y comunicación.

Por otro ejemplo, en escenarios de aplicaciones de voz en tiempo real de IA, las señales de voz humana pueden mezclarse con ruido de fondo. Se requiere un procesamiento de señal complejo para eliminar el ruido y el eco y garantizar una entrada de voz limpia y de alta calidad, de modo que la IA pueda comprender mejor a las personas. . las palabras dijeron.

La compatibilidad con múltiples dispositivos y las capacidades avanzadas de reducción de ruido de audio también son de lo que carece WebRTC de código abierto.

La experiencia de la industria es un cuello de botella en la aplicación de productos de código abierto. Por lo tanto, en comparación con las soluciones de código abierto, los grandes fabricantes de modelos y los proveedores profesionales de soluciones RTC trabajan juntos para pulirlas y optimizarlas, lo que hasta cierto punto puede representar mejor las tendencias futuras de la industria.

En el campo de RTC, Agora es el fabricante más representativo, conocido por proporcionar tecnología de audio a Clubhouse. Según el sitio web oficial de Agora, más del 60% de las aplicaciones de entretenimiento del mundo eligen el servicio RTC de Agora. Además de conocidas empresas nacionales Además de aplicaciones como Xiaomi, Bilibili, Momo y Xiaohongshu, también están Yalla, la plataforma social y de entretenimiento de voz más grande de Medio Oriente y el norte de África, Kumu, el “Rey de Social Live Broadcasting Platforms” en el sudeste asiático, HTC VIVE, The Meet Group, Bunch, etc. en todo el mundo. Empresas reconocidas han adoptado la tecnología RTC de Agora.


La acumulación de experiencia en la industria y el perfeccionamiento de los clientes globales son una prueba más del liderazgo tecnológico. Según Chen Ruofei, la red de transmisión en tiempo real SD-RTN™ de desarrollo propio de Shengwang cubre más de 200 países y regiones de todo el mundo, y el retardo global de extremo a extremo de audio y video alcanza un promedio de 200 ms. En respuesta a las fluctuaciones en el entorno de la red, la tecnología de enrutamiento inteligente de SoundNet y el algoritmo de red antidébil pueden garantizar la estabilidad y fluidez de las llamadas. En vista de las diferencias en los equipos terminales, Shengwang ha acumulado cientos de millones de aplicaciones preinstaladas en todo el mundo y ha acumulado conocimientos para adaptarse a entornos complejos.

Además del liderazgo tecnológico, la experiencia en la industria es una barrera invisible.

De hecho, esta es la razón por la que el panorama empresarial de la industria RTC se ha mantenido relativamente estable a lo largo de los años:Para hacer un buen trabajo en RTC, nunca se ha basado en el modelo a gran escala de que "los grandes esfuerzos pueden producir milagros".

La única manera de lograr la máxima optimización del retraso de la voz y el uso comercial universal de la interacción de voz en tiempo real es mediante un trabajo intensivo y acumulado a lo largo del tiempo.

Y desde esta perspectiva,AILa interacción de voz en tiempo real es una batalla que no debe subestimarse en términos de imaginación y dificultad.

Su futuro: los algoritmos, las auditorías y el RTC deben superar todos los niveles. Para completar este largo camino, no sólo debemos mirar al cielo estrellado de la tecnología, sino también tener los pies en la tierra de la ingeniería.

*Fuente de la imagen del encabezado: Visual China

Este artículo es un artículo original de Geek Park. Para reimprimirlo, comuníquese con Geek Jun en WeChat geekparkGO.

friki preguntó

¿Qué aplicaciones complementarias de IA has utilizado?


El secreto del éxito de Zuckerberg: no te dejes engañar por las películas, para empezar, nadie sabe cómo hacerlo.

Me gusta y sigueCuenta de vídeo de Geek Park