noticias

openai developer conference regala paquetes de regalo: reduce significativamente los costos de los modelos, aplicaciones habilitadas para voz con ia y modelos pequeños que "mejoran" el rendimiento de los modelos grandes

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

autor de este artículo: li dan

el martes 1 de octubre, hora del este, openai celebró su conferencia anual de desarrolladores devday. la conferencia de este año no tuvo ningún lanzamiento de producto importante. fue más discreta que la conferencia del año pasado, pero openai también distribuyó varios "paquetes de regalo" importantes. desarrolladores. ”, realizando mejoras en las herramientas de inteligencia artificial (ia) y conjuntos de api existentes.

este openai devday lanza una serie de nuevas herramientas, que incluyen cuatro innovaciones principales: almacenamiento en caché rápido, ajuste fino de visión, api en tiempo real y destilación de modelos. trae buenas noticias a los desarrolladores en términos de costo, mejorando el nivel de comprensión visual de los modelos. funciones de ia de voz y rendimiento de modelos pequeños.

algunos comentarios dijeron que el enfoque del devday de este año es mejorar las capacidades de los desarrolladores y mostrar las historias del círculo de desarrolladores, lo que muestra que a medida que la competencia en el campo de la ia se vuelve cada vez más feroz, la estrategia de openai ha cambiado. las nuevas herramientas anteriores resaltan el enfoque estratégico de openai en fortalecer su ecosistema de desarrolladores en lugar de competir directamente en aplicaciones de usuario final.

algunos medios mencionaron que en la conferencia de prensa previa al evento devday, el director de producto de openai, kevin weil, habló sobre las recientes salidas de la directora de tecnología de openai, mira murati, y del director de investigación, bob mcgrew, diciendo que su salida no afectaría el desarrollo de la compañía. no lo haremos. reducirá la velocidad”.

el almacenamiento en caché rápido puede reducir los costos de los tokens de entrada hasta en un 50 %

el almacenamiento en caché de palabras rápido se considera la actualización más importante lanzada este devday. esta función está diseñada para reducir los costos de desarrollador y reducir la latencia.

el sistema de almacenamiento en caché de palabras rápido introducido por openai proporciona automáticamente un descuento del 50 % en los tokens de entrada procesados ​​recientemente por el modelo, lo que puede generar ahorros significativos para las aplicaciones que reutilizan el contexto con frecuencia. estas importantes reducciones de costos brindan a las empresas y a las nuevas empresas importantes oportunidades para explorar nuevas aplicaciones que antes estaban fuera de su alcance debido a costos prohibitivos.

olivier godement, gerente de productos de la plataforma openai, dijo que gpt-3 fue un gran éxito hace dos años y ahora openai ha reducido los costos relacionados casi 1000 veces. no puede citar ningún otro ejemplo en el que los costos se hayan reducido en la misma cantidad en dos años.

el siguiente gráfico de openai muestra que el almacenamiento en caché de palabras rápido puede reducir significativamente el costo de aplicar modelos de ia. en comparación con los tokens no almacenados en caché de varios modelos de pib, el costo de almacenar en caché los tokens de entrada se puede reducir hasta en un 50%.

vision fine-tuning: la nueva frontera de la ia visual

openai devday anunció que el último modelo de lenguaje grande (llm) gpt-4o de openai introduce un ajuste visual. esta característica permite a los desarrolladores personalizar la comprensión visual de sus modelos con imágenes y texto.

esta es una actualización importante conocida como la nueva frontera de la ia visual. podría tener impactos de gran alcance en áreas como los vehículos autónomos, las imágenes médicas y las capacidades de búsqueda visual.

openai dijo que grab, la versión del sudeste asiático de meituan + didi, ha utilizado la tecnología para mejorar sus servicios de mapas. usando solo 100 ejemplos, grab mejoró la precisión del conteo de carriles en un 20 % y la ubicación de las señales de límite de velocidad en un 13 %.

esta aplicación del mundo real demuestra las posibilidades del ajuste visual, utilizando pequeños lotes de datos de entrenamiento visual, para mejorar significativamente los servicios de ia en una variedad de industrias.

la api en tiempo real cierra la brecha de la ia conversacional

openai devday lanzó la api en tiempo real, que actualmente se encuentra en la fase beta pública. la api en tiempo real simplifica inherentemente el proceso de creación de asistentes de voz y otras herramientas de inteligencia artificial conversacional, eliminando la necesidad de unir múltiples modelos para la transcripción, la inferencia y la conversión de texto a voz.

este nuevo producto permite a los desarrolladores crear experiencias multimodales de baja latencia, especialmente en aplicaciones de voz a voz. esto significa que los desarrolladores pueden comenzar a agregar los controles de voz de chatgpt a las aplicaciones.

para ilustrar el potencial de la api, openai mostró una versión actualizada de wanderlust, una aplicación de planificación de viajes que presentó en la conferencia del año pasado.

con la ayuda de la api en tiempo real, los usuarios pueden hablar directamente con la nueva versión de la aplicación y tener conversaciones naturales para planificar su itinerario. el sistema incluso permite a los usuarios interrumpir en medio de una frase, imitando una conversación humana.

la planificación de viajes es sólo un ejemplo: las api en tiempo real abren una amplia gama de posibilidades para aplicaciones de voz en diversas industrias. ya sea que se especialicen en servicio al cliente, educación o herramientas de accesibilidad para personas con discapacidades, los desarrolladores ahora pueden aprovechar nuevos recursos para crear experiencias impulsadas por ia más intuitivas y receptivas.

algunas aplicaciones, incluida la aplicación de entrenamiento de nutrición y fitness healthify y la plataforma de aprendizaje de idiomas speak, ya han tomado la iniciativa en la integración de api en tiempo real en sus productos.

los comentarios dicen que la api en tiempo real no es barata, cobra $0,06 por minuto de entrada de audio y $0,24 por minuto de salida de audio, pero aún así puede representar una propuesta de valor significativa para los desarrolladores que buscan crear aplicaciones basadas en voz.

la destilación de modelos permite que los modelos pequeños tengan funciones de modelo de vanguardia

esta vez, la destilación de modelos se considera la nueva herramienta más transformadora de openai. este flujo de trabajo integrado permite a los desarrolladores ajustar modelos universitarios relativamente pequeños y rentables utilizando la salida de modelos de vanguardia como gpt o1-preview y gpt-4o, mejorando así modelos más eficientes como gpt-4o mini. actuación.

este enfoque hace posible que las empresas más pequeñas aprovechen capacidades similares a las de los modelos de vanguardia sin incurrir en los costos computacionales que implica el uso de dichos modelos. ayuda a cerrar la brecha que la industria de la ia ha tenido durante mucho tiempo entre los sistemas de vanguardia que consumen muchos recursos y los sistemas más accesibles pero menos potentes.

por ejemplo, una pequeña empresa emergente de tecnología médica quiere desarrollar una herramienta de diagnóstico basada en inteligencia artificial para clínicas rurales. utilizando la destilación de modelos, la empresa puede entrenar un modelo compacto que capture gran parte del poder de diagnóstico de un modelo más grande y que solo necesite ejecutarse en una computadora portátil o tableta estándar.

por lo tanto, la destilación de modelos puede permitir que entornos con recursos limitados disfruten de funciones complejas de ia, lo que podría mejorar el nivel de atención médica en áreas desatendidas.