mi información de contacto
correo[email protected]
2024-10-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
autor|sukhoi
editor|wang bo
con la salida de los ejecutivos y la retirada de apple de las negociaciones de financiación, esta es sin duda una semana tumultuosa para openai. pero openai sigue insistiendo en convencer a los desarrolladores para que creen aplicaciones utilizando sus modelos de ia.
el 1 de octubre, hora local de estados unidos, openai celebró el devday en san francisco. a diferencia del gran evento del año pasado, el evento de este año fue más discreto y se convirtió en una gira para desarrolladores.
esta vez, openai no está lanzando un producto importante, sino que está trabajando en productos existentes.aiherramientas yapiel kit se ha mejorado progresivamente.
anunciaron cuatro innovaciones:ajuste de visión, en tiempo realapi(api en tiempo real), destilación de modelos y almacenamiento en caché rápido.
por ejemplo, la versión beta pública de la api en tiempo real permite a los desarrolladores crear aplicaciones que pueden generar rápidamente respuestas de voz de ia. esta nueva tecnología no solo responde rápidamente, sino que también proporciona seis opciones de sonido diferentes. todos los sonidos son desarrollados por el propio openai, evitando problemas de derechos de autor de terceros. esta api no "copia" el modo de voz avanzado de chatgpt, pero la funcionalidad es básicamente similar.
romain huet, director de experiencia para desarrolladores de openai, también demostró cómo usar o1 para crear una aplicación para iphone ios con un mensaje en aproximadamente 30 segundos.
yute demuestra la creación de aplicaciones ios para iphone. crédito de la imagen: x de romain huet
en los últimos dos años, openai ha reducido el costo para los desarrolladores de acceder a su api en un 99% en respuesta a la presión del mercado por parte de competidores como meta y google. y a partir del contexto de la nueva herramienta, podemos descubrir,la estrategia de openai favorece fortalecer su ecosistema de desarrolladores en lugar de competir directamente en aplicaciones de usuario final.
antes del evento, el director de productos de openai, kevin weil, mencionó que la directora de tecnología, mira murati, y el director de investigación, bob mcgrew.la renuncia no afectará el desarrollo a largo plazo de la empresa.dijo que a pesar de los "frecuentes cambios de personal", openai todavía puede "mantener el impulso de desarrollo".
mientras grupos tecnológicos como google y apple se apresuran a ofrecer a los consumidores los llamados agentes de inteligencia artificial,openai piensaaiel asistente "se generalizará" el próximo año.las capacidades de los asistentes de ia, incluido el razonamiento y la realización de tareas complejas, se han convertido en el último campo de batalla para las empresas de tecnología, cada una de las cuales espera aprovechar esta tecnología en rápido desarrollo para desarrollar flujos de ingresos.
"se espera que los métodos de interacción de la ia puedan cubrir todas las formas en que interactúan los humanos", dijo weir, "el desarrollo de sistemas de agentes hará posible esta interacción". los métodos que contiene, ya sea comunicación verbal, expresión emocional o comunicación no verbal, etc., hacen que la interacción entre los humanos y la ia sea lo más natural y fluida posible.
además de openai, otras empresas como microsoft, salesforce y workday también están colocando las capacidades de los agentes en el centro de sus planes de ia, mientras que google y meta también han declarado que la integración de modelos de ia en sus productos es un área de enfoque clave para ellos.
el año pasado, openai lanzó su "api de asistentes" para permitir a los desarrolladores crear agentes utilizando su tecnología. pero también revelaron que los planes se vieron obstaculizados por la funcionalidad limitada de los primeros modelos.
weill mencionó que las mejoras en el pensamiento y el razonamiento proporcionadas por los últimos modelos de openai se reflejarán en sus productos, como chatgpt, y en las startups y desarrolladores que crean aplicaciones utilizando su api, pero no dijo si desarrollarán inmediatamente las suyas propias. agente de ia.
openai demostró una conversación en vivo con un sistema de inteligencia artificial encargado de ayudar a encontrar y comprar productos disponibles localmente. por ejemplo, si compra fresas, la ia llamará al comerciante para realizar un pedido de acuerdo con las instrucciones del usuario.
demostración de la compra de fresas por parte de la ia según indicaciones fuente de la imagen: x de ken collins.
openai enfatiza que cualquiera que utilice la tecnología debe dejar en claro que es una ia, no un ser humano, y que solo proporciona a los desarrolladores opciones preestablecidas limitadas, no la capacidad de crear nuevos sonidos.
"si lo hacemos bien, tendremos más tiempo para dedicar a lo que es importante y menos tiempo mirando nuestros teléfonos", dijo ware.
1. almacenamiento en caché de sugerencias: un salvador para los presupuestos de los desarrolladores
la función "hint cache" es uno de los lanzamientos más importantes de este evento y se utiliza para reducir costos y latencia para los desarrolladores.
muchos desarrolladores que crean aplicaciones de ia reutilizan el mismo contexto en múltiples llamadas api, como cuando editan una base de código o mantienen una conversación larga y de varios turnos con un chatbot. la caché de sugerencias aplica automáticamente un descuento del 50% al token de entrada procesado más recientemente por el modelo al reutilizar el token de entrada visto más recientemente.
los tokens de entrada almacenados en caché pueden ahorrar hasta un 50 % en comparación con los tokens no almacenados en caché en varios modelos de gpt. fuente de la imagen: openai
disponibilidad y precios de la caché de sugerencias a partir de hoy, la caché de sugerencias se aplicará automáticamente a las últimas versiones de gpt-4o, gpt-4o mini, o1-preview y o1-mini, así como a las versiones optimizadas de estos modelos. las sugerencias almacenadas en caché ofrecen un descuento en comparación con las sugerencias no almacenadas en caché.
las llamadas api a modelos compatibles se beneficiarán automáticamente del almacenamiento en caché de mensajes, para mensajes de más de 1024 tokens. el prefijo más largo de sugerencias calculado antes del caché de api, comenzando en la marca 1024 y en incrementos de 128 marcas. si un usuario utiliza con frecuencia sugerencias con prefijos comunes, openai aplicará automáticamente el descuento en caché de sugerencias sin que el usuario necesite realizar ningún cambio en la integración de api.
el caché generalmente se borra después de 5 a 10 minutos de inactividad y siempre se elimina dentro de una hora después del último uso del caché. como todos los servicios api, tip caching está sujeto al compromiso de privacidad corporativo de opai. la caché de sugerencias no se comparte entre organizaciones.
la importante reducción de costes ofrece oportunidades para que varias empresas desarrollen nuevas aplicaciones que antes eran demasiado costosas de implementar.
olivier godement, líder de producto de la plataforma openai, habló en una pequeña conferencia de prensa en la sede de openai en san francisco: "hemos estado muy ocupados. hace dos años, gpt-3 lideraba la tecnología en su clase, pero ahora hemos logrado casi 1.000- reducción de costos relacionados”. dijo con orgullo que no pudo encontrar ninguna otra tecnología que hubiera logrado una escala similar de reducción de costos en solo dos años.
2. ajuste visual: la nueva frontera de la ia visual
otro gran anuncio es la introducción de capacidades de ajuste visual en el último modelo de lenguaje a gran escala de openai, gpt-4o. los desarrolladores pueden ajustar no sólo el texto sino también las imágenes, lo que podría transformar áreas como los vehículos autónomos, las imágenes médicas y las capacidades de búsqueda visual.
desde la introducción del ajuste de texto, cientos de miles de desarrolladores han aprovechado conjuntos de datos de solo texto para optimizar modelos y mejorar el rendimiento en tareas específicas. pero en muchos casos, el ajuste del texto por sí solo no satisface todas las necesidades. a través del ajuste visual, los desarrolladores pueden optimizar el modelo gpt-4o simplemente cargando al menos 100 imágenes para mejorar su rendimiento en tareas de visión, especialmente cuando se procesan grandes cantidades de texto e imágenes.
grab, la empresa líder en transporte compartido y entrega de alimentos del sudeste asiático, ya ha aprovechado la tecnología para mejorar sus servicios de mapeo, según openai. usando solo 100 ejemplos, grab mejoró la precisión del conteo de carriles en un 20 % y la precisión de la ubicación de las señales de límite de velocidad en un 13 %.
ejemplo de una señal de límite de velocidad marcada con éxito por el modelo de ajuste visual gpt-4o fuente de la imagen: openai.
automat utiliza un ajuste visual para entrenar a gpt-4o para que reconozca elementos de la interfaz de usuario en la pantalla, basándose en un conjunto de datos de capturas de pantalla, mejorando así la tasa de éxito de sus herramientas de automatización. de esta forma, la tasa de éxito del agente robot de automat aumentó del 16,60% al 61,67%.
el robot de escritorio identifica con éxito los centros de elementos de la interfaz de usuario mediante un ajuste visual mediante capturas de pantalla del sitio web, fuente: openai
las aplicaciones de ajuste visual en el mundo real demuestran las posibilidades del ajuste visual para mejorar significativamente los servicios de ia en una variedad de industrias utilizando pequeños lotes de datos de entrenamiento visual.
la función de ajuste visual ahora está disponible para todos los usuarios de pago y es compatible con el último modelo gpt-4o. los desarrolladores pueden aprovechar estas capacidades para ampliar los conjuntos de datos de entrenamiento existentes para el ajuste de imágenes. además, openai ofrece 1 millón de tokens de formación gratuitos por día hasta el 31 de octubre de 2024. las tarifas por perfeccionar el entrenamiento y la inferencia se ajustarán más adelante.
3. api en tiempo real: cerrando la brecha entre la ia conversacional
la api en tiempo real se encuentra actualmente en versión beta pública. permite a los desarrolladores crear experiencias multimodales de baja latencia, especialmente en aplicaciones de voz a voz. esto significa que los desarrolladores pueden empezar a agregar los controles de voz de chatgpt a sus aplicaciones.
para ilustrar el potencial de la api, openai demostró una versión actualizada de wanderlust, una aplicación de planificación de viajes que se mostró en la conferencia del año pasado.
con la ayuda de la api en tiempo real, los usuarios pueden hablar directamente con la aplicación y planificar su viaje de forma conversacional natural. el sistema incluso permite interrupciones durante el habla, imitando la conversación humana.
healthify es una aplicación de entrenamiento en nutrición y fitness que utiliza api en tiempo real para permitir conversaciones naturales con ia. fuente de la imagen: openai
si bien la planificación de viajes es sólo un ejemplo, las api en tiempo real abren una amplia gama de posibilidades para aplicaciones de voz en una variedad de industrias. desde servicio al cliente hasta herramientas educativas y de accesibilidad, los desarrolladores ahora cuentan con nuevos y poderosos recursos para crear experiencias impulsadas por ia más intuitivas y receptivas.
"cada vez que diseñamos un producto, básicamente pensamos tanto en startups como en empresas al mismo tiempo", explicó goldment. "así que en la fase alfa, tenemos muchas empresas que utilizan api, así como nuevos modelos para nuevos productos".
la api en tiempo real esencialmente simplifica el proceso de creación de asistentes de voz y otras herramientas de inteligencia artificial conversacional, eliminando la necesidad de unir múltiples modelos para la transcripción, la inferencia y la conversión de texto a voz.
los primeros usuarios, como la aplicación de entrenamiento de nutrición y fitness healthify y la plataforma de aprendizaje de idiomas speak, han integrado api en tiempo real en sus productos. las api tienen el potencial de crear experiencias de usuario más naturales y atractivas en áreas que van desde la atención sanitaria hasta la educación.
la estructura de precios de la api en tiempo real, aunque no es barata ($0,06 por minuto de entrada de audio, $0,24 por minuto de salida de audio), todavía representa una propuesta de valor significativa para los desarrolladores que buscan crear aplicaciones basadas en voz.
4. destilación de modelos: hacia una ia más accesible
quizás el anuncio más transformador de esto sea la introducción del modelo de destilación.
su flujo de trabajo integrado permite a los desarrolladores utilizar la salida de modelos avanzados como o1-preview y gpt-4o para mejorar el rendimiento de modelos más eficientes como gpt-4o mini. las pequeñas empresas también pueden utilizar características similares de modelos avanzados sin preocuparse por afrontar los costos informáticos.
demostración de ajuste, fuente: openai
la destilación de modelos aborda la brecha de larga data que existe en la industria de la ia entre sistemas de vanguardia que consumen muchos recursos y sistemas más accesibles pero menos potentes.
digamos que una pequeña empresa emergente de tecnología médica está desarrollando una herramienta de diagnóstico de inteligencia artificial para clínicas rurales. utilizando la destilación de modelos, el equipo puede entrenar un modelo pequeño que puede ejecutarse en una computadora portátil o tableta estándar y capturar la mayoría de los diagnósticos del modelo más grande. .
esto puede llevar capacidades sofisticadas de ia a entornos con recursos limitados para mejorar los resultados de la atención médica en áreas desatendidas.
no es difícil ver en esta actualización que openai ha realizado un cambio estratégico importante: centrándose más en el desarrollo del ecosistema en lugar de simplemente perseguir lanzamientos de productos llamativos, aunque la estrategia puede no ser tan directa al público como el producto. lanzamientos.
en comparación con el emocionante día del desarrollador de 2023, que lanzó la tienda gpt y las herramientas gpt personalizadas, el evento de este año es mucho más discreto. los rápidos cambios en el campo de la ia, junto con avances significativos de los competidores y las crecientes preocupaciones sobre la disponibilidad de datos de entrenamiento, han llevado a openai a centrarse más en perfeccionar las herramientas existentes y mejorar las capacidades de los desarrolladores para hacer frente a estos cambios.
al mejorar la eficiencia del modelo y reducir los costos, openai espera mantener su ventaja sobre la competencia feroz y abordar cuestiones de intensidad de recursos e impacto ambiental. el éxito de openai dependerá en gran medida de su capacidad para cultivar eficazmente un ecosistema de desarrolladores vibrante.
referencias:
"presentación de la api en tiempo real", openai
《presentación de la visión para el ajuste fino de la api》,openai
《almacenamiento en caché rápido en la api》,openai
《destilación de modelos en la api》openai
《devday 2024 de openai: 4 actualizaciones importantes que harán que la ia sea más accesible y asequible》,venturebeat
《devday de openai ofrece api en tiempo real y otras ventajas para los desarrolladores de aplicaciones de ia》,techcrunch
(fuente de la imagen de portada: openai)