¡está animado otra vez! la versión mejorada de openai "her" está oficialmente abierta, superando la actualización de "grado de producción" de gemini...

2024-09-25

autor｜jessica

¡hoy es un día realmente animado en el círculo de la ia que no se había visto en mucho tiempo!

me confundí con el ensayo de inteligencia artificial publicado ayer por ultraman, y ahora la intención de su operación es clara.

ultraman quiere atacar a su antiguo enemigo google. para ser más precisos, son los dos modelos gemini actualizados que google acaba de actualizar hoy: gemini-1.5-pro-002 y gemini-1.5-flash-002.

el método de francotirador es simple y tosco: anunciar directamente que la tan esperada función de voz gpt se inaugurará oficialmente hoy.

en menos de dos horas, google fue arrebatado del momento destacado que tanto le costó ganar. si yo fuera google, estaría muy enojado.

la voz avanzada de gpt ya está aquí y habla más de 50 idiomas

openai dijo que el modo de voz avanzado de chatgpt se implementará gradualmente para todos los usuarios plus y team esta semana.

mientras la gente espera pacientemente, el equipo ha mejorado algunas funciones, incluida la adición de comandos personalizados, funciones de memoria, 5 voces nuevas y acentos mejorados.

como se ha hablado de ello durante demasiado tiempo, openai hizo una declaración especial: "puede decir 'lo siento, llego tarde' en más de 50 idiomas".

y ponga un ejemplo de cambio del inglés al mandarín: "abuela, lo siento, llego tarde. no era mi intención hacerte esperar tanto, ¿cómo puedo compensarte?".

——buen chico, ahora te has convertido en la abuela de gpt, lo que me obliga a perdonarte.

como se puede ver en el vídeo, el modo de voz ahora está representado por una esfera azul pulsante, en lugar del punto negro animado que utilizó openai cuando demostró la tecnología en mayo.

cuando se conceda el acceso, aparecerá un mensaje emergente dentro de la aplicación. se abrirá primero para usuarios de nivel plus y teams, y se extenderá a usuarios empresariales y educativos a partir de la próxima semana.

chatgpt también agrega cinco nuevas voces para la experiencia: arbor, maple, sol, spruce y vale. en este punto, además de los anteriores breeze, juniper, cove y ember, el número total de voces chatgpt ha llegado a 9 (el número de voces de gemini live de google es 10).

también habrás notado que todos estos nombres están inspirados en la naturaleza, desde "arce" y "brisa" hasta "sol" y "valle", tal vez para que el uso parezca más natural. una voz que estuvo ausente fue sky, la voz que openai mostró en su lanzamiento de primavera pero que fue retirada debido a una disputa legal con scarlett johansson, la estrella de la película "her".

openai también ha ampliado algunas de las funciones de personalización de chatgpt a modos de voz avanzados, incluida una función de "comando personalizado" que permite a los usuarios personalizar las respuestas y una función de memoria que permite a chatgpt recordar conversaciones para referencia futura.

por ejemplo, en el vídeo a continuación, en el menú personalizado de chatgpt de la configuración del sistema, ingrese "mi nombre es charlotte y vivo en el área de la bahía de san francisco". cuando se le pregunte sobre las actividades al aire libre de fin de semana, gpt llamará al usuario charlotte. proporciona recomendaciones que coinciden con el clima y el tráfico locales.

openai dijo que el equipo ha mejorado la velocidad de respuesta, la fluidez y el acento en algunos idiomas extranjeros. la voz se ajusta al tono de la conversación y puedes crear escenas que la impulsen a asumir diferentes roles. el retraso del sonido es muy bajo y la comprensión es más fuerte. realmente se siente como tener una conversación natural con otra persona.

sin embargo, las funciones de vídeo y uso compartido de pantalla que openai demostró hace cuatro meses no se han actualizado esta vez. en ese momento, el personal preguntó a gpt sobre los problemas matemáticos en papel y los códigos en la pantalla de la computadora, y obtuvo respuestas en tiempo real a través de un diálogo de voz natural. actualmente, openai no ha proporcionado un cronograma de implementación para esta función multimodal.

además, el modo de voz avanzado no está disponible temporalmente para la unión europea, el reino unido, suiza, islandia, noruega, liechtenstein y otras regiones.

a pesar de esto, finalmente poder probar la versión openai de "ella" es realmente algo emocionante para las personas que se han cansado del círculo de la ia. junto con la vista previa de o1 que acaba de crear una ola de locura, openai ha controlado firmemente la industria durante una semana más.

esta emoción también hizo que todos sufrieran de amnesia intermitente:

por cierto, ¿qué publicó google hoy?

gemini 1.5 actualiza dos nuevos modelos, el precio se reduce a la mitad y se aumenta la velocidad

la actualización de google esta vez es realmente muy importante, al menos para los desarrolladores.

según google blog, esta vez han actualizado dos modelos gemini de producción: gemini-1.5-pro-002 y gemini-1.5-flash-002. el llamado "nivel de producción" significa que el modelo de ia ha sido completamente desarrollado, probado y optimizado, y está listo para su implementación comercial. puede manejar una gran cantidad de solicitudes de los usuarios y aplicarse a servicios de productos, no solo para uso. experimentos o investigaciones.

como una importante actualización de los modelos de la serie gemini 1.5 presentados en la conferencia i/o en mayo de este año, los nuevos modelos son más rápidos, más potentes y más rentables.

los principales aspectos destacados se resumen en:

1. reducción de precio significativa: los precios de entrada y salida de 1.5 pro han caído aproximadamente un 50 %, lo que reduce significativamente el costo de construcción, especialmente para puntas de menos de 128 000 tokens.

2. mejora general de la calidad: especialmente la mejora del rendimiento en matemáticas, generación de código, contexto de texto largo y tareas visuales es significativa, incluido un aumento de aproximadamente el 20 % en pruebas de referencia como math y hiddenmath, y un aumento del 2 % al 7 %. en aplicaciones visuales y de código.

3. aumento del límite de velocidad: el límite de velocidad de 1.5 flash y 1.5 pro se ha aumentado de 1000 rpm (solicitudes por minuto) y 360 rpm a 2000 rpm y 1000 rpm respectivamente, lo que permite a los desarrolladores crear y procesar tareas más rápido.

4. salida más rápida y menor latencia: la velocidad de salida aumenta 2 veces y la latencia se reduce 3 veces, lo que brinda soporte para escenarios de aplicaciones más eficientes.

5. respuestas más concisas: el estilo de respuesta es más conciso, menos costoso y la duración del resultado se reduce entre un 5% y un 20%. también reduce la cantidad de rechazos y evasiones en muchos temas y mantiene una alta utilidad.

6. soporte multimodal y de contexto largo: la ventana de contexto largo de 2 millones de tokens de 1.5 pro admite el procesamiento de texto largo y tareas multimodales, como la generación de contenido de archivos pdf de 1000 páginas o videos largos.

7. configuración de filtrado actualizada: el filtro de seguridad predeterminado del modelo ya no se aplica automáticamente y los desarrolladores pueden personalizar la configuración de seguridad del modelo según sea necesario.

los desarrolladores pueden acceder a los dos últimos modelos de forma gratuita a través de google ai studio y la api gemini. el nuevo modelo también está disponible en vertex ai para grandes organizaciones y clientes de google cloud.

géminis envuelto en la sombra de gpt

sin embargo, en comparación con sus pares, muchos usuarios comunes y corrientes expresaron su decepción con la medida de google, considerando que ni siquiera se trataba de un verdadero "lanzamiento".

el director ejecutivo de abacus.ai y conocido bloguero bindu reddy dijo: "por desgracia, openai lanzó o1 que pasó la prueba de coeficiente intelectual, mientras que google acaba de realizar algunas actualizaciones menores a gemini 1.5. tienen 100 veces más recursos, 10 veces más talento y 10 veces más talento". veces el de todas las cosas, ¿cómo pudo suceder esto?

aunque algunos desarrolladores todavía hablan en nombre de google, por ejemplo, un internauta en el foro de discusión de reddit dijo:

"estas son cosas útiles para las personas que realmente están creando aplicaciones y tratando de reducir costos y aumentar las ganancias. la aplicación en la que estoy trabajando tiene un costo fijo por operación, determinado por la longitud del token, lo que hace que mis ganancias sean aproximadamente un 30% más. puede que esto no signifique mucho para la mayoría de la gente. sé que mucha gente se enfadará con este "anuncio" de google, pero en realidad es una buena actualización para los desarrolladores".

el precio se reduce a la mitad, se aumenta la velocidad y se reduce el retraso. esto es de hecho lo que quieren los desarrolladores. pero como todos dijeron, el atractivo puede limitarse a la comunidad de desarrolladores.

incluso algunos desarrolladores se burlaron: "no veo la comparación con claude u o1, y estamos a punto de marcar el comienzo de la próxima generación de modelos openai y anthropic. deepmind en realidad tiene modelos muy superiores, pero van directamente a la línea empresarial. pasando por alto al volkswagen. ¿es el gemini impresionante? en absoluto, simplemente decepcionante”.

la mala denominación de los modelos por parte de google también fue ridiculizada por los internautas, quienes pensaron que era larga y confusa.

the information publicó recientemente un artículo titulado "por qué los desarrolladores de ia se están saltando el gemini de google". a través de entrevistas con varios fundadores de empresas de inteligencia artificial y empleados internos de google, cuenta la historia de cómo los desarrolladores "abandonaron" a gemini y los obstáculos y dificultades que encontró para ponerse al día con chatgpt.

por ejemplo, en comparación con las tecnologías de la competencia, llamar a gemini es demasiado complejo para desarrolladores y empresas. el fundador de topology, aidan mclaughlin, dijo que la primera vez que usó la api de openai le llevó sólo 30 segundos, mientras que usar gemini le llevó 4 horas. al mismo tiempo, el rendimiento del modelo grande de google está detrás de openai y anthropic, y no vale la pena superar estos obstáculos.

en comparación con chatgpt, la impopularidad de gemini entre los desarrolladores parece ser un secreto a voces en el mundo real.

una encuesta de junio de más de 750 empleados de tecnología realizada por la startup de software empresarial retool encontró que solo el 2,6% de los encuestados dijeron que usan gemini con mayor frecuencia para crear aplicaciones de inteligencia artificial, y más del 76% elige usar gpt.

los datos de tráfico del sitio web rastreados por similarweb muestran que entre junio y agosto, la página del desarrollador de aplicaciones de openai recibió 82,8 millones de páginas vistas, mientras que las páginas vistas de google fueron 8,4 millones de veces.

encuestas informales más pequeñas proporcionan evidencia similar. a finales del mes pasado, el fundador de finetune, julian saks, preguntó a 50 desarrolladores de startups de ia en su espacio de coworking en san francisco qué modelos de ia conversacionales utilizan más. casi todo el mundo dijo que utiliza principalmente modelos de anthropic u openai, y nadie mencionó a gemini.

aunque el modelo gemini es útil al analizar documentos extensos o bases de código extensas, muchos desarrolladores dicen que las opciones del modelo de google son diversas, los pasos son complejos y el sistema de desarrollo es diferente del de openai y más difícil de usar. y a veces, los diferentes servicios de google compiten entre sí en sus propios resultados de búsqueda, lo que facilita que las personas se queden atascadas tratando de descubrir las herramientas.

a menudo se burlan de géminis en x por esta razón. brendan dolan-gavitt, investigador de inteligencia artificial en la startup de seguridad xbow, se volvió viral a principios de este mes cuando publicó un tweet que detalla los numerosos pasos que tomó para comenzar con gemini a través de vertex. otros desarrolladores acudieron a la sección de comentarios para expresar su simpatía.

en un entorno donde "los principales ingenieros del mundo utilizan openai, claude o cursor", los desarrolladores realmente no necesitan probar nada más. por otro lado, la disminución en el uso no permitirá a gemini obtener tanta retroalimentación de datos como chatgpt, lo que hará que google enfrente una hoja de ruta más ambigua para mejorar el modelo.

decepción porque la gente espera tanto de google

google está tratando de cambiar esta percepción, incluso respondiendo a las críticas a gemini en x, incorporando bajo su protección a más expertos técnicos estrella de empresas como openai y fusionando algunas funciones de desarrollo superpuestas. también promocionan gemini organizando eventos para desarrolladores.

hoy, simultáneamente con el lanzamiento de gemini-1.5-pro-002, también hay un evento en línea para gemini for work. google dedica mucho espacio a promover los casos de aplicación actuales de gemini en empresas como best buy, snap, ups capital. wayfair, etc. se informa que están intentando atraer más clientes corporativos grandes proporcionando un cierto grado de servicios de "guante blanco".

pero ante una cuota de mercado arraigada, el contraataque de google puede no ser tan fácil.

logan kilpatrick, líder de producto en ai studio, quien fue responsable de las relaciones con los desarrolladores en openai antes de unirse en abril de este año, dijo: "la realidad es que openai está por delante de google en términos de herramientas para desarrolladores de api llm. tenemos que competir con sus esfuerzos de desarrollo actuales entre los desarrolladores. luchando por una participación de mercado afianzada ".

anteriormente, rowan cheung, un conocido bloguero en el círculo de la ia, predijo que había completado una entrevista sobre una importante actualización del modelo de ia. hoy, los desarrolladores tendrán un gran día.

debajo de ese tweet, la expresión sonriente de logan kilpatrick parecía un poco avergonzada en medio de una gran cantidad de arrepentimientos que decían "¿por qué no es claude opus 3.5?"

conservadores, controvertidos y rezagados son los estereotipos que google, el gigante de la ia, ha dejado hoy en la comunidad. el lanzamiento de gemini-1.5-pro-002 no parece romper este punto muerto.

la decepción de la gente con esta empresa se debe a las grandes expectativas puestas en ella: con una fuerza y una reserva de talento tan fuertes, sería una lástima que todos no pudieran ofrecer al mundo más opciones "sustitutivas" para openai.

noticias

¡está animado otra vez! la versión mejorada de openai "her" está oficialmente abierta, superando la actualización de "grado de producción" de gemini...

introducción

mi información de contacto