c'est à nouveau vivant ! la version améliorée d'openai « her » est officiellement ouverte, surpassant la mise à niveau « de qualité production » de gemini...

2024-09-25

auteur｜jessica

aujourd'hui est vraiment une journée animée dans le cercle de l'ia comme on n'en a pas vu depuis longtemps !

j'ai été confus par l'essai sur l'ia publié par ultraman hier, et maintenant l'intention de son opération est claire.

ultraman veut attaquer son vieil ennemi google pour être plus précis, ce sont les deux modèles gemini améliorés que google vient de mettre à jour aujourd'hui : gemini-1.5-pro-002 et gemini-1.5-flash-002.

la méthode de sniping est simple et grossière : annoncer directement que la très attendue fonction vocale gpt sera officiellement ouverte aujourd'hui.

en moins de deux heures, google a été arraché au moment fort durement gagné de google. si j'étais google, je serais tellement en colère.

la voix avancée gpt est là, parlant plus de 50 langues

openai a déclaré que le mode vocal avancé de chatgpt serait progressivement déployé cette semaine pour tous les utilisateurs plus et team.

pendant que les gens attendent patiemment, l'équipe a amélioré certaines fonctionnalités, notamment l'ajout de commandes personnalisées, de fonctions de mémoire, de 5 nouvelles voix et d'accents améliorés.

comme on en parle depuis trop longtemps, openai a fait une déclaration particulière : "il peut dire 'désolé, je suis en retard' dans plus de 50 langues."

et donne un exemple de passage de l'anglais au mandarin : « grand-mère, je suis désolé, je suis en retard. je ne voulais pas te faire attendre si longtemps, comment puis-je te dédommager ?

——bon gars, maintenant tu es devenue la grand-mère de gpt, me forçant à te pardonner.

comme on peut le voir dans la vidéo, le mode vocal est désormais représenté par une sphère bleue palpitante, plutôt que par le point noir animé qu'openai a utilisé lors de la démonstration de la technologie en mai.

lorsque l'accès est accordé, une invite apparaîtra dans l'application. il sera d'abord ouvert aux utilisateurs de niveau plus et teams, et sera étendu aux utilisateurs d'entreprise et d'éducation à partir de la semaine prochaine.

chatgpt ajoute également cinq nouvelles voix pour l'expérience : arbor, maple, sol, spruce et vale. à ce stade, plus les précédents breeze, juniper, cove et ember, le nombre total de voix chatgpt a atteint 9 (le numéro de voix gemini live de google est 10).

vous avez peut-être également remarqué que ces noms sont tous inspirés par la nature, de « érable » et « brise » à « soleil » et « vallée », peut-être pour rendre l'utilisation plus naturelle. sky était une voix absente, la voix présentée par openai lors de son lancement au printemps, mais qui a été retirée en raison d'un différend juridique avec scarlett johansson, la star du film "her".

openai a également étendu certaines fonctionnalités de personnalisation de chatgpt à des modes vocaux avancés, notamment une fonctionnalité de « commande personnalisée » qui permet aux utilisateurs de personnaliser les réponses et une fonctionnalité de mémoire qui permet à chatgpt de mémoriser les conversations pour référence future.

par exemple, dans la vidéo ci-dessous, dans le menu chatgpt personnalisé des paramètres système, saisissez "je m'appelle charlotte et j'habite dans la région de la baie de san francisco". lorsqu'on lui pose des questions sur les activités de plein air du week-end, gpt appellera l'utilisateur charlotte, fournit des recommandations adaptées à la météo et au trafic locaux.

openai a déclaré que l'équipe avait amélioré la vitesse de réponse, la maîtrise et les accents de certaines langues étrangères. la voix s'adapte au ton de la conversation et vous pouvez créer des scènes qui l'incitent à assumer différents rôles. le retard sonore est très faible et la compréhension est plus forte. on a vraiment l'impression d'avoir une conversation naturelle avec une autre personne.

cependant, les fonctions de partage de vidéo et d'écran présentées par openai il y a quatre mois n'ont pas été mises à jour cette fois-ci. à cette époque, le personnel a interrogé gpt sur les problèmes mathématiques sur papier et les codes sur l'écran de l'ordinateur, et a obtenu des réponses en temps réel grâce à un dialogue vocal naturel. actuellement, openai n'a pas fourni de calendrier de déploiement pour cette fonctionnalité multimodale.

de plus, le mode vocal avancé n'est temporairement pas ouvert à l'union européenne, au royaume-uni, à la suisse, à l'islande, à la norvège, au liechtenstein et à d'autres régions.

malgré cela, pouvoir enfin se familiariser avec la version openai de "elle" est en effet une chose passionnante pour les personnes qui en ont assez du cercle de l'ia. couplé à l'o1-preview qui vient de créer une vague d'engouement, openai a fermement contrôlé l'industrie pendant encore une semaine.

cette excitation a également fait souffrir tout le monde d’amnésie intermittente :

au fait, qu’a publié google aujourd’hui ?

gemini 1.5 met à niveau deux nouveaux modèles, le prix est réduit de moitié et la vitesse est augmentée

cette fois, la mise à jour de google est en fait très importante, du moins pour les développeurs.

selon google blog, cette fois, ils ont mis à jour deux modèles gemini de production : gemini-1.5-pro-002 et gemini-1.5-flash-002. le soi-disant « niveau de production » signifie que le modèle d'ia a été entièrement développé, testé et optimisé et qu'il est prêt pour un déploiement commercial. il peut gérer un grand nombre de demandes d'utilisateurs et être appliqué aux services de produits, pas seulement pour. expériences ou recherches.

en tant que mise à niveau majeure des modèles de la série gemini 1.5 dévoilés lors de la conférence i/o en mai de cette année, les nouveaux modèles sont plus rapides, plus puissants et plus rentables.

les principaux faits marquants sont résumés comme suit :

1. réduction significative des prix : les prix d'entrée et de sortie de la 1.5 pro ont baissé d'environ 50 %, réduisant considérablement le coût de construction, en particulier pour les pourboires inférieurs à 128 000 jetons.

2. amélioration globale de la qualité : l'amélioration des performances en mathématiques, en génération de code, en contexte de texte long et dans les tâches visuelles est particulièrement significative, notamment une augmentation d'environ 20 % dans les tests de référence tels que math et hiddenmath, et une augmentation de 2 % à 7 % dans les applications visuelles et de code.

3. augmentation de la limite de débit : la limite de débit de 1,5 flash et 1,5 pro a été augmentée de 1 000 tr/min (requêtes par minute) et 360 tr/min à 2 000 tr/min et 1 000 tr/min respectivement, permettant aux développeurs de créer et de traiter des tâches plus rapidement.

4. sortie plus rapide et latence plus faible : la vitesse de sortie est augmentée de 2 fois et la latence est réduite de 3 fois, permettant ainsi de prendre en charge des scénarios d'application plus efficaces.

5. réponses plus concises : le style de réponse est plus concis, moins coûteux et la longueur du résultat est raccourcie de 5 à 20 %. cela réduit également le nombre de rejets et d'évitements sur de nombreux sujets et maintient une grande utilité.

6. prise en charge multimodale et de contexte long : la fenêtre contextuelle longue de 2 millions de jetons de 1.5 pro prend en charge le traitement de textes longs et de tâches multimodales, telles que la génération de contenu de pdf de 1 000 pages ou de longues vidéos.

7. paramètres de filtrage mis à jour : le filtre de sécurité par défaut du modèle n'est plus automatiquement appliqué et les développeurs peuvent personnaliser les paramètres de sécurité du modèle selon leurs besoins.

les développeurs peuvent accéder gratuitement aux deux derniers modèles via google ai studio et l'api gemini. le nouveau modèle est également disponible sur vertex ai pour les grandes organisations et les clients google cloud.

les gémeaux enveloppés dans l’ombre du gpt

cependant, par rapport à leurs pairs, de nombreux utilisateurs ordinaires ont exprimé leur déception face à la décision de google, estimant qu'il ne s'agissait même pas d'une véritable « version ».

bindu reddy, pdg d'abacus.ai et blogueur bien connu, a déclaré : « hélas, openai a publié o1 qui a réussi le test de qi, tandis que google vient de faire quelques mises à jour mineures à gemini 1.5. ils disposent de 100 fois plus de ressources, 10 fois plus de talents et 10 fois plus de talents. fois le de toutes choses, comment cela a-t-il pu arriver ?

bien que certains développeurs parlent encore au nom de google, par exemple, un internaute du forum de discussion reddit a déclaré :

"ce sont des choses utiles pour les personnes qui créent réellement des applications et essaient de réduire les coûts et d'augmenter les profits. l'application sur laquelle je travaille a un coût fixe par opération, déterminé par la longueur du jeton, ce qui fait que mon profit est d'environ 30 % de plus. cela ne signifie peut-être pas grand-chose pour la plupart des gens. je sais que beaucoup de gens seront en colère contre cette "annonce" de google - mais c'est en fait une bonne mise à jour pour les développeurs.

le prix est réduit de moitié, la vitesse est augmentée et le délai est réduit. c'est effectivement ce que souhaitent les développeurs. mais comme tout le monde l’a dit, l’attrait pourrait être limité à la communauté des développeurs.

même certains développeurs se sont moqués : « je ne vois pas de comparaison avec claude ou o1, et nous sommes sur le point d'inaugurer la prochaine génération de modèles openai et anthropic. deepmind a en fait des modèles bien supérieurs, mais ils s'adressent directement aux entreprises. contourner la volkswagen. le gemini est-il impressionnant ? pas du tout, tout simplement décevant.

la mauvaise dénomination des modèles par google a également été ridiculisée par les internautes, qui l'ont trouvée longue et déroutante.

the information a récemment publié un article intitulé « pourquoi les développeurs d'ia ignorent le gemini de google ». à travers des entretiens avec plusieurs fondateurs de sociétés d'ia et des employés internes de google, il raconte comment gemini a été « abandonné » par les développeurs et les obstacles et difficultés qu'il a rencontrés pour rattraper chatgpt.

par exemple, comparé aux technologies concurrentes, appeler gemini est trop complexe pour les développeurs et les entreprises. le fondateur de topology, aidan mclaughlin, a déclaré que la première fois qu'il a utilisé l'api d'openai n'a pris que 30 secondes, tandis que l'utilisation de gemini a pris 4 heures. dans le même temps, les performances des grands modèles de google se classent derrière openai et anthropic, et cela ne vaut pas la peine de surmonter ces obstacles.

comparée à chatgpt, l’impopularité de gemini parmi les développeurs semble être un secret de polichinelle dans le monde réel.

une enquête menée en juin auprès de plus de 750 employés technologiques par la start-up de logiciels d'entreprise retool a révélé que seulement 2,6 % des personnes interrogées ont déclaré utiliser le plus souvent gemini pour créer des applications d'ia, et plus de 76 % ont choisi d'utiliser gpt.

les données de trafic du site web suivies par similarweb montrent qu'entre juin et août, la page des développeurs d'applications d'openai a reçu 82,8 millions de pages vues, tandis que les pages vues de google ont été de 8,4 millions de fois.

de plus petites enquêtes informelles fournissent des preuves similaires. à la fin du mois dernier, le fondateur de finetune, julian saks, a demandé à 50 développeurs de startups d'ia dans son espace de coworking à san francisco quels modèles d'ia conversationnelle ils utilisent le plus. presque tout le monde a déclaré utiliser principalement des modèles d'anthropic ou d'openai, et personne n'a mentionné gemini.

bien que le modèle gemini soit utile pour analyser de longs documents ou de longues bases de code, de nombreux développeurs affirment que les options de modèle de google sont diverses, que les étapes sont complexes et que le système de développement est différent de celui d'openai et plus difficile à utiliser. et parfois, les différents services de google se font concurrence dans ses propres résultats de recherche, ce qui permet aux utilisateurs de se retrouver facilement bloqués en essayant de comprendre les outils.

les gémeaux sont souvent moqués sur x pour cette raison. brendan dolan-gavitt, chercheur en ia chez xbow, une start-up de sécurité, est devenu viral plus tôt ce mois-ci lorsqu'il a publié un tweet détaillant les nombreuses étapes qu'il a suivies pour démarrer avec gemini via vertex. d'autres développeurs ont profité de la section commentaires pour exprimer leur sympathie.

dans un environnement où « les plus grands ingénieurs du monde utilisent openai, claude ou cursor », les développeurs n'ont vraiment pas besoin d'essayer autre chose. d’un autre côté, la baisse d’utilisation ne permettra pas à gemini d’obtenir autant de retours de données que chatgpt, ce qui obligera google à se retrouver face à une feuille de route plus ambiguë pour améliorer le modèle.

déception car les gens attendent tellement de google

google tente de changer cette perception, notamment en répondant aux critiques de gemini sur x, en réunissant sous son aile davantage d'experts techniques de premier plan issus d'entreprises telles qu'openai et en fusionnant certaines fonctions de développement qui se chevauchent. ils font également la promotion de gemini en organisant des événements pour les développeurs.

aujourd'hui, parallèlement au lancement de gemini-1.5-pro-002, il existe également un événement en ligne pour gemini for work. google consacre beaucoup d'espace à la promotion des cas d'application actuels de gemini auprès d'entreprises telles que best buy, snap, ups capital, wayfair, etc. il semblerait qu'ils tentent d'attirer davantage de grandes entreprises clientes en fournissant un certain degré de services « gants blancs ».

mais face à une part de marché bien établie, la contre-attaque de google pourrait ne pas être si simple.

logan kilpatrick, chef de produit chez ai studio, qui était responsable des relations avec les développeurs chez openai avant de le rejoindre en avril de cette année, a déclaré : « la réalité est qu'openai est en avance sur google en termes d'outils de développement d'api llm. efforts de développement actuels parmi les développeurs qui luttent pour une part de marché bien établie.

plus tôt, rowan cheung, un blogueur bien connu dans le cercle de l'ia, avait prédit qu'il avait terminé une interview sur une mise à niveau majeure du modèle d'ia. aujourd'hui, les développeurs auront un grand jour.

sous ce tweet, l’expression souriante de logan kilpatrick semblait un peu gênée au milieu d’un grand nombre de regrets disant « pourquoi n’est-ce pas claude opus 3.5 ?

conservateur, controversé et à la traîne sont les stéréotypes que google, le géant de l'ia, a laissé aujourd'hui dans la communauté. le lancement de gemini-1.5-pro-002 ne semble pas sortir de cette impasse.

la déception des gens à l'égard de cette entreprise vient des attentes élevées à son égard : avec une telle force et une telle réserve de talents, il serait dommage que tout le monde ne soit pas en mesure de fournir au monde davantage d'options de « remplacement » pour openai.

nouvelles

c'est à nouveau vivant ! la version améliorée d'openai « her » est officiellement ouverte, surpassant la mise à niveau « de qualité production » de gemini...

introduction

mes coordonnées