2024-10-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
auteur|sukhoi
editeur|wang bo
avec le départ des dirigeants et le retrait d’apple des négociations de financement, c’est sans aucun doute une semaine tumultueuse pour openai. mais openai insiste toujours pour convaincre les développeurs de créer des applications en utilisant leurs modèles d’ia.
le 1er octobre, heure locale des états-unis, openai a organisé le devday à san francisco. contrairement au grand événement de l'année dernière, celui de cette année a été plus discret et s'est transformé en une tournée de présentation pour les développeurs.
cette fois, openai ne lance pas de produit majeur, mais travaille plutôt sur des produits existants.iades outils etapile kit a été progressivement amélioré.
ils ont dévoilé quatre innovations :vision fine-tuning, en temps réelapi(api en temps réel), distillation du modèle et mise en cache des invites.
par exemple, la version bêta publique de l'api en temps réel permet aux développeurs de créer des applications capables de générer rapidement des réponses vocales ia. cette nouvelle technologie est non seulement rapide à réagir, mais offre également six options sonores différentes. les sons sont tous développés par openai lui-même, évitant ainsi les problèmes de droits d'auteur de tiers. cette api ne « copie » pas le mode vocal avancé de chatgpt, mais la fonctionnalité est fondamentalement similaire.
romain huet, directeur de l'expérience développeur d'openai, a également démontré comment utiliser o1 pour créer une application iphone ios avec une invite en 30 secondes environ.
yute démontre la création d'applications iphone ios. crédit image : x par romain huet
au cours des deux dernières années, openai a réduit de 99 % le coût d’accès des développeurs à son api en réponse à la pression du marché de concurrents tels que meta et google. et dans le contexte du nouvel outil, nous pouvons découvrir,la stratégie d'openai privilégie le renforcement de son écosystème de développeurs plutôt que la concurrence directe dans les applications des utilisateurs finaux.
avant l'événement, kevin weil, directeur des produits d'openai, a mentionné que la directrice de la technologie mira murati et le directeur de la recherche bob mcgrewla démission n'affectera pas le développement à long terme de l'entreprise.il a déclaré que malgré les « changements fréquents de personnel », openai peut toujours « maintenir la dynamique de développement ».
alors que des groupes technologiques comme google et apple s'empressent de déployer des agents dits d'intelligence artificielle auprès des consommateurs,openai penseiaassistant "deviendra grand public" l'année prochaine.les capacités des assistants ia, notamment le raisonnement et l’exécution de tâches complexes, sont devenues le dernier champ de bataille des entreprises technologiques, chacune espérant exploiter cette technologie en développement rapide pour développer des sources de revenus.
"on espère que les méthodes d'interaction de l'ia pourront couvrir toutes les façons dont les humains interagissent." weir a déclaré : "le développement de systèmes d'agents rendra cette interaction possible." en bref, laissez l'ia être capable d'imiter ou de reproduire la communication et l'interaction humaines. les méthodes qu'il contient, qu'il s'agisse de communication verbale, d'expression émotionnelle ou de communication non verbale, etc., rendent l'interaction entre les humains et l'ia aussi naturelle et transparente que possible.
outre openai, d'autres sociétés telles que microsoft, salesforce et workday placent également les capacités des agents au cœur de leurs plans d'ia, tandis que google et meta ont également déclaré que l'intégration de modèles d'ia dans leurs produits était pour eux un domaine d'intérêt clé.
l'année dernière, openai a publié son « api assistants » pour permettre aux développeurs de créer des agents utilisant sa technologie. mais ils ont également révélé que les projets étaient entravés par les fonctionnalités limitées des premiers modèles.
weill a mentionné que les améliorations de la réflexion et du raisonnement apportées par les derniers modèles d'openai se refléteront dans ses produits, tels que chatgpt, ainsi que dans les startups et les développeurs qui créent des applications à l'aide de son api, mais n'a pas précisé s'ils développeraient immédiatement les leurs. agent ia.
openai a démontré une conversation en direct avec un système d'ia chargé d'aider à trouver et à acheter des produits disponibles localement. par exemple, si vous achetez des fraises, l’ia appellera alors le commerçant pour passer une commande selon les instructions de l’utilisateur.
démonstration de l'ia achetant des fraises en fonction d'invites. source de l'image : x de ken collins.
openai souligne que quiconque utilise cette technologie doit indiquer clairement qu'il s'agit d'une ia, et non d'un être humain, et qu'elle ne fournit aux développeurs que des options prédéfinies limitées, et non la possibilité de créer de nouveaux sons.
"si nous le faisons correctement, nous aurons plus de temps pour nous concentrer sur ce qui est important et moins de temps à regarder nos téléphones", a déclaré ware.
1. tip caching : un sauveur pour les budgets des développeurs
la fonctionnalité « hint cache » est l'un des lancements les plus importants de cet événement et est utilisée pour réduire les coûts et la latence pour les développeurs.
de nombreux développeurs créant des applications d'ia réutilisent le même contexte dans plusieurs appels d'api, par exemple lors de la modification d'une base de code ou d'une longue conversation à plusieurs tours avec un chatbot. le cache d'indices applique automatiquement une remise de 50 % au jeton d'entrée le plus récemment traité par le modèle en réutilisant le jeton d'entrée vu le plus récemment.
la mise en cache des jetons d'entrée peut permettre d'économiser jusqu'à 50 % par rapport aux jetons non mis en cache dans divers modèles gpt. source de l'image : openai
disponibilité et tarifs du cache d'indices à partir d'aujourd'hui, le cache d'indices s'appliquera automatiquement aux dernières versions de gpt-4o, gpt-4o mini, o1-preview et o1-mini, ainsi qu'aux versions affinées de ces modèles. les conseils mis en cache offrent une réduction par rapport aux conseils non mis en cache.
les appels d'api vers les modèles pris en charge bénéficieront automatiquement de la mise en cache des invites, pour les invites de plus de 1 024 jetons. le préfixe d'indices le plus long calculé avant le cache api, commençant à la marque 1024 et par incréments de 128 marques. si un utilisateur utilise fréquemment des indices avec des préfixes communs, openai appliquera automatiquement la réduction du cache d'indices sans que l'utilisateur ait besoin d'apporter des modifications à l'intégration de l'api.
le cache est généralement vidé après 5 à 10 minutes d'inactivité et est toujours supprimé dans l'heure suivant la dernière utilisation du cache. comme tous les services api, tip caching est soumis à l'engagement de confidentialité d'entreprise d'opai. le cache de pourboires n’est pas partagé entre les organisations.
la réduction significative des coûts offre à diverses entreprises la possibilité de développer de nouvelles applications qui étaient auparavant trop coûteuses à mettre en œuvre.
olivier godement, chef de produit de la plateforme openai, s'est exprimé lors d'une petite conférence de presse au siège d'openai à san francisco : « nous avons été très occupés. il y a deux ans, gpt-3 était à la pointe de la technologie dans sa catégorie. une réduction de plusieurs fois des coûts associés. » il a déclaré fièrement qu’il n’avait trouvé aucune autre technologie ayant permis une réduction des coûts similaire en seulement deux ans.
2. le réglage visuel : la nouvelle frontière de l’ia visuelle
une autre annonce importante est l’introduction de capacités de réglage visuel dans le dernier modèle de langage à grande échelle d’openai, gpt-4o. les développeurs peuvent affiner non seulement le texte mais aussi les images, ce qui pourrait transformer des domaines tels que les voitures autonomes, l'imagerie médicale et les capacités de recherche visuelle.
depuis l'introduction du réglage fin du texte, des centaines de milliers de développeurs ont exploité des ensembles de données contenant uniquement du texte pour optimiser les modèles afin d'améliorer les performances sur des tâches spécifiques. mais dans de nombreux cas, la mise au point du texte ne suffit pas à elle seule à répondre à tous les besoins. grâce à un réglage visuel précis, les développeurs peuvent optimiser le modèle gpt-4o en téléchargeant simplement au moins 100 images pour améliorer ses performances dans les tâches de vision, en particulier lors du traitement de grandes quantités de données texte et image.
grab, la principale entreprise de livraison de nourriture et de covoiturage d'asie du sud-est, a déjà exploité cette technologie pour améliorer ses services de cartographie, selon openai. en utilisant seulement 100 exemples, grab a amélioré la précision du comptage des voies de 20 % et la précision de la localisation des panneaux de limitation de vitesse de 13 %.
exemple de panneau de limitation de vitesse marqué avec succès par le modèle de réglage visuel gpt-4o source de l'image : openai.
automat utilise un réglage visuel pour entraîner gpt-4o à reconnaître les éléments de l'interface utilisateur à l'écran, sur la base d'un ensemble de données de captures d'écran, améliorant ainsi le taux de réussite de ses outils d'automatisation. ainsi, le taux de réussite de l'agent robot d'automat est passé de 16,60 % à 61,67 %.
le robot de bureau identifie avec succès les centres des éléments de l'interface utilisateur grâce à un réglage visuel à l'aide de captures d'écran de sites web, source : openai
les applications concrètes de réglage visuel démontrent les possibilités du réglage visuel pour améliorer considérablement les services d'ia dans une variété d'industries en utilisant de petits lots de données de formation visuelle.
la fonction de réglage visuel est désormais disponible pour tous les utilisateurs payants et prend en charge le dernier modèle gpt-4o. les développeurs peuvent exploiter ces fonctionnalités pour étendre les ensembles de données de formation existants afin d’affiner les images. de plus, openai propose 1 million de jetons de formation gratuits par jour jusqu'au 31 octobre 2024. les frais de mise au point de la formation et de l'inférence seront ajustés ultérieurement.
3. api en temps réel : combler le fossé entre l'ia conversationnelle
l'api en temps réel est actuellement en version bêta publique. il permet aux développeurs de créer des expériences multimodales à faible latence, en particulier dans les applications de synthèse vocale. cela signifie que les développeurs peuvent commencer à ajouter les commandes vocales de chatgpt à leurs applications.
pour illustrer le potentiel de l'api, openai a présenté une version mise à jour de wanderlust, une application de planification de voyages présentée lors de la conférence de l'année dernière.
grâce à l'api en temps réel, les utilisateurs peuvent parler directement à l'application et planifier leur voyage de manière conversationnelle naturelle. le système permet même des interruptions pendant la parole, imitant une conversation humaine.
healthify est une application de coaching nutritionnel et fitness qui utilise des api en temps réel pour permettre des conversations naturelles avec l'ia. source de l'image : openai
si la planification des voyages n'est qu'un exemple, les api en temps réel ouvrent un large éventail de possibilités pour les applications vocales dans divers secteurs. du service client aux outils d’éducation et d’accessibilité, les développeurs disposent désormais de nouvelles ressources puissantes pour créer des expériences plus intuitives et réactives basées sur l’ia.
"chaque fois que nous concevons un produit, nous pensons à la fois aux startups et aux entreprises", a expliqué goldment. "ainsi, dans la phase alpha, nous avons de nombreuses entreprises qui utilisent des api, ainsi que de nouveaux modèles pour de nouveaux produits."
l'api en temps réel simplifie essentiellement le processus de création d'assistants vocaux et d'autres outils d'ia conversationnelle, éliminant ainsi le besoin d'assembler plusieurs modèles pour la transcription, l'inférence et la conversion texte-parole.
les premiers utilisateurs, tels que l'application de coaching nutritionnel et fitness healthify et la plateforme d'apprentissage des langues speak, ont intégré des api en temps réel dans leurs produits. les api ont le potentiel de créer des expériences utilisateur plus naturelles et plus engageantes dans des domaines allant de la santé à l'éducation.
la structure tarifaire de l'api en temps réel, même si elle n'est pas bon marché (0,06 $ par minute d'entrée audio, 0,24 $ par minute de sortie audio), représente néanmoins une proposition de valeur importante pour les développeurs cherchant à créer des applications vocales.
4. distillation modèle : vers une ia plus accessible
l’annonce la plus transformatrice est peut-être l’introduction de la distillation modèle.
son flux de travail intégré permet aux développeurs d'utiliser la sortie de modèles avancés tels que o1-preview et gpt-4o pour améliorer les performances de modèles plus efficaces tels que gpt-4o mini. les petites entreprises peuvent également utiliser des fonctionnalités similaires de modèles avancés sans se soucier des coûts informatiques.
démo de mise au point, source : openai
la distillation des modèles comble le fossé de longue date de l’industrie de l’ia entre les systèmes de pointe et gourmands en ressources et les systèmes plus accessibles mais moins puissants.
supposons qu'une petite startup de technologie médicale développe un outil de diagnostic d'ia pour les cliniques rurales. en utilisant la distillation de modèles, l'équipe peut former un petit modèle pouvant fonctionner sur un ordinateur portable ou une tablette standard et capturer la majorité des diagnostics du modèle plus grand. .
cela peut apporter des capacités d’ia sophistiquées dans des contextes aux ressources limitées afin d’améliorer les résultats des soins de santé dans les zones mal desservies.
il n'est pas difficile de voir à partir de cette mise à jour qu'openai a opéré un changement stratégique important - en se concentrant davantage sur le développement de l'écosystème plutôt que de simplement poursuivre des lancements de produits accrocheurs, même si la stratégie n'est peut-être pas aussi directe envers le public que le produit. lance.
comparé à la passionnante journée des développeurs de 2023, qui a lancé la boutique gpt et les outils gpt personnalisés, l'événement de cette année est beaucoup plus discret. les changements rapides dans le domaine de l'ia, associés aux progrès significatifs des concurrents et aux inquiétudes croissantes concernant la disponibilité des données de formation, ont incité openai à se concentrer davantage sur le perfectionnement des outils existants et sur l'amélioration des capacités des développeurs pour faire face à ces changements.
en améliorant l'efficacité du modèle et en réduisant les coûts, openai espère conserver son avantage sur une concurrence féroce et résoudre les problèmes d'intensité des ressources et d'impact environnemental. le succès d'openai dépendra fortement de sa capacité à cultiver efficacement un écosystème de développeurs dynamique.
références :
《présentation de l'api en temps réel》,openai
《présentation de la vision de l'api de réglage fin》,openai
《mise en cache des invites dans l'api》,openai
《modèle de distillation dans l'api》openai
《devday 2024 d'openai : 4 mises à jour majeures qui rendront l'ia plus accessible et abordable》,venturebeat
《le devday d'openai apporte une api en temps réel et d'autres avantages pour les développeurs d'applications d'ia》,techcrunch
(source de l'image de couverture : openai)