2024-10-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
auteur de cet article : li dan
le mardi 1er octobre, heure de l'est, openai a tenu sa conférence annuelle des développeurs, devday. la conférence de cette année n'a pas comporté de versions de produits majeures. elle a été plus discrète que celle de l'année dernière, mais openai a également distribué plusieurs gros « paquets cadeaux ». développeurs. », apportant des améliorations aux outils d’intelligence artificielle (ia) et aux suites api existants.
cet openai devday lance une série de nouveaux outils, dont quatre innovations majeures : prompt caching, vision fine-tuning, realtime api et model distillation. il apporte de bonnes nouvelles aux développeurs en termes de coût, améliorant le niveau de compréhension visuelle des modèles, améliorant ainsi le niveau de compréhension visuelle des modèles. fonctions d'ia vocale et performances des petits modèles.
certains commentaires indiquent que l'objectif du devday de cette année est d'améliorer les capacités des développeurs et de présenter les histoires du cercle des développeurs, ce qui montre qu'à mesure que la concurrence dans le domaine de l'ia devient de plus en plus féroce, la stratégie d'openai a changé. les nouveaux outils ci-dessus mettent en évidence l'orientation stratégique d'openai sur le renforcement de son écosystème de développeurs plutôt que sur la concurrence directe dans les applications des utilisateurs finaux.
certains médias ont mentionné que lors de la conférence de presse précédant l'événement devday, le directeur des produits d'openai, kevin weil, a évoqué les récents départs de la directrice de la technologie d'openai, mira murati, et du directeur de la recherche, bob mcgrew, affirmant que leur départ n'affecterait pas le développement de l'entreprise. nous ne le faisons pas. cela va ralentir."
la mise en cache rapide peut réduire les coûts des jetons d'entrée jusqu'à 50 %
la mise en cache des mots rapides est considérée comme la mise à jour la plus importante publiée ce devday. cette fonctionnalité est conçue pour réduire les coûts de développement et réduire la latence.
le système de mise en cache des mots rapides introduit par openai offre automatiquement une remise de 50 % sur les jetons d'entrée récemment traités par le modèle, ce qui peut entraîner des économies significatives pour les applications qui réutilisent fréquemment le contexte. de telles réductions de coûts drastiques offrent aux entreprises et aux startups d’importantes opportunités d’explorer de nouvelles applications qui étaient auparavant hors de portée en raison de coûts prohibitifs.
olivier godement, chef de produit de la plateforme openai, a déclaré que gpt-3 a été un grand succès il y a deux ans et qu'openai a désormais réduit les coûts associés de près de 1 000 fois. il ne pouvait citer aucun autre exemple où les coûts auraient été réduits du même montant en deux ans.
le graphique openai suivant montre que la mise en cache des mots rapides peut réduire considérablement le coût d'application des modèles d'ia. par rapport aux jetons non mis en cache de divers modèles gdp, le coût de la mise en cache des jetons d'entrée peut être réduit jusqu'à 50 %.
vision fine-tuning : la nouvelle frontière de l’ia visuelle
openai devday a annoncé que le dernier grand modèle de langage (llm) d'openai, gpt-4o, introduit un réglage visuel précis. cette fonctionnalité permet aux développeurs de personnaliser la compréhension visuelle de leurs modèles avec des images et du texte.
il s’agit d’une mise à jour majeure connue comme la nouvelle frontière de l’ia visuelle. cela pourrait avoir des conséquences considérables dans des domaines tels que les voitures autonomes, l’imagerie médicale et les capacités de recherche visuelle.
openai a déclaré que grab, la version asiatique du sud-est de meituan + didi, avait utilisé cette technologie pour améliorer ses services de cartographie. en utilisant seulement 100 exemples, grab a amélioré la précision du comptage des voies de 20 % et l'emplacement des panneaux de limitation de vitesse de 13 %.
cette application concrète démontre les possibilités de réglage visuel, à l'aide de petits lots de données d'entraînement visuel, pour améliorer considérablement les services d'ia dans divers secteurs.
l'api en temps réel comble le fossé de l'ia conversationnelle
openai devday a publié l'api en temps réel, qui est actuellement en phase bêta publique. l'api en temps réel simplifie intrinsèquement le processus de création d'assistants vocaux et d'autres outils d'ia conversationnelle, éliminant ainsi le besoin d'assembler plusieurs modèles pour la transcription, l'inférence et la conversion texte-parole.
ce nouveau produit permet aux développeurs de créer des expériences multimodales à faible latence, notamment dans les applications de synthèse vocale. cela signifie que les développeurs peuvent commencer à ajouter les commandes vocales de chatgpt dans les applications.
pour illustrer le potentiel de l'api, openai a présenté une version mise à jour de wanderlust, une application de planification de voyages présentée lors de la conférence de l'année dernière.
grâce à l'api en temps réel, les utilisateurs peuvent parler directement à la nouvelle version de l'application et avoir des conversations naturelles pour planifier leur itinéraire. le système permet même aux utilisateurs d'interrompre au milieu d'une phrase, imitant une conversation humaine.
la planification des voyages n'est qu'un exemple. les api en temps réel ouvrent un large éventail de possibilités pour les applications vocales dans divers secteurs. qu'ils soient spécialisés dans le service client, l'éducation ou les outils d'accessibilité pour les personnes handicapées, les développeurs peuvent désormais profiter de nouvelles ressources pour créer des expériences plus intuitives et réactives basées sur l'ia.
certaines applications, notamment l'application de coaching nutritionnel et fitness healthify et la plateforme d'apprentissage des langues speak, ont déjà pris les devants en intégrant des api en temps réel dans leurs produits.
les commentaires indiquent que l'api en temps réel n'est pas bon marché, facturant 0,06 $ par minute d'entrée audio et 0,24 $ par minute de sortie audio, mais elle peut néanmoins représenter une proposition de valeur importante pour les développeurs cherchant à créer des applications vocales.
la distillation du modèle permet aux petits modèles d'avoir des fonctions de modèle de pointe
la distillation de modèles est cette fois considérée comme le nouvel outil le plus transformateur d’openai. ce flux de travail intégré permet aux développeurs d'affiner des modèles universitaires relativement petits et rentables en utilisant la sortie de modèles de pointe tels que gpt o1-preview et gpt-4o, améliorant ainsi des modèles plus efficaces tels que gpt-4o mini. performance.
cette approche permet aux petites entreprises de profiter de capacités similaires aux modèles de pointe sans encourir les coûts de calcul liés à l'utilisation de tels modèles. cela permet de combler le fossé que l'industrie de l'ia a longtemps eu entre les systèmes de pointe et gourmands en ressources et les systèmes plus accessibles mais moins puissants.
par exemple, une petite startup du secteur de la technologie médicale souhaite développer un outil de diagnostic basé sur l’ia pour les cliniques rurales. grâce à la distillation de modèles, l'entreprise peut former un modèle compact qui capture une grande partie de la puissance de diagnostic d'un modèle plus grand tout en ne devant être exécuté que sur un ordinateur portable ou une tablette standard.
par conséquent, la distillation de modèles peut permettre aux environnements aux ressources limitées de bénéficier de fonctions d’ia complexes, améliorant potentiellement le niveau de soins médicaux dans les zones mal desservies.