2024-10-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
autor dieses artikels: li dan
am dienstag, dem 1. oktober, eastern time, veranstaltete openai seine jährliche entwicklerkonferenz devday. auf der diesjährigen konferenz gab es keine größeren produktveröffentlichungen. sie war zurückhaltender als die konferenz im letzten jahr, aber openai verteilte auch mehrere große „geschenkpakete“. entwickler“, die verbesserungen an bestehenden tools und api-suiten für künstliche intelligenz (ki) vornehmen.
dieser openai devday stellt eine reihe neuer tools vor, darunter vier wichtige innovationen: prompt caching, vision fine-tuning, realtime api und model distillation. er bringt gute nachrichten für entwickler in bezug auf kosten, verbesserung des visuellen verständnisniveaus von modellen und verbesserung sprach-ki-funktionen und kleine modellleistung.
in einigen kommentaren hieß es, dass der schwerpunkt des diesjährigen devday darauf liege, die fähigkeiten von entwicklern zu verbessern und die geschichten des entwicklerkreises zu präsentieren, was zeigt, dass sich die strategie von openai geändert habe, da der wettbewerb im ki-bereich immer härter werde. die oben genannten neuen tools unterstreichen den strategischen fokus von openai auf der stärkung seines entwickler-ökosystems, anstatt direkt bei endbenutzeranwendungen zu konkurrieren.
einige medien erwähnten, dass kevin weil, chief product officer von openai, auf der pressekonferenz vor der devday-veranstaltung über die jüngsten abgänge von mira murati, chief technology officer von openai, und bob mcgrew, chief research officer von openai, sprach und sagte, dass ihr abgang keinen einfluss auf die entwicklung des unternehmens haben würde. wir tun es nicht. es wird langsamer.“
prompt caching kann die kosten für eingabe-token um bis zu 50 % senken
prompt word caching gilt als das wichtigste update, das an diesem devday veröffentlicht wurde. diese funktion soll die entwicklerkosten senken und die latenz reduzieren.
das von openai eingeführte prompt-word-caching-system bietet automatisch einen rabatt von 50 % auf die kürzlich vom modell verarbeiteten eingabe-tokens, was zu erheblichen einsparungen bei anwendungen führen kann, die den kontext häufig wiederverwenden. solche drastischen kostensenkungen bieten unternehmen und start-ups erhebliche möglichkeiten, neue anwendungen zu erkunden, die zuvor aufgrund unerschwinglicher kosten unerreichbar waren.
olivier godement, produktmanager der openai-plattform, sagte, dass gpt-3 vor zwei jahren ein großer erfolg war und openai die damit verbundenen kosten nun um fast das tausendfache gesenkt habe. er konnte kein anderes beispiel nennen, bei dem die kosten innerhalb von zwei jahren um den gleichen betrag gesenkt worden wären.
das folgende openai-diagramm zeigt, dass das schnelle zwischenspeichern von wörtern die kosten für die anwendung von ki-modellen erheblich senken kann. im vergleich zu nicht zwischengespeicherten token verschiedener bip-modelle können die kosten für das zwischenspeichern von eingabetokens um bis zu 50 % gesenkt werden.
vision fine-tuning: die neue grenze der visuellen ki
openai devday gab bekannt, dass das neueste large language model (llm) gpt-4o von openai eine visuelle feinabstimmung einführt. mit dieser funktion können entwickler das visuelle verständnis ihrer modelle mit bildern und text anpassen.
dies ist ein großes update, das als die neue grenze der visuellen ki bekannt ist. es könnte weitreichende auswirkungen auf bereiche wie selbstfahrende autos, medizinische bildgebung und visuelle suchfunktionen haben.
laut openai hat grab, die südostasiatische version von meituan + didi, die technologie genutzt, um seine kartendienste zu verbessern. anhand von nur 100 beispielen verbesserte grab die genauigkeit der spurzählung um 20 % und die position von geschwindigkeitsbegrenzungsschildern um 13 %.
diese reale app demonstriert die möglichkeiten der visuellen feinabstimmung mithilfe kleiner mengen visueller trainingsdaten, um ki-dienste in einer vielzahl von branchen erheblich zu verbessern.
die echtzeit-api schließt die lücke im bereich der konversations-ki
openai devday hat die echtzeit-api veröffentlicht, die sich derzeit in der öffentlichen betaphase befindet. die echtzeit-api vereinfacht von natur aus den prozess der erstellung von sprachassistenten und anderen konversations-ki-tools und macht das zusammenfügen mehrerer modelle für transkription, inferenz und text-in-sprache-konvertierung überflüssig.
dieses neue produkt ermöglicht entwicklern die erstellung multimodaler erlebnisse mit geringer latenz, insbesondere in speech-to-speech-apps. dies bedeutet, dass entwickler damit beginnen können, die sprachsteuerung von chatgpt in apps einzubauen.
um das potenzial der api zu veranschaulichen, stellte openai eine aktualisierte version von wanderlust vor, einer reiseplanungs-app, die es letztes jahr auf der konferenz vorgestellt hatte.
mithilfe der echtzeit-api können benutzer direkt mit der neuen version der app kommunizieren und natürliche gespräche führen, um ihre reiseroute zu planen. das system ermöglicht es benutzern sogar, mitten im satz zu unterbrechen und so ein menschliches gespräch nachzuahmen.
reiseplanung ist nur ein beispiel, echtzeit-apis eröffnen vielfältige möglichkeiten für voice-apps in verschiedenen branchen. unabhängig davon, ob sie sich auf kundenservice, bildung oder barrierefreiheitstools für menschen mit behinderungen spezialisiert haben, können entwickler jetzt neue ressourcen nutzen, um intuitivere und reaktionsfähigere ki-gesteuerte erlebnisse zu schaffen.
einige apps, darunter die ernährungs- und fitness-coaching-app healthify und die sprachlernplattform speak, haben bereits die führung bei der integration von echtzeit-apis in ihre produkte übernommen.
in kommentaren heißt es, dass die echtzeit-api mit 0,06 us-dollar pro minute für die audioeingabe und 0,24 us-dollar pro minute für die audioausgabe nicht billig ist, aber dennoch ein erhebliches wertversprechen für entwickler darstellen kann, die sprachbasierte apps erstellen möchten.
durch die modelldestillation können kleine modelle über hochmoderne modellfunktionen verfügen
die modelldestillation gilt dieses mal als das transformativste neue tool von openai. dieser integrierte workflow ermöglicht es entwicklern, relativ kleine und kostengünstige universitätsmodelle zu optimieren, indem sie die ausgabe modernster modelle wie gpt o1-preview und gpt-4o nutzen und so effizientere modelle wie gpt-4o mini verbessern leistung.
dieser ansatz ermöglicht es kleineren unternehmen, ähnliche funktionen wie modernste modelle zu nutzen, ohne dass die rechenkosten für die verwendung solcher modelle anfallen. es trägt dazu bei, die lücke zu schließen, die die ki-branche seit langem zwischen hochmodernen, ressourcenintensiven systemen und zugänglicheren, aber weniger leistungsstarken systemen hat.
beispielsweise möchte ein kleines startup in der medizintechnik ein ki-gesteuertes diagnosetool für ländliche kliniken entwickeln. mithilfe der modelldestillation kann das unternehmen ein kompaktes modell trainieren, das einen großteil der diagnoseleistung eines größeren modells erfasst, während es nur auf einem standard-laptop oder -tablet ausgeführt werden muss.
daher kann die modelldestillation es ressourcenbeschränkten umgebungen ermöglichen, komplexe ki-funktionen zu nutzen und so möglicherweise das niveau der medizinischen versorgung in unterversorgten gebieten zu verbessern.