2024-10-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
autor|suchoi
herausgeber|wang bo
da führungskräfte das unternehmen verlassen und apple sich aus den finanzierungsverhandlungen zurückzieht, ist dies zweifellos eine turbulente woche für openai. aber openai besteht immer noch darauf, entwickler davon zu überzeugen, anwendungen mit ihren ki-modellen zu erstellen.
am 1. oktober, ortszeit in den vereinigten staaten, veranstaltete openai den devday in san francisco. im gegensatz zur großen veranstaltung im letzten jahr war die diesjährige veranstaltung eher zurückhaltend und wurde zu einer roadshow für entwickler.
dieses mal bringt openai kein großes produkt auf den markt, sondern arbeitet stattdessen an bestehenden produktenkiwerkzeuge undapidas kit wurde schrittweise verbessert.
sie stellten vier innovationen vor:vision fine-tuning, echtzeitapi(echtzeit-api), modelldestillation und prompt-caching.
mit der öffentlichen betaversion der echtzeit-api können entwickler beispielsweise anwendungen erstellen, die schnell ki-sprachantworten generieren können. diese neue technologie reagiert nicht nur schnell, sondern bietet auch sechs verschiedene soundoptionen. die sounds werden alle von openai selbst entwickelt, wodurch urheberrechtsprobleme dritter vermieden werden. diese api „kopiert“ nicht den erweiterten sprachmodus von chatgpt, die funktionalität ist jedoch grundsätzlich ähnlich.
romain huet, director of developer experience bei openai, demonstrierte außerdem, wie man mit o1 eine iphone-ios-anwendung mit einer eingabeaufforderung in etwa 30 sekunden erstellt.
yute demonstriert die erstellung von iphone-ios-anwendungen. bildquelle: x von romain huet
in den letzten zwei jahren hat openai als reaktion auf den marktdruck von wettbewerbern wie meta und google die kosten für entwickler für den zugriff auf seine api um 99 % gesenkt. und aus dem kontext des neuen tools können wir herausfinden:die strategie von openai besteht darin, sein entwickler-ökosystem zu stärken, anstatt direkt bei endbenutzeranwendungen zu konkurrieren.
vor der veranstaltung erwähnte kevin weil, chief product officer von openai, mira murati, chief technology officer, und bob mcgrew, chief research officerder rücktritt wird die langfristige entwicklung des unternehmens nicht beeinträchtigen.er sagte, dass openai trotz „häufiger personalwechsel“ immer noch „die entwicklungsdynamik aufrechterhalten“ könne.
während technologiekonzerne wie google und apple darum wetteifern, den verbrauchern so genannte künstliche intelligenz-agenten zur verfügung zu stellen,openai denktkiassistant wird nächstes jahr „zum mainstream“ werden.die fähigkeiten von ki-assistenten, einschließlich der argumentation und der erledigung komplexer aufgaben, sind zum neuesten schlachtfeld für technologieunternehmen geworden, die alle hoffen, diese sich schnell entwickelnde technologie zur erschließung von einnahmequellen zu nutzen.
„es besteht die hoffnung, dass die interaktionsmethoden der ki alle arten der menschlichen interaktion abdecken können.“ kurz gesagt: „die entwicklung von agentensystemen wird diese interaktion ermöglichen.“ , sei es verbale kommunikation, emotionaler ausdruck oder nonverbale kommunikation usw., machen sie die interaktion zwischen mensch und ki so natürlich und nahtlos wie möglich.
neben openai stellen auch andere unternehmen wie microsoft, salesforce und workday agentenfähigkeiten in den mittelpunkt ihrer ki-pläne, während google und meta ebenfalls erklärt haben, dass die integration von ki-modellen in ihre produkte ein zentraler schwerpunkt ist ihnen.
letztes jahr veröffentlichte openai seine „assistants api“, um entwicklern die erstellung von agenten mithilfe seiner technologie zu ermöglichen. sie zeigten aber auch, dass die pläne durch die eingeschränkte funktionalität früher modelle behindert wurden.
weill erwähnte, dass sich die durch die neuesten modelle von openai erzielten verbesserungen im denken und denken in seinen produkten wie chatgpt sowie in den startups und entwicklern widerspiegeln werden, die anwendungen mithilfe seiner api erstellen, sagte jedoch nicht, ob sie sofort eigene entwickeln werden. ki-agent.
openai demonstrierte ein live-gespräch mit einem ki-system, das dabei helfen soll, lokal verfügbare produkte zu finden und zu kaufen. wenn sie beispielsweise erdbeeren kaufen, ruft die ki anschließend den händler an, um gemäß den anweisungen des benutzers eine bestellung aufzugeben.
demonstration des ki-kaufs von erdbeeren basierend auf eingabeaufforderungen. bildquelle: ken collins’ x
openai betont, dass jeder, der die technologie nutzt, deutlich machen muss, dass es sich um eine ki und nicht um einen menschen handelt und dass sie entwicklern nur begrenzte voreinstellungsoptionen bietet, nicht aber die möglichkeit, neue sounds zu erstellen.
„wenn wir es richtig machen, haben wir mehr zeit für das wesentliche und müssen weniger auf unsere telefone starren“, sagte ware.
1. tipp-caching: eine rettung für entwicklerbudgets
die „hinweis-cache“-funktion ist eine der wichtigsten neuerungen dieser veranstaltung und dient dazu, kosten und latenz für entwickler zu reduzieren.
viele entwickler, die ki-anwendungen erstellen, verwenden denselben kontext über mehrere api-aufrufe hinweg wieder, beispielsweise beim bearbeiten einer codebasis oder bei einer langen, mehrstufigen konversation mit einem chatbot. der hint-cache wendet automatisch einen rabatt von 50 % auf das vom modell zuletzt verarbeitete eingabe-token an, indem das zuletzt gesehene eingabe-token wiederverwendet wird.
durch das zwischenspeichern von eingabetokens können in verschiedenen gpt-modellen im vergleich zu nicht zwischengespeicherten token bis zu 50 % kosten eingespart werden. bildquelle: openai
verfügbarkeit und preise des hinweiscaches ab heute gilt der hinweiscache automatisch für die neuesten versionen von gpt-4o, gpt-4o mini, o1-preview und o1-mini sowie für fein abgestimmte versionen dieser modelle. zwischengespeicherte tipps bieten einen rabatt im vergleich zu nicht zwischengespeicherten tipps.
api-aufrufe an unterstützte modelle profitieren automatisch von der zwischenspeicherung von eingabeaufforderungen, wenn eingabeaufforderungen länger als 1024 token sind. das längste präfix von hinweisen, das vor dem api-cache berechnet wurde, beginnend bei markierung 1024 und schritten von 128 markierungen. wenn ein benutzer häufig hinweise mit gemeinsamen präfixen verwendet, wendet openai automatisch den hinweis-cache-rabatt an, ohne dass der benutzer änderungen an der api-integration vornehmen muss.
der cache wird normalerweise nach 5 bis 10 minuten inaktivität geleert und immer innerhalb einer stunde nach der letzten nutzung des caches entfernt. wie alle api-dienste unterliegt tip caching der corporate privacy commitment von opai. der trinkgeld-cache wird nicht zwischen organisationen geteilt.
die deutliche kostensenkung bietet verschiedenen unternehmen die möglichkeit, neue anwendungen zu entwickeln, deren implementierung bisher zu kostspielig war.
olivier godement, produktleiter der openai-plattform, sprach auf einer kleinen pressekonferenz im openai-hauptquartier in san francisco: „wir waren sehr beschäftigt. vor zwei jahren war gpt-3 technologisch führend in seiner klasse, aber jetzt haben wir fast 1.000 erreicht. er sagte stolz, dass er keine andere technologie finden könne, die in nur zwei jahren eine ähnliche kostensenkung erreicht habe.
2. visuelle feinabstimmung: die neue grenze der visuellen ki
eine weitere große ankündigung ist die einführung visueller feinabstimmungsfunktionen im neuesten großen sprachmodell von openai, gpt-4o. entwickler können nicht nur text, sondern auch bilder verfeinern und so möglicherweise bereiche wie selbstfahrende autos, medizinische bildgebung und visuelle suchfunktionen verändern.
seit der einführung der textfeinabstimmung haben hunderttausende entwickler reine textdatensätze genutzt, um modelle zu optimieren und die leistung bei bestimmten aufgaben zu verbessern. doch in vielen fällen genügt die feinabstimmung von texten allein nicht allen anforderungen. durch visuelle feinabstimmung können entwickler das gpt-4o-modell optimieren, indem sie einfach mindestens 100 bilder hochladen, um seine leistung bei sehaufgaben zu verbessern, insbesondere bei der verarbeitung großer text- und bilddatenmengen.
laut openai hat grab, südostasiens führendes unternehmen für essenslieferungen und mitfahrgelegenheiten, die technologie bereits genutzt, um seine kartendienste zu verbessern. anhand von nur 100 beispielen verbesserte grab die genauigkeit der spurzählung um 20 % und die genauigkeit der ortung von geschwindigkeitsbegrenzungsschildern um 13 %.
beispiel für ein geschwindigkeitsbegrenzungsschild, das mit dem visuellen feinabstimmungsmodell gpt-4o erfolgreich markiert wurde. bildquelle: openai
automat nutzt visuelle feinabstimmung, um gpt-4o anhand eines screenshot-datensatzes darauf zu trainieren, ui-elemente auf dem bildschirm zu erkennen, und verbessert so die erfolgsquote seiner automatisierungstools. auf diese weise stieg die erfolgsquote des roboteragenten von automat von 16,60 % auf 61,67 %.
desktop-roboter identifiziert erfolgreich ui-elementzentren durch visuelle feinabstimmung anhand von website-screenshots, quelle: openai
reale anwendungen der visuellen feinabstimmung zeigen die möglichkeiten der visuellen feinabstimmung, um ki-dienste in einer vielzahl von branchen mithilfe kleiner mengen visueller trainingsdaten erheblich zu verbessern.
die visuelle feinabstimmungsfunktion steht jetzt allen zahlenden benutzern zur verfügung und unterstützt das neueste gpt-4o-modell. entwickler können diese funktionen nutzen, um vorhandene trainingsdatensätze für die bildfeinabstimmung zu erweitern. darüber hinaus bietet openai bis zum 31. oktober 2024 täglich 1 million kostenlose trainingstoken an. die gebühren für die feinabstimmung von training und inferenz werden später angepasst.
3. echtzeit-apis: überbrückung der lücke zwischen konversations-ki
die echtzeit-api befindet sich derzeit in der öffentlichen betaphase. es ermöglicht entwicklern, multimodale erlebnisse mit geringer latenz zu schaffen, insbesondere in speech-to-speech-anwendungen. dies bedeutet, dass entwickler damit beginnen können, die sprachsteuerung von chatgpt zu ihren apps hinzuzufügen.
um das potenzial der api zu veranschaulichen, demonstrierte openai eine aktualisierte version von wanderlust, einer reiseplanungs-app, die letztes jahr auf der konferenz gezeigt wurde.
mithilfe der echtzeit-api können benutzer direkt mit der anwendung kommunizieren und ihre reise auf natürliche weise planen. das system ermöglicht sogar unterbrechungen während des sprechens und ahmt so menschliche gespräche nach.
healthify ist eine ernährungs- und fitness-coaching-app, die echtzeit-apis nutzt, um natürliche gespräche mit ki zu ermöglichen. bildquelle: openai
während die reiseplanung nur ein beispiel ist, eröffnen echtzeit-apis vielfältige möglichkeiten für sprachanwendungen in verschiedenen branchen. vom kundenservice bis hin zu schulungs- und barrierefreiheitstools verfügen entwickler jetzt über leistungsstarke neue ressourcen, um intuitivere und reaktionsfähigere ki-gestützte erlebnisse zu schaffen.
„wenn wir ein produkt entwerfen, denken wir grundsätzlich gleichzeitig an start-ups und unternehmen“, erklärte goldment. „in der alpha-phase verwenden wir also viele unternehmen sowie neue modelle für neue produkte.“
die echtzeit-api vereinfacht im wesentlichen den prozess der erstellung von sprachassistenten und anderen konversations-ki-tools und macht das zusammenfügen mehrerer modelle für transkription, inferenz und text-in-sprache-konvertierung überflüssig.
frühanwender wie die ernährungs- und fitness-coaching-app healthify und die sprachlernplattform speak haben echtzeit-apis in ihre produkte integriert. apis haben das potenzial, natürlichere und ansprechendere benutzererlebnisse in bereichen vom gesundheitswesen bis zur bildung zu schaffen.
die preisstruktur der echtzeit-api ist zwar nicht günstig (0,06 $ pro minute audioeingabe, 0,24 $ pro minute audioausgabe), stellt aber dennoch ein erhebliches wertversprechen für entwickler dar, die sprachbasierte anwendungen erstellen möchten.
4. modelldestillation: auf dem weg zu einer zugänglicheren ki
die vielleicht transformativste ankündigung hiervon ist die einführung der modelldestillation.
der integrierte workflow ermöglicht es entwicklern, die ausgabe erweiterter modelle wie o1-preview und gpt-4o zu nutzen, um die leistung effizienterer modelle wie gpt-4o mini zu verbessern. auch kleine unternehmen können ähnliche funktionen fortgeschrittener modelle nutzen, ohne sich gedanken über die rechenkosten machen zu müssen.
feinabstimmungsdemo, quelle: openai
die modelldestillation schließt die seit langem bestehende lücke der ki-branche zwischen hochmodernen, ressourcenintensiven systemen und zugänglicheren, aber weniger leistungsstarken systemen.
nehmen wir an, ein kleines medizintechnik-startup entwickelt ein ki-diagnosetool für ländliche kliniken. mithilfe der modelldestillation kann das team ein kleines modell trainieren, das auf einem standard-laptop oder -tablet ausgeführt werden kann und die meisten diagnosen des größeren modells erfasst .
dies kann hochentwickelte ki-funktionen in ressourcenbeschränkte umgebungen bringen, um die ergebnisse der gesundheitsversorgung in unterversorgten gebieten zu verbessern.
aus diesem update ist nicht schwer zu erkennen, dass openai eine wichtige strategische änderung vorgenommen hat – es konzentriert sich mehr auf die entwicklung des ökosystems als nur auf die einführung auffälliger produkte, auch wenn die strategie möglicherweise nicht so direkt auf die öffentlichkeit ausgerichtet ist wie das produkt startet.
verglichen mit dem aufregenden developer day im jahr 2023, bei dem der gpt-store und benutzerdefinierte gpt-tools eingeführt wurden, ist die diesjährige veranstaltung viel zurückhaltender. die rasanten veränderungen im bereich der ki, zusammen mit erheblichen fortschritten der wettbewerber und zunehmenden bedenken hinsichtlich der verfügbarkeit von trainingsdaten, haben openai dazu veranlasst, sich stärker auf die verfeinerung bestehender tools und die verbesserung der entwicklerfähigkeiten zu konzentrieren, um diese veränderungen zu bewältigen.
durch die verbesserung der modelleffizienz und die reduzierung der kosten hofft openai, seinen vorsprung gegenüber der harten konkurrenz zu wahren und probleme der ressourcenintensität und umweltauswirkungen anzugehen. der erfolg von openai wird stark von seiner fähigkeit abhängen, ein lebendiges entwickler-ökosystem effektiv zu kultivieren.
referenzen:
„einführung der echtzeit-api“, openai
„einführung einer vision in die feinabstimmung der api“,openai
„promptes caching in der api“,openai
„modelldestillation in der api“ openai
„openai's devday 2024: 4 große updates, die ki zugänglicher und erschwinglicher machen“,venturebeat
„der devday von openai bietet echtzeit-api und andere leckerbissen für ki-app-entwickler“, techcrunch
(quelle des titelbildes: openai)