es ist wieder lebhaft! die erweiterte version „her“ von openai ist offiziell eröffnet und übertrifft geminis „produktionsqualität“-upgrade...

es ist wieder lebhaft! die erweiterte version „her“ von openai ist offiziell eröffnet und übertrifft geminis „produktionsqualität“-upgrade ...

2024-09-25

autorin｜jessica

heute ist wirklich ein lebhafter tag im ki-kreis, den es schon lange nicht mehr gegeben hat!

der gestern von ultraman gepostete ki-aufsatz hat mich verwirrt, und jetzt ist die absicht seiner operation klar.

ultraman will seinen alten feind google angreifen. genauer gesagt sind es die beiden aktualisierten gemini-modelle, die google heute gerade aktualisiert hat: gemini-1.5-pro-002 und gemini-1.5-flash-002.

die sniping-methode ist einfach und grob: geben sie direkt bekannt, dass die mit spannung erwartete gpt-sprachfunktion heute offiziell eröffnet wird.

in weniger als zwei stunden wurde google von googles hart erkämpftem highlight-moment entführt. wenn ich google wäre, wäre ich so wütend.

gpt advanced voice ist da und spricht mehr als 50 sprachen

openai sagte, dass der erweiterte sprachmodus von chatgpt diese woche schrittweise für alle plus- und team-benutzer eingeführt wird.

während die leute geduldig warten, hat das team einige funktionen verbessert, darunter das hinzufügen benutzerdefinierter befehle, speicherfunktionen, 5 neue stimmen und verbesserte akzente.

da darüber schon zu lange gesprochen wurde, gab openai eine besondere erklärung ab: „es kann in mehr als 50 sprachen ‚entschuldigung, ich bin zu spät‘ sagen.“

und nennen sie ein beispiel für den wechsel vom englischen zum mandarin: „oma, es tut mir leid, ich bin zu spät. ich wollte dich nicht so lange warten lassen, wie kann ich dich entschädigen?“

——guter kerl, jetzt bist du die oma von gpt geworden und zwingst mich, dir zu vergeben.

wie im video zu sehen ist, wird der sprachmodus jetzt durch eine pulsierende blaue kugel dargestellt und nicht durch den schwarzen animierten punkt, den openai bei der demonstration der technologie im mai verwendet hat.

wenn der zugriff gewährt wird, wird in der app eine eingabeaufforderung angezeigt. es wird zunächst für benutzer der plus- und teams-ebene geöffnet und ab nächster woche auf unternehmens- und bildungsbenutzer ausgeweitet.

chatgpt fügt außerdem fünf neue stimmen für das erlebnis hinzu: arbor, maple, sol, spruce und vale. zu diesem zeitpunkt hat die gesamtzahl der chatgpt-stimmen zusammen mit den vorherigen breeze, juniper, cove und ember 9 erreicht (googles gemini live-stimmenzahl ist 10).

sie haben vielleicht auch bemerkt, dass diese namen alle von der natur inspiriert sind, von „ahornbaum“ und „brise“ bis hin zu „sonne“ und „tal“, vielleicht um die verwendung natürlicher zu gestalten. eine stimme, die abwesend war, war sky, die stimme, mit der openai bei seinem start im frühjahr glänzte, die jedoch aufgrund eines rechtsstreits mit scarlett johansson, dem star des films „her“, zurückgezogen wurde.

openai hat außerdem einige der anpassungsfunktionen von chatgpt auf erweiterte sprachmodi ausgeweitet, darunter eine „benutzerdefinierte befehls“-funktion, die es benutzern ermöglicht, antworten zu personalisieren, und eine speicherfunktion, die es chatgpt ermöglicht, sich gespräche zur späteren bezugnahme zu merken.

geben sie im video unten im benutzerdefinierten chatgpt-menü der systemeinstellungen beispielsweise „mein name ist charlotte und ich lebe in der san francisco bay area“ ein. wenn sie nach outdoor-aktivitäten am wochenende gefragt werden, ruft gpt den benutzer charlotte an: bietet empfehlungen, die zum lokalen wetter und verkehr passen.

openai sagte, das team habe die reaktionsgeschwindigkeit, sprachkompetenz und akzente in einigen fremdsprachen verbessert. die stimme passt sich dem ton des gesprächs an und sie können szenen erstellen, die sie dazu auffordern, verschiedene rollen einzunehmen. die tonverzögerung ist sehr gering und das verständnis ist stärker. es fühlt sich wirklich an, als würde man ein natürliches gespräch mit einer anderen person führen.

allerdings wurden die video- und bildschirmfreigabefunktionen, die openai vor vier monaten demonstrierte, dieses mal nicht aktualisiert. zu diesem zeitpunkt fragten die mitarbeiter gpt nach den mathematischen problemen auf dem papier und den codes auf dem computerbildschirm und erhielten echtzeit-antworten durch natürliche sprachdialoge. derzeit hat openai keinen rollout-zeitplan für diese multimodale funktion bereitgestellt.

darüber hinaus steht der erweiterte sprachmodus vorübergehend nicht der europäischen union, dem vereinigten königreich, der schweiz, island, norwegen, liechtenstein und anderen regionen zur verfügung.

trotzdem ist es für menschen, die des ki-kreises überdrüssig geworden sind, in der tat eine aufregende sache, endlich die openai-version von „ihr“ in die hand nehmen zu können. in verbindung mit der o1-vorschau, die gerade eine welle des wahnsinns ausgelöst hat, hat openai die branche eine weitere woche lang fest im griff.

diese aufregung führte auch dazu, dass jeder unter zeitweiliger amnesie litt:

übrigens, was hat google heute gepostet?

gemini 1.5 wertet zwei neue modelle auf, der preis wird halbiert und die geschwindigkeit erhöht

das update von google ist dieses mal tatsächlich sehr wichtig, zumindest für entwickler.

laut google blog haben sie dieses mal zwei gemini-modelle in produktionsqualität aktualisiert: gemini-1.5-pro-002 und gemini-1.5-flash-002. die sogenannte „produktionsebene“ bedeutet, dass das ki-modell vollständig entwickelt, getestet und optimiert ist und für den kommerziellen einsatz bereit ist. es kann eine große anzahl von benutzeranfragen verarbeiten und nicht nur auf produktdienstleistungen angewendet werden experimente oder forschung.

als wesentliches upgrade der auf der i/o-konferenz im mai dieses jahres vorgestellten modelle der gemini 1.5-serie sind die neuen modelle schneller, leistungsstärker und kostengünstiger.

die wichtigsten highlights sind wie folgt zusammengefasst:

1. erhebliche preissenkung: die ein- und ausgabepreise von 1.5 pro sind um etwa 50 % gesunken, was die baukosten erheblich reduziert, insbesondere für spitzen mit weniger als 128.000 token.

2. gesamtqualitätsverbesserung: insbesondere die leistungsverbesserung in den bereichen mathematik, codegenerierung, langtextkontext und visuelle aufgaben ist erheblich, einschließlich einer steigerung von etwa 20 % bei benchmark-tests wie math und hiddenmath und einer steigerung von 2 % bis 7 %. in visuellen und code-anwendungen.

3. erhöhung des ratenlimits: das ratenlimit von 1,5 flash und 1,5 pro wurde von 1000 u/min (anfragen pro minute) bzw. 360 u/min auf 2000 u/min bzw. 1000 u/min erhöht, sodass entwickler aufgaben schneller erstellen und verarbeiten können.

4. schnellere ausgabe und geringere latenz: die ausgabegeschwindigkeit wird um das zweifache erhöht und die latenz um das dreifache reduziert, wodurch effizientere anwendungsszenarien unterstützt werden.

5. prägnantere antworten: der antwortstil ist prägnanter, kostengünstiger und die ausgabelänge wird um 5–20 % verkürzt. dadurch wird auch die anzahl der ablehnungen und vermeidungen bei vielen themen reduziert und der hohe nutzen bleibt erhalten.

6. multimodale und lange kontextunterstützung: das 2 millionen token lange kontextfenster von 1.5 pro unterstützt die verarbeitung langer texte und multimodaler aufgaben, wie z. b. die inhaltserstellung von 1.000-seitigen pdfs oder langen videos.

7. aktualisierte filtereinstellungen: der standardsicherheitsfilter des modells wird nicht mehr automatisch angewendet und entwickler können die sicherheitseinstellungen des modells nach bedarf anpassen.

entwickler können über google ai studio und die gemini api kostenlos auf die beiden neuesten modelle zugreifen. das neue modell ist auch auf vertex ai für große organisationen und google cloud-kunden verfügbar.

zwillinge im schatten von gpt

allerdings äußerten viele normale nutzer im vergleich zu ihren mitbewerbern ihre enttäuschung über den schritt von google und hatten das gefühl, dass es sich nicht einmal um eine echte „veröffentlichung“ handelte.

bindu reddy, ceo von abacus.ai und bekannter blogger, sagte: „leider hat openai o1 veröffentlicht, das den iq-test bestanden hat, während google nur ein paar kleinere updates an gemini 1.5 vorgenommen hat. sie haben 100-mal so viele ressourcen, 10-mal so viel talent und 10.“ wie konnte das ausgerechnet ausgerechnet passieren?“

obwohl einige entwickler immer noch für google sprechen, sagte beispielsweise ein internetnutzer im reddit-diskussionsforum:

„das sind nützliche dinge für leute, die tatsächlich anwendungen erstellen und versuchen, kosten zu senken und gewinne zu steigern. die anwendung, an der ich arbeite, hat feste kosten pro vorgang, die durch die token-länge bestimmt werden, wodurch mein gewinn etwa 30 % höher ist.“ für die meisten leute bedeutet das vielleicht nicht viel. ich weiß, dass viele leute über diese „ankündigung“ von google verärgert sein werden – aber es ist tatsächlich ein gutes update für entwickler.

der preis wird halbiert, die geschwindigkeit erhöht und die verzögerung verringert. dies ist tatsächlich das, was entwickler wollen. aber wie alle sagten, könnte die anziehungskraft auf die entwicklergemeinschaft beschränkt sein.

sogar einige entwickler spotteten: „ich sehe keinen vergleich mit claude oder o1, und wir sind dabei, die nächste generation von openai- und anthropic-modellen einzuführen. deepmind hat tatsächlich weitaus bessere modelle, aber sie gehen direkt an die unternehmenslinie.“ ist der gemini überhaupt nicht beeindruckend, sondern einfach nur enttäuschend?

die schlechte benennung von modellen durch google wurde auch von internetnutzern lächerlich gemacht, die sie für langwierig und verwirrend hielten.

the information veröffentlichte kürzlich einen artikel mit dem titel „warum ki-entwickler googles gemini überspringen“. durch interviews mit mehreren gründern von ki-unternehmen und internen google-mitarbeitern wird die geschichte erzählt, wie gemini von entwicklern „im stich gelassen“ wurde und auf welche hindernisse und schwierigkeiten es stieß, um mit chatgpt gleichzuziehen.

im vergleich zu konkurrierenden technologien ist beispielsweise der aufruf von gemini für entwickler und unternehmen zu komplex. der gründer von topology, aidan mclaughlin, sagte, dass die erste verwendung der openai-api nur 30 sekunden dauerte, während die verwendung von gemini 4 stunden dauerte. gleichzeitig liegt die leistung großer google-modelle hinter openai und anthropic, und es lohnt sich nicht, diese hindernisse zu überwinden.

im vergleich zu chatgpt scheint die unbeliebtheit von gemini bei entwicklern in der realen welt ein offenes geheimnis zu sein.

eine juni-umfrage des unternehmenssoftware-startups retool unter mehr als 750 technologiemitarbeitern ergab, dass nur 2,6 % der befragten angaben, gemini am häufigsten zum erstellen von ki-anwendungen zu verwenden, wobei sich mehr als 76 % für die verwendung von gpt entschieden.

von similarweb erfasste website-verkehrsdaten zeigen, dass die anwendungsentwicklerseite von openai zwischen juni und august 82,8 millionen seitenaufrufe verzeichnete, während die seitenaufrufe von google 8,4 millionen mal betrugen.

kleinere informelle umfragen liefern ähnliche beweise. ende letzten monats fragte finetune-gründer julian saks 50 ki-startup-entwickler in seinem coworking space in san francisco, welche konversations-ki-modelle sie am häufigsten verwenden. fast alle sagten, dass sie hauptsächlich modelle von anthropic oder openai verwenden, und niemand erwähnte gemini.

obwohl das gemini-modell bei der analyse langer dokumente oder langer codebasen nützlich ist, sagen viele entwickler, dass die modelloptionen von google vielfältig, die schritte komplex und das entwicklersystem anders als das von openai und schwieriger zu verwenden sei. und manchmal konkurrieren die verschiedenen dienste von google in den eigenen suchergebnissen miteinander, was dazu führt, dass nutzer bei der suche nach den tools leicht stecken bleiben.

aus diesem grund werden zwillinge auf x oft verspottet. brendan dolan-gavitt, ein ki-forscher beim sicherheits-startup xbow, ging anfang des monats viral, als er einen tweet veröffentlichte, in dem er die zahlreichen schritte beschrieb, die er unternommen hatte, um über vertex mit gemini zu starten. andere entwickler nutzten den kommentarbereich, um ihr mitgefühl auszudrücken.

in einer umgebung, in der „die weltweit führenden ingenieure openai, claude oder cursor verwenden“, müssen entwickler wirklich nichts anderes ausprobieren. andererseits ermöglicht der rückgang der nutzung gemini nicht, so viel datenfeedback zu erhalten wie chatgpt, was dazu führt, dass google bei der verbesserung des modells vor einer unklareren roadmap steht.

enttäuschung, weil die leute so viel von google erwarten

google versucht, diese wahrnehmung zu ändern, indem es unter anderem auf die kritik an gemini on sie fördern gemini auch durch die ausrichtung von entwicklerveranstaltungen.

heute, zeitgleich mit der einführung von gemini-1.5-pro-002, gibt es auch eine online-veranstaltung für gemini for work. google gibt viel platz, um die aktuellen anwendungsfälle von gemini bei unternehmen wie best buy, snap, ups capital, zu bewerben. wayfair usw. es wird berichtet, dass sie versuchen, mehr große firmenkunden zu gewinnen, indem sie ein gewisses maß an „white-glove“-diensten anbieten.

doch angesichts fester marktanteile dürfte googles gegenangriff nicht so einfach sein.

logan kilpatrick, produktleiter bei ai studio, der vor seinem einstieg im april dieses jahres für die entwicklerbeziehungen bei openai verantwortlich war, sagte: „die realität ist, dass openai in bezug auf llm-api-entwicklertools google voraus ist. wir müssen mit ihnen konkurrieren.“ aktuelle entwicklungsbemühungen unter entwicklern. kampf um feste marktanteile.“

zuvor hatte rowan cheung, ein bekannter blogger in der ki-szene, vorhergesagt, dass er ein interview über ein großes upgrade des ki-modells abgeschlossen habe. heute wird den entwicklern ein großer tag bevorstehen.

unter diesem tweet sah logan kilpatricks lächelnder gesichtsausdruck ein wenig verlegen aus, inmitten einer großen anzahl von bedauern, die sagten: „warum ist es nicht claude opus 3.5?“

konservativ, kontrovers und rückständig sind die stereotypen, die google, der ki-gigant, heute in der community hinterlassen hat. die einführung von gemini-1.5-pro-002 scheint diesen stillstand nicht zu überwinden.

die enttäuschung der menschen über dieses unternehmen ist auf die hohen erwartungen an das unternehmen zurückzuführen: bei einer so großen stärke und talentreserve wäre es für alle schade, der welt nicht mehr „ersatz“-optionen für openai bieten zu können.

nachricht

es ist wieder lebhaft! die erweiterte version „her“ von openai ist offiziell eröffnet und übertrifft geminis „produktionsqualität“-upgrade ...

einführung

meine kontaktdaten