è di nuovo vivace! la versione potenziata di openai "her" è ufficialmente aperta, superando l'aggiornamento "di livello produttivo" di gemini...

è di nuovo vivace! la versione migliorata di openai "her" è ufficialmente aperta, superando l'aggiornamento "di livello produttivo" di gemini...

2024-09-25

autore｜jessica

oggi è davvero una giornata movimentata nel circolo dell'ia che non si vedeva da molto tempo!

sono rimasto confuso dal saggio sull'intelligenza artificiale pubblicato ieri da ultraman, e ora l'intenzione della sua operazione è chiara.

ultraman vuole attaccare il suo vecchio nemico google. per essere più precisi, si tratta dei due modelli gemini aggiornati che google ha appena aggiornato oggi: gemini-1.5-pro-002 e gemini-1.5-flash-002.

il metodo di sniping è semplice e rozzo: annunciare direttamente che la tanto attesa funzione vocale gpt sarà ufficialmente aperta oggi.

in meno di due ore, google è stato strappato via dal momento clou conquistato a fatica da google. se fossi google, sarei così arrabbiato.

la voce avanzata gpt è qui e parla più di 50 lingue

openai ha affermato che la modalità vocale avanzata di chatgpt verrà gradualmente estesa a tutti gli utenti plus e team questa settimana.

mentre le persone aspettano pazientemente, il team ha migliorato alcune funzionalità, tra cui l'aggiunta di comandi personalizzati, funzioni di memoria, 5 nuove voci e accenti migliorati.

dato che se ne parla da troppo tempo, openai ha fatto una dichiarazione speciale: "può dire 'scusa, sono in ritardo' in più di 50 lingue."

e fai un esempio di passaggio dall'inglese al mandarino: "nonna, mi dispiace, sono in ritardo. non volevo farti aspettare così a lungo, come posso compensarti?"

——bravo ragazzo, ora sei diventata la nonna di gpt, costringendomi a perdonarti.

come si può vedere nel video, la modalità vocale è ora rappresentata da una sfera blu pulsante, anziché dal punto nero animato utilizzato da openai durante la dimostrazione della tecnologia a maggio.

una volta concesso l'accesso, verrà visualizzato un messaggio all'interno dell'app. sarà aperto prima agli utenti di livello plus e teams e sarà esteso agli utenti aziendali e didattici a partire dalla prossima settimana.

chatgpt aggiunge anche cinque nuove voci per l'esperienza: arbor, maple, sol, spruce e vale. a questo punto, oltre ai precedenti breeze, juniper, cove ed ember, il numero totale di voci chatgpt ha raggiunto 9 (il numero di voci gemini live di google è 10).

potresti anche aver notato che questi nomi sono tutti ispirati alla natura, da "acero" e "brezza" a "sole" e "valle", forse per rendere l'uso più naturale. una voce assente era sky, la voce che openai aveva sfoggiato al suo lancio primaverile ma che era stata ritirata a causa di una disputa legale con scarlett johansson, la star del film "her".

openai ha inoltre esteso alcune delle funzionalità di personalizzazione di chatgpt alle modalità vocali avanzate, inclusa una funzionalità di "comando personalizzato" che consente agli utenti di personalizzare le risposte e una funzionalità di memoria che consente a chatgpt di ricordare le conversazioni per riferimento futuro.

ad esempio, nel video seguente, nel menu chatgpt personalizzato delle impostazioni di sistema, inserisci "mi chiamo charlotte e vivo nella zona della baia di san francisco. alla domanda sulle attività all'aperto del fine settimana, gpt chiamerà l'utente charlotte." fornisce consigli che corrispondono al meteo e al traffico locali.

openai ha affermato che il team ha migliorato la velocità di risposta, la fluidità e gli accenti in alcune lingue straniere. la voce si adatta al tono della conversazione e puoi creare scene che la inducono ad assumere ruoli diversi. il ritardo del suono è molto basso e la comprensione è più forte. sembra davvero di avere una conversazione naturale con un'altra persona.

tuttavia, le funzioni di condivisione di video e schermo dimostrate da openai quattro mesi fa non sono state aggiornate questa volta. a quel punto, lo staff ha interrogato gpt sui problemi di matematica sul foglio e sui codici sullo schermo del computer, e ha ottenuto risposte in tempo reale attraverso il dialogo vocale naturale. attualmente, openai non ha fornito un programma di implementazione per questa funzionalità multimodale.

inoltre, la modalità vocale avanzata non è temporaneamente disponibile per l'unione europea, il regno unito, la svizzera, l'islanda, la norvegia, il liechtenstein e altre regioni.

nonostante ciò, poter finalmente toccare con mano la versione openai di "lei" è davvero una cosa entusiasmante per le persone che si sono stancate del circolo dell'ia. insieme all'anteprima o1 che ha appena creato un'ondata di mania, openai ha saldamente controllato il settore per un'altra settimana.

questa eccitazione ha anche fatto sì che tutti soffrissero di amnesia intermittente:

a proposito, cosa ha pubblicato google oggi?

gemini 1.5 si aggiorna con due nuovi modelli, il prezzo si dimezza e la velocità aumenta

l’aggiornamento di google questa volta è in realtà molto importante, almeno per gli sviluppatori.

secondo google blog, questa volta hanno aggiornato due modelli gemini di produzione: gemini-1.5-pro-002 e gemini-1.5-flash-002. il cosiddetto “livello di produzione” significa che il modello di intelligenza artificiale è stato completamente sviluppato, testato e ottimizzato ed è pronto per l’implementazione commerciale. può gestire un gran numero di richieste degli utenti ed essere applicato ai servizi di prodotto, non solo esperimenti o ricerche.

essendo un importante aggiornamento dei modelli della serie gemini 1.5 presentati alla conferenza i/o di maggio di quest'anno, i nuovi modelli sono più veloci, più potenti e più convenienti.

i principali punti salienti sono riassunti come:

1. significativa riduzione dei prezzi: i prezzi di input e output di 1.5 pro sono diminuiti di circa il 50%, riducendo significativamente i costi di creazione, in particolare per tip inferiori a 128.000 token.

2. miglioramento generale della qualità: significativo è soprattutto il miglioramento delle prestazioni in matematica, generazione di codice, contesto di testo lungo e attività visive, compreso un aumento di circa il 20% nei test di riferimento come math e hiddenmath e un aumento del 2%-7% nelle applicazioni visive e di codice.

3. aumento del limite di velocità: il limite di velocità di 1.5 flash e 1.5 pro è stato aumentato da 1000 rpm (richieste al minuto) e 360 rpm rispettivamente a 2000 rpm e 1000 rpm, consentendo agli sviluppatori di creare ed elaborare le attività più velocemente.

4. output più veloce e latenza inferiore: la velocità di output è aumentata di 2 volte e la latenza è ridotta di 3 volte, fornendo supporto per scenari applicativi più efficienti.

5. risposte più concise: lo stile di risposta è più conciso, meno costoso e la lunghezza dell'output è ridotta del 5%-20%. riduce inoltre il numero di rifiuti ed evitamenti su molti argomenti e mantiene un'elevata utilità.

6. supporto multimodale e contesto lungo: la finestra di contesto lungo da 2 milioni di token di 1.5 pro supporta l'elaborazione di testi lunghi e attività multimodali, come la generazione di contenuti di pdf di 1.000 pagine o video lunghi.

7. impostazioni di filtro aggiornate: il filtro di sicurezza predefinito del modello non viene più applicato automaticamente e gli sviluppatori possono personalizzare le impostazioni di sicurezza del modello secondo necessità.

gli sviluppatori possono accedere gratuitamente ai due modelli più recenti tramite google ai studio e l'api gemini. il nuovo modello è disponibile anche su vertex ai per grandi organizzazioni e clienti google cloud.

i gemelli sono avvolti nell’ombra del gpt

tuttavia, rispetto ai colleghi, molti utenti comuni hanno espresso disappunto per la mossa di google, ritenendo che non si trattasse nemmeno di un vero "rilascio".

il ceo di abacus.ai e noto blogger bindu reddy ha dichiarato: "ahimè, openai ha rilasciato o1 che ha superato il test del qi, mentre google ha appena apportato alcuni aggiornamenti minori a gemini 1.5. hanno 100 volte le risorse, 10 volte il talento e 10 volte il di tutte le cose, come è potuto accadere questo?

sebbene alcuni sviluppatori parlino ancora a nome di google, ad esempio, un netizen nel forum di discussione di reddit ha detto:

"queste sono cose utili per le persone che stanno effettivamente creando applicazioni e cercando di ridurre i costi e aumentare i profitti. l'applicazione su cui sto lavorando ha un costo fisso per operazione, determinato dalla lunghezza del token, che mi fa guadagnare circa il 30% in più questo potrebbe non significare molto per la maggior parte delle persone. so che molte persone saranno arrabbiate per questo "annuncio" di google, ma in realtà è un buon aggiornamento per gli sviluppatori.

il prezzo viene dimezzato, la velocità aumenta e il ritardo viene ridotto. questo è infatti ciò che vogliono gli sviluppatori. ma come tutti hanno detto, l’appello potrebbe essere limitato alla comunità degli sviluppatori.

anche alcuni sviluppatori si sono fatti beffe: "non vedo il paragone con claude o o1, e stiamo per inaugurare la prossima generazione di modelli openai e anthropic. deepmind in realtà ha modelli di gran lunga superiori, ma stanno andando direttamente alla linea delle imprese, bypassando la volkswagen. la gemini è impressionante? niente affatto, semplicemente deludente.

anche la scarsa denominazione dei modelli da parte di google è stata ridicolizzata dagli utenti della rete, che pensavano che fosse lunga e confusa.

the information ha recentemente pubblicato un articolo intitolato "perché gli sviluppatori di intelligenza artificiale stanno saltando gemini di google". attraverso interviste con diversi fondatori di società di intelligenza artificiale e dipendenti interni di google, racconta la storia di come gemini è stata "abbandonata" dagli sviluppatori e degli ostacoli e delle difficoltà che ha incontrato nel mettersi al passo con chatgpt.

ad esempio, rispetto alle tecnologie concorrenti, chiamare gemini è troppo complesso per sviluppatori e imprese. il fondatore di topology aidan mclaughlin ha affermato che la prima volta che ha utilizzato l'api di openai ha impiegato solo 30 secondi, mentre l'utilizzo di gemini ha richiesto 4 ore. allo stesso tempo, le prestazioni del modello di grandi dimensioni di google si collocano dietro openai e anthropic e non vale la pena superare questi ostacoli.

rispetto a chatgpt, l’impopolarità di gemini tra gli sviluppatori sembra essere un segreto di pulcinella nel mondo reale.

da un sondaggio di giugno condotto su oltre 750 dipendenti tecnologici dalla startup di software aziendale retool è emerso che solo il 2,6% degli intervistati ha affermato di utilizzare più spesso gemini per creare applicazioni ai, con oltre il 76% che sceglie di utilizzare gpt.

i dati sul traffico del sito web monitorati da similarweb mostrano che tra giugno e agosto, la pagina degli sviluppatori di applicazioni di openai ha ricevuto 82,8 milioni di visualizzazioni di pagina, mentre le visualizzazioni di pagina di google sono state 8,4 milioni di volte.

indagini informali più piccole forniscono prove simili. alla fine del mese scorso, il fondatore di finetune julian saks ha chiesto a 50 sviluppatori di startup ia nel suo spazio di coworking a san francisco quali modelli di ia conversazionale utilizzano di più. quasi tutti hanno affermato di utilizzare principalmente modelli di anthropic o openai e nessuno ha menzionato gemini.

sebbene il modello gemini sia utile quando si analizzano documenti lunghi o basi di codice lunghe, molti sviluppatori affermano che le opzioni del modello di google sono diverse, i passaggi sono complessi e il sistema di sviluppo è diverso da quello di openai e più difficile da utilizzare. e a volte, i diversi servizi di google competono tra loro nei propri risultati di ricerca, rendendo facile per le persone rimanere bloccate nel tentativo di capire gli strumenti.

i gemelli vengono spesso derisi su x per questo motivo. brendan dolan-gavitt, un ricercatore di intelligenza artificiale presso la startup di sicurezza xbow, è diventato virale all'inizio di questo mese quando ha pubblicato un tweet che descrive in dettaglio i numerosi passaggi che ha intrapreso per iniziare con gemini tramite vertex. altri sviluppatori hanno utilizzato la sezione commenti per esprimere la loro simpatia.

in un ambiente in cui "i principali ingegneri del mondo utilizzano openai, claude o cursor", gli sviluppatori non hanno davvero bisogno di provare nient'altro. d’altra parte, il calo di utilizzo non consentirà a gemini di ottenere lo stesso feedback sui dati di chatgpt, costringendo google ad affrontare una tabella di marcia più ambigua nel miglioramento del modello.

delusione perché la gente si aspetta tanto da google

google sta cercando di cambiare questa percezione, anche rispondendo alle critiche di gemini su x, portando sotto la sua ala protettiva più esperti tecnici di spicco di aziende come openai e unendo alcune funzioni di sviluppo sovrapposte. promuovono inoltre gemini ospitando eventi per sviluppatori.

oggi, contemporaneamente al lancio di gemini-1.5-pro-002, c'è anche un evento online per gemini for work. google dedica molto spazio alla promozione degli attuali casi applicativi di gemini in aziende come best buy, snap, ups capital,. wayfair, ecc. è stato riferito che stanno cercando di attirare clienti aziendali più grandi fornendo un certo grado di servizi "guanto bianco".

ma di fronte alla quota di mercato radicata, il contrattacco di google potrebbe non essere così facile.

logan kilpatrick, product lead presso ai studio, responsabile delle relazioni con gli sviluppatori di openai prima di unirsi ad aprile di quest'anno, ha dichiarato: "la realtà è che openai è avanti a google in termini di strumenti di sviluppo api llm. dobbiamo competere con loro attuali sforzi di sviluppo tra gli sviluppatori. lotta per una quota di mercato radicata.

in precedenza, rowan cheung, un noto blogger nel circolo dell'intelligenza artificiale, aveva predetto di aver completato un'intervista su un importante aggiornamento del modello ai. oggi gli sviluppatori avranno una grande giornata.

sotto quel tweet, l'espressione della faccina sorridente di logan kilpatrick sembrava un po' imbarazzata in mezzo a un gran numero di rimpianti che dicevano "perché non è claude opus 3.5?"

conservatori, controversi e ritardatari sono gli stereotipi che google, il gigante dell’intelligenza artificiale, ha lasciato oggi nella comunità. il lancio di gemini-1.5-pro-002 non sembra sbloccare questa situazione di stallo.

la delusione delle persone nei confronti di questa azienda deriva dalle grandi aspettative nei suoi confronti: con una forza e una riserva di talento così forti, sarebbe un peccato per tutti non essere in grado di fornire al mondo più opzioni "sostitutive" per openai.

notizia

è di nuovo vivace! la versione migliorata di openai "her" è ufficialmente aperta, superando l'aggiornamento "di livello produttivo" di gemini...

introduzione

le mie informazioni di contatto