notizia

openai, che sta attraversando tempi difficili, ha deciso di risparmiare sui budget degli sviluppatori

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

autore|sukhoi

redattore|wang bo

con la partenza dei dirigenti e il ritiro di apple dalle trattative finanziarie, questa è senza dubbio una settimana tumultuosa per openai. ma openai insiste ancora nel convincere gli sviluppatori a creare applicazioni utilizzando i loro modelli di intelligenza artificiale.

il 1° ottobre, ora locale degli stati uniti, openai ha tenuto il devday a san francisco. a differenza del grande evento dell'anno scorso, l'evento di quest'anno è stato più discreto e si è trasformato in un roadshow per gli sviluppatori.

questa volta openai non sta lanciando un prodotto importante, ma sta invece lavorando sull’esistenteaistrumenti eapiil kit è stato migliorato in modo incrementale.

hanno presentato quattro innovazioni:ottimizzazione della visione, in tempo realeapi(api realtime), distillazione del modello e memorizzazione nella cache dei prompt.

ad esempio, la versione beta pubblica dell’api in tempo reale consente agli sviluppatori di creare applicazioni in grado di generare rapidamente risposte vocali ai. questa nuova tecnologia non solo risponde velocemente, ma fornisce anche sei diverse opzioni audio. i suoni sono tutti sviluppati dalla stessa openai, evitando problemi di copyright di terze parti. questa api non "copia" la modalità vocale avanzata di chatgpt, ma la funzionalità è sostanzialmente simile.

romain huet, direttore dell'esperienza degli sviluppatori di openai, ha anche dimostrato come utilizzare o1 per creare un'applicazione ios per iphone con un prompt in circa 30 secondi.

yute dimostra la creazione di applicazioni ios per iphone. credito immagine: x di romain huet

negli ultimi due anni, openai ha ridotto del 99% il costo di accesso alle sue api per gli sviluppatori in risposta alla pressione del mercato da parte di concorrenti come meta e google. e dal contesto del nuovo strumento, possiamo scoprire:la strategia di openai favorisce il rafforzamento del proprio ecosistema di sviluppatori piuttosto che competere direttamente nelle applicazioni per gli utenti finali.

prima dell'evento, kevin weil, chief product officer di openai, ha menzionato che il chief technology officer mira murati e il chief research officer bob mcgrewle dimissioni non influenzeranno lo sviluppo a lungo termine dell'azienda.ha affermato che, nonostante "i frequenti cambiamenti di personale", openai può ancora "mantenere lo slancio dello sviluppo".

mentre gruppi tecnologici come google e apple si affrettano a lanciare ai consumatori i cosiddetti agenti di intelligenza artificiale,openai pensaail'assistente diventerà mainstream l'anno prossimo.le capacità degli assistenti ia, compreso il ragionamento e il completamento di compiti complessi, sono diventate l’ultimo campo di battaglia per le aziende tecnologiche, ciascuna delle quali spera di sfruttare questa tecnologia in rapido sviluppo per aumentare i flussi di entrate.

"si spera che i metodi di interazione dell'intelligenza artificiale possano coprire tutti i modi in cui gli esseri umani interagiscono". weir ha affermato: "lo sviluppo di sistemi di agenti renderà possibile questa interazione". i metodi in esso contenuti, che si tratti di comunicazione verbale, espressione emotiva o comunicazione non verbale, ecc., rendono l'interazione tra gli esseri umani e l'intelligenza artificiale il più naturale e fluida possibile.

oltre a openai, anche altre aziende come microsoft, salesforce e workday stanno ponendo le capacità degli agenti al centro dei loro piani di intelligenza artificiale, mentre google e meta hanno anche affermato che l'integrazione dei modelli di intelligenza artificiale nei loro prodotti è per loro un'area di interesse chiave.

l'anno scorso, openai ha rilasciato la sua "api assistenti" per consentire agli sviluppatori di creare agenti utilizzando la sua tecnologia. ma hanno anche rivelato che i piani erano ostacolati dalla funzionalità limitata dei primi modelli.

weill ha affermato che i miglioramenti nel pensiero e nel ragionamento forniti dagli ultimi modelli di openai si rifletteranno nei suoi prodotti, come chatgpt, e nelle startup e negli sviluppatori che creano applicazioni utilizzando la sua api, ma non ha detto se ne svilupperanno immediatamente delle proprie. agente dell'intelligenza artificiale.

openai ha dimostrato una conversazione dal vivo con un sistema di intelligenza artificiale incaricato di aiutare a trovare e acquistare prodotti disponibili localmente. ad esempio, se acquisti fragole, l'ia chiamerà il commerciante per effettuare un ordine secondo le istruzioni dell'utente.

dimostrazione dell'acquisto di fragole da parte dell'intelligenza artificiale in base a suggerimenti. fonte immagine: x

openai sottolinea che chiunque utilizzi la tecnologia deve chiarire che si tratta di un'intelligenza artificiale, non di un essere umano, e che fornisce agli sviluppatori solo opzioni preimpostate limitate, non la capacità di creare nuovi suoni.

“se lo facciamo bene, avremo più tempo per concentrarci su ciò che è importante e meno tempo per fissare i nostri telefoni”, ha detto ware.

1. suggerimento caching: un salvatore per i budget degli sviluppatori

la funzionalità "hint cache" è uno dei lanci più importanti di questo evento e viene utilizzata per ridurre i costi e la latenza per gli sviluppatori.

molti sviluppatori che creano applicazioni ia riutilizzano lo stesso contesto in più chiamate api, ad esempio quando modificano una base di codice o hanno una lunga conversazione a più turni con un chatbot. la cache dei suggerimenti applica automaticamente uno sconto del 50% al token di input elaborato più di recente dal modello riutilizzando il token di input visualizzato più di recente.

la memorizzazione nella cache dei token di input può far risparmiare fino al 50% rispetto ai token non memorizzati nella cache in vari modelli gpt. fonte immagine: openai

disponibilità e prezzi della cache dei suggerimenti a partire da oggi, la cache dei suggerimenti verrà applicata automaticamente alle ultime versioni di gpt-4o, gpt-4o mini, o1-preview e o1-mini, nonché alle versioni ottimizzate di questi modelli. i suggerimenti memorizzati nella cache offrono uno sconto rispetto ai suggerimenti non memorizzati nella cache.

le chiamate api ai modelli supportati beneficeranno automaticamente della memorizzazione nella cache dei prompt, per i prompt più lunghi di 1024 token. il prefisso più lungo dei suggerimenti calcolato prima della cache api, a partire dal contrassegno 1024 e con incrementi di 128 contrassegni. se un utente utilizza frequentemente suggerimenti con prefissi comuni, openai applicherà automaticamente lo sconto sulla cache dei suggerimenti senza che l'utente debba apportare alcuna modifica all'integrazione api.

la cache viene solitamente cancellata dopo 5-10 minuti di inattività e viene sempre rimossa entro un'ora dall'ultimo utilizzo della cache. come tutti i servizi api, tip caching è soggetto all'impegno sulla privacy aziendale di opai. la cache dei suggerimenti non è condivisa tra le organizzazioni.

la significativa riduzione dei costi offre a diverse aziende l’opportunità di sviluppare nuove applicazioni che in precedenza erano troppo costose da implementare.

olivier godement, responsabile del prodotto della piattaforma openai, ha parlato in una piccola conferenza stampa presso la sede di openai a san francisco: "siamo stati molto impegnati. due anni fa gpt-3 era leader della tecnologia nella sua categoria, ma ora abbiamo raggiunto quasi 1.000 riduzione dei costi correlati." ha affermato con orgoglio che non poteva trovare nessun'altra tecnologia che avesse raggiunto una simile riduzione dei costi in soli due anni.

2. fine tuning visivo: la nuova frontiera dell'intelligenza artificiale visiva

un altro grande annuncio è l’introduzione di funzionalità di perfezionamento visivo nell’ultimo modello linguistico su larga scala di openai, gpt-4o. gli sviluppatori possono perfezionare non solo il testo ma anche le immagini, il che potrebbe trasformare aree come le auto a guida autonoma, l’imaging medico e le capacità di ricerca visiva.

dall'introduzione della regolazione fine del testo, centinaia di migliaia di sviluppatori hanno sfruttato set di dati di solo testo per ottimizzare i modelli e migliorare le prestazioni su attività specifiche. ma in molti casi, la sola regolazione fine del testo non è sufficiente a soddisfare tutte le esigenze. attraverso la messa a punto visiva, gli sviluppatori possono ottimizzare il modello gpt-4o semplicemente caricando almeno 100 immagini per migliorarne le prestazioni nelle attività di visione, soprattutto quando si elaborano grandi quantità di dati di testo e immagini.

secondo openai, grab, la principale società di consegna di cibo e ride-sharing del sud-est asiatico, ha già sfruttato la tecnologia per migliorare i suoi servizi di mappatura. utilizzando solo 100 esempi, grab ha migliorato la precisione del conteggio delle corsie del 20% e la precisione della posizione dei segnali di limite di velocità del 13%.

esempio di segnale di limite di velocità contrassegnato con successo dal modello di messa a punto visiva gpt-4o fonte immagine: openai

automat utilizza la messa a punto visiva per addestrare gpt-4o a riconoscere gli elementi dell'interfaccia utente sullo schermo, sulla base di un set di dati di screenshot, migliorando così il tasso di successo dei suoi strumenti di automazione. in questo modo, la percentuale di successo dell'agente robot di automat è aumentata dal 16,60% al 61,67%.

il robot desktop identifica con successo i centri degli elementi dell'interfaccia utente attraverso la messa a punto visiva utilizzando screenshot del sito web, fonte: openai

le applicazioni nel mondo reale della messa a punto visiva dimostrano le possibilità della messa a punto visiva per migliorare significativamente i servizi di intelligenza artificiale in una varietà di settori utilizzando piccoli lotti di dati di formazione visiva.

la funzionalità di regolazione visiva è ora disponibile per tutti gli utenti paganti e supporta l'ultimo modello gpt-4o. gli sviluppatori possono sfruttare queste funzionalità per estendere i set di dati di addestramento esistenti per la messa a punto delle immagini. inoltre, openai offre 1 milione di token di formazione gratuiti al giorno fino al 31 ottobre 2024. le tariffe per il perfezionamento della formazione e dell'inferenza verranno adeguate successivamente.

3. api in tempo reale: colmare il divario tra l'intelligenza artificiale conversazionale

l'api in tempo reale è attualmente in versione beta pubblica. consente agli sviluppatori di creare esperienze multimodali a bassa latenza, in particolare nelle applicazioni di sintesi vocale. ciò significa che gli sviluppatori possono iniziare ad aggiungere i controlli vocali di chatgpt alle loro app.

per illustrare il potenziale dell'api, openai ha presentato una versione aggiornata di wanderlust, un'app per la pianificazione dei viaggi mostrata alla conferenza dello scorso anno.

con l'aiuto dell'api in tempo reale, gli utenti possono parlare direttamente con l'applicazione e pianificare il proprio viaggio in modo conversazionale naturale. il sistema consente anche interruzioni durante il parlato, imitando la conversazione umana.

healthify è un'app di nutrizione e coaching di fitness che utilizza api in tempo reale per consentire conversazioni naturali con l'intelligenza artificiale. fonte immagine: openai

sebbene la pianificazione dei viaggi sia solo un esempio, le api in tempo reale aprono un’ampia gamma di possibilità per le applicazioni vocali in una varietà di settori. dal servizio clienti agli strumenti di formazione e accessibilità, gli sviluppatori ora dispongono di nuove potenti risorse per creare esperienze basate sull'intelligenza artificiale più intuitive e reattive.

"ogni volta che progettiamo un prodotto, fondamentalmente pensiamo sia alle startup che alle imprese allo stesso tempo", ha spiegato goldment. "quindi nella fase alfa, abbiamo molte aziende che utilizzano le api, nonché nuovi modelli per nuovi prodotti."

l'api in tempo reale semplifica essenzialmente il processo di creazione di assistenti vocali e altri strumenti di intelligenza artificiale conversazionale, eliminando la necessità di unire più modelli per la trascrizione, l'inferenza e la conversione da testo a voce.

i primi ad adottarlo, come l’app di nutrizione e coaching di fitness healthify e la piattaforma di apprendimento linguistico speak, hanno integrato api in tempo reale nei loro prodotti. le api hanno il potenziale per creare esperienze utente più naturali e coinvolgenti in aree che vanno dalla sanità all'istruzione.

la struttura dei prezzi dell'api in tempo reale, sebbene non economica (0,06 dollari al minuto di input audio, 0,24 dollari al minuto di output audio), rappresenta comunque una proposta di valore significativa per gli sviluppatori che desiderano creare applicazioni basate sulla voce.

4. distillazione di modelli: verso un'intelligenza artificiale più accessibile

forse l’annuncio più trasformativo è l’introduzione della distillazione modello.

il suo flusso di lavoro integrato consente agli sviluppatori di utilizzare l'output di modelli avanzati come o1-preview e gpt-4o per migliorare le prestazioni di modelli più efficienti come gpt-4o mini. anche le piccole aziende possono utilizzare funzionalità simili di modelli avanzati senza preoccuparsi di sostenere i costi di elaborazione.

demo di messa a punto, fonte: openai

la distillazione dei modelli affronta il divario di lunga data del settore dell’intelligenza artificiale tra sistemi all’avanguardia e ad alta intensità di risorse e sistemi più accessibili ma meno potenti.

supponiamo che una piccola startup di tecnologia medica stia sviluppando uno strumento diagnostico basato sull'intelligenza artificiale per le cliniche rurali. utilizzando la distillazione del modello, il team può addestrare un piccolo modello che può essere eseguito su un laptop o tablet standard e acquisire la maggior parte delle diagnosi del modello più grande .

ciò può portare sofisticate capacità di intelligenza artificiale in contesti con risorse limitate per migliorare i risultati dell’assistenza sanitaria nelle aree scarsamente servite.

non è difficile vedere da questo aggiornamento che openai ha apportato un importante cambiamento strategico, concentrandosi maggiormente sullo sviluppo dell'ecosistema piuttosto che perseguire semplicemente lanci di prodotti accattivanti, anche se la strategia potrebbe non essere così diretta al pubblico come il prodotto. lanci.

rispetto all'entusiasmante developer day del 2023, che ha lanciato il negozio gpt e gli strumenti gpt personalizzati, l'evento di quest'anno è molto meno impegnativo. i rapidi cambiamenti nel campo dell’intelligenza artificiale, insieme ai progressi significativi dei concorrenti e alle crescenti preoccupazioni sulla disponibilità dei dati di addestramento, hanno spinto openai a concentrarsi maggiormente sul perfezionamento degli strumenti esistenti e sul miglioramento delle capacità degli sviluppatori per far fronte a questi cambiamenti.

migliorando l’efficienza del modello e riducendo i costi, openai spera di mantenere il proprio vantaggio rispetto alla concorrenza agguerrita e di affrontare i problemi relativi all’intensità delle risorse e all’impatto ambientale. il successo di openai dipenderà in larga misura dalla sua capacità di coltivare in modo efficace un vivace ecosistema di sviluppatori.

riferimenti:

《presentazione dell'api realtime》,openai

《presentazione della visione dell'api di ottimizzazione》,openai

《richiesta memorizzazione nella cache nell'api》, openai

《distillazione del modello nell'api》openai

《devday 2024 di openai: 4 importanti aggiornamenti che renderanno l'ia più accessibile e conveniente》,venturebeat

《il devday di openai porta l'api realtime e altre sorprese per gli sviluppatori di app ia》, techcrunch

(fonte immagine di copertina: openai)