le mie informazioni di contatto
posta[email protected]
2024-10-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
autore di questo articolo: li dan
martedì 1 ottobre, ora della costa orientale, openai ha tenuto la sua conferenza annuale degli sviluppatori devday. la conferenza di quest'anno non ha avuto alcun rilascio di prodotti importanti. è stata più discreta rispetto alla conferenza dell'anno scorso, ma openai ha anche distribuito diversi grandi "pacchetti regalo". sviluppatori", apportando miglioramenti agli strumenti di intelligenza artificiale (ai) e alle suite api esistenti.
questo openai devday lancia una serie di nuovi strumenti, tra cui quattro innovazioni principali: prompt caching, vision fine-tuning, realtime api e model distillation. porta buone notizie agli sviluppatori in termini di costi, migliorando il livello di comprensione visiva dei modelli funzioni ai vocale e prestazioni del modello piccolo.
alcuni commenti hanno affermato che l'obiettivo del devday di quest'anno è migliorare le capacità degli sviluppatori e mostrare le storie del circolo degli sviluppatori, il che dimostra che poiché la concorrenza nel campo dell'intelligenza artificiale diventa sempre più feroce, la strategia di openai è cambiata. i nuovi strumenti di cui sopra evidenziano l’attenzione strategica di openai sul rafforzamento del proprio ecosistema di sviluppatori piuttosto che sulla concorrenza diretta nelle applicazioni per gli utenti finali.
alcuni media hanno affermato che nella conferenza stampa prima dell'evento devday, il responsabile del prodotto di openai kevin weil ha parlato delle recenti partenze del responsabile della tecnologia di openai mira murati e del responsabile della ricerca bob mcgrew, affermando che la loro partenza non avrebbe influenzato lo sviluppo dell'azienda, " non rallenteremo”.
la memorizzazione nella cache tempestiva può ridurre i costi dei token di input fino al 50%
la memorizzazione rapida delle parole nella cache è considerata l'aggiornamento più importante rilasciato questo devday. questa funzionalità è progettata per ridurre i costi degli sviluppatori e ridurre la latenza.
il sistema di caching delle parole introdotto da openai fornisce automaticamente uno sconto del 50% sui token di input recentemente elaborati dal modello, il che può portare a risparmi significativi per le applicazioni che riutilizzano frequentemente il contesto. tali significative riduzioni dei costi offrono alle imprese e alle startup significative opportunità di esplorare nuove applicazioni che prima erano fuori portata a causa dei costi proibitivi.
olivier godement, product manager della piattaforma openai, ha affermato che gpt-3 è stato un grande successo due anni fa e ora openai ha ridotto i costi correlati di quasi 1.000 volte. non poteva citare nessun altro esempio in cui i costi fossero stati ridotti della stessa cifra in due anni.
il seguente grafico openai mostra che la memorizzazione immediata delle parole nella cache può ridurre significativamente il costo dell'applicazione dei modelli ia. rispetto ai token non memorizzati nella cache di vari modelli gdp, il costo della memorizzazione nella cache dei token di input può essere ridotto fino al 50%.
vision fine-tuning: la nuova frontiera dell'intelligenza artificiale visiva
openai devday ha annunciato che l'ultimo large language model (llm) gpt-4o di openai introduce la messa a punto visiva. questa funzionalità consente agli sviluppatori di personalizzare la comprensione visiva dei propri modelli con immagini e testo.
si tratta di un importante aggiornamento noto come la nuova frontiera dell'intelligenza artificiale visiva. potrebbe avere impatti di vasta portata in settori quali le auto a guida autonoma, l’imaging medico e le capacità di ricerca visiva.
openai ha affermato che grab, la versione del sud-est asiatico di meituan + didi, ha utilizzato la tecnologia per migliorare i propri servizi cartografici. utilizzando solo 100 esempi, grab ha migliorato la precisione del conteggio delle corsie del 20% e la posizione dei segnali di limite di velocità del 13%.
questa app del mondo reale dimostra le possibilità di messa a punto visiva, utilizzando piccoli lotti di dati di formazione visiva, per migliorare significativamente i servizi di intelligenza artificiale in una varietà di settori.
l'api in tempo reale colma il divario dell'intelligenza artificiale conversazionale
openai devday ha rilasciato l'api in tempo reale, che è attualmente in fase beta pubblica. l'api in tempo reale semplifica intrinsecamente il processo di creazione di assistenti vocali e altri strumenti di intelligenza artificiale conversazionale, eliminando la necessità di unire più modelli per la trascrizione, l'inferenza e la conversione da testo a voce.
questo nuovo prodotto consente agli sviluppatori di creare esperienze multimodali a bassa latenza, in particolare nelle app di sintesi vocale. ciò significa che gli sviluppatori possono iniziare ad aggiungere i controlli vocali di chatgpt nelle app.
per illustrare il potenziale dell'api, openai ha mostrato una versione aggiornata di wanderlust, un'app per la pianificazione dei viaggi presentata alla conferenza dello scorso anno.
con l'aiuto dell'api in tempo reale, gli utenti possono parlare direttamente con la nuova versione dell'app e avere conversazioni naturali per pianificare il proprio itinerario. il sistema consente persino agli utenti di interrompere nel mezzo di una frase, imitando una conversazione umana.
la pianificazione dei viaggi è solo un esempio, le api in tempo reale aprono un’ampia gamma di possibilità per le app vocali in vari settori. che si specializzino nel servizio clienti, nella formazione o negli strumenti di accessibilità per le persone con disabilità, gli sviluppatori possono ora sfruttare nuove risorse per creare esperienze basate sull'intelligenza artificiale più intuitive e reattive.
alcune app, tra cui l’app di nutrizione e coaching di fitness healthify e la piattaforma di apprendimento delle lingue speak, hanno già preso l’iniziativa nell’integrazione di api in tempo reale nei loro prodotti.
i commenti dicono che l'api in tempo reale non è economica, con un costo di 0,06 dollari al minuto di input audio e 0,24 dollari al minuto di output audio, ma può comunque rappresentare una proposta di valore significativa per gli sviluppatori che desiderano creare app basate sulla voce.
la distillazione del modello consente ai piccoli modelli di avere funzioni di modello all'avanguardia
questa volta la distillazione del modello è considerata il nuovo strumento più trasformativo di openai. questo flusso di lavoro integrato consente agli sviluppatori di mettere a punto modelli universitari relativamente piccoli ed economici utilizzando l'output di modelli all'avanguardia come gpt o1-preview e gpt-4o, migliorando così modelli più efficienti come gpt-4o mini prestazione.
questo approccio consente alle aziende più piccole di sfruttare funzionalità simili a modelli all’avanguardia senza incorrere nei costi computazionali derivanti dall’utilizzo di tali modelli. aiuta a colmare il divario che l’industria dell’intelligenza artificiale ha da tempo tra sistemi all’avanguardia e ad alta intensità di risorse e sistemi più accessibili ma meno potenti.
ad esempio, una piccola startup nel campo della tecnologia medica vuole sviluppare uno strumento diagnostico basato sull’intelligenza artificiale per le cliniche rurali. utilizzando la distillazione del modello, l'azienda può addestrare un modello compatto che cattura gran parte della potenza diagnostica di un modello più grande pur necessitando solo di essere eseguito su un laptop o tablet standard.
pertanto, la distillazione del modello può consentire ad ambienti con risorse limitate di godere di complesse funzioni di intelligenza artificiale, migliorando potenzialmente il livello di assistenza medica nelle aree scarsamente servite.