openai aggiorna il modello ai di trascrizione vocale di whisper, 8 volte più veloce senza sacrificare la qualità delle notizie

openai aggiorna il modello ai di trascrizione vocale di whisper, rendendolo 8 volte più veloce senza sacrificare la qualità

2024-10-03

it house news del 3 ottobre, openai ha annunciato il lancio del modello di trascrizione vocale whisper large-v3-turbo all'evento devday tenutosi il 1 ottobre, con un totale di 809 milioni di parametri, con quasi nessuna perdita di qualità e velocità 8 volte più veloce di large-v3.

il modello di trascrizione vocale whisper large-v3-turbo è una versione ottimizzata di large-v3 e ha solo 4 livelli di decodifica (decoder layers), rispetto a large-v3, che ha un totale di 32 livelli.

il modello di trascrizione vocale whisper large-v3-turbo ha un totale di 809 milioni di parametri, che è leggermente più grande del modello medio da 769 milioni di parametri, ma molto più piccolo del modello grande da 1,55 miliardi di parametri.

openai afferma che whisper large-v3-turbo è 8 volte più veloce del modello grande e richiede 6 gb di vram rispetto ai 10 gb del modello grande.

il modello di trascrizione vocale whisper large-v3-turbo ha una dimensione di 1,6 gb e openai continua a fornire whisper (compresi i pesi del codice e del modello) con la licenza mit.

it house ha citato i risultati dei test di awni hannun, che hanno mostrato che sull'm2 ultra, 12 minuti di contenuto sono stati trascritti in 14 secondi.

notizia

openai aggiorna il modello ai di trascrizione vocale di whisper, rendendolo 8 volte più veloce senza sacrificare la qualità

introduzione

le mie informazioni di contatto