robin li smaschera l'illusione di "punteggi" di grandi modelli: l'elenco non rappresenta tutti i punti di forza e il divario tra i modelli diventerà più ampio in futuro

robin li smaschera l'illusione di "punteggi continui" di modelli di grandi dimensioni: l'elenco non rappresenta tutti i punti di forza e il divario tra i modelli diventerà più ampio in futuro

2024-09-12

ogni volta che viene rilasciata una nuova versione di un modello di grandi dimensioni, l'industria è sempre pronta a citare i dati di elenchi di terze parti, "eseguire un punteggio" con il proprio modello di grandi dimensioni e gpt-4, sostenendo che ha superato determinati indicatori dimostrare la loro forza tecnica in modelli di grandi dimensioni.

ma in un recente scambio tra il presidente di baidu robin li e i dipendenti interni, ha perforato la "carta della finestra" che ostacola il benchmarking nel grande settore dei modelli. "ogni volta che esce un nuovo modello, deve essere confrontato con gpt-4o. si dice che il mio punteggio sia quasi uguale a lui, e addirittura lo superi in alcune singole voci, ma questo non significa che non ci sia divario con i modelli più avanzati”.

ha inoltre spiegato che i divari tra i modelli sono multidimensionali. una dimensione è l'aspetto dell'abilità, che si tratti del divario nelle abilità di base come capacità di comprensione, capacità di generazione, capacità di ragionamento logico o capacità di memoria; l'altra dimensione è l'aspetto del costo. sebbene alcuni modelli possano ottenere lo stesso effetto, il costo lo è alto e la velocità di ragionamento è lenta, infatti, è ancora inferiore ai modelli avanzati.

"c'è anche un eccesso di adattamento del set di test. ogni modello che vuole dimostrare le sue capacità andrà in classifica. quando farà la classifica, dovrà indovinare cosa stanno testando gli altri e quali tecniche posso usare per ottenerlo giusto, quindi a giudicare dall'elenco o dal set di test, pensi che le capacità siano molto vicine, ma c'è ancora un chiaro divario nelle applicazioni reali," ha detto robin li.

un grande professionista del modello ha detto ai giornalisti che l'adattamento eccessivo (over-fitting) del set di test menzionato da robin li si riferisce principalmente al fatto che durante il processo di addestramento del modello, il modello apprende i dati di addestramento con troppa attenzione, in modo che il modello non lo faccia non funzionano bene con i dati di addestramento. le prestazioni sono molto buone, ma le prestazioni sono scarse con i dati di test invisibili. ciò di solito significa che il modello è così complesso da essere in grado di "ricordare" il rumore e i dettagli nei dati di addestramento, ma questi dettagli e rumore non sono generali e pertanto il modello non si generalizza bene a dati più nuovi.

le persone sopra menzionate ritengono che esistano effettivamente dei limiti alla classificazione e ai punteggi correnti. ad esempio, a causa dell'apertura del set di dati di valutazione, il modello può essere addestrato in modo mirato per migliorare la classifica, provocando il fenomeno di ". scorrere la classifica". tuttavia, non è del tutto privo di significato. la classifica è ancora relativamente fornisce uno standard di valutazione quantitativa per aiutare le persone a comprendere rapidamente le prestazioni di diversi modelli di grandi dimensioni, spinge tutti a ottimizzare continuamente il livello tecnico dei modelli di grandi dimensioni attraverso la concorrenza, e svolge anche un certo ruolo nella pubblicità e nella promozione.

secondo robin li, "parte dell'hype automediale, unito alla motivazione per la pubblicità quando viene rilasciato ogni nuovo modello, dà a tutti l'impressione che la differenza nelle capacità tra i modelli sia relativamente piccola. in realtà, non è così " robin li ha affermato che nell'uso reale, baidu non consente al personale tecnico di stilare classifiche. la misurazione reale delle capacità dei modelli di grandi dimensioni dovrebbe avvenire in scenari applicativi specifici per vedere se possono soddisfare le esigenze degli utenti e generare guadagni di valore.

per quanto riguarda i "12 mesi avanti o 18 mesi indietro", spesso menzionati nell'industria dei modelli di grandi dimensioni, pensa che non sia così importante. poiché ogni azienda si trova in un ambiente di mercato completamente competitivo, ci sono molti concorrenti, indipendentemente dalla direzione che prendono. "se puoi sempre garantire che sarai 12-18 mesi avanti rispetto ai tuoi concorrenti, sarai invincibile. non pensare che 12-18 mesi sia un periodo di tempo breve. anche se puoi garantire che sarai sempre con 6 mesi di vantaggio rispetto ai tuoi concorrenti, vincerai. la tua quota di mercato potrebbe essere del 70%, mentre il tuo avversario potrebbe avere solo il 20% o addirittura il 10%.

secondo lui il divario tra i modelli di grandi dimensioni potrebbe ampliarsi in futuro. poiché il tetto dei modelli di grandi dimensioni è molto elevato, è ancora lontano dalla situazione ideale. pertanto, il modello deve essere continuamente ripetuto, aggiornato e aggiornato rapidamente; deve essere in grado di investire continuamente per diversi anni o più di dieci anni per soddisfare continuamente le esigenze degli utenti, ridurre i costi e aumentare l’efficienza.

oltre a discutere se esistano ostacoli alla concorrenza nei modelli di grandi dimensioni, durante lo scambio robin li ha anche affermato che ci sono parecchi malintesi sui modelli di grandi dimensioni, inclusi argomenti come l'efficienza dei modelli open source e closed source e l'intelligenza artificiale. agente.

robin li è un convinto sostenitore dei modelli di grandi dimensioni a codice chiuso: "prima dell'era dei modelli di grandi dimensioni, tutti erano abituati all'open source, che significa gratuito e a basso costo." ha spiegato che, ad esempio, linux è open source, perché i computer esistono già viene utilizzato linux. è gratuito. ma questo non è vero nell’era dei modelli di grandi dimensioni. l’inferenza dei modelli di grandi dimensioni è molto costosa e i modelli open source non forniscono potenza di calcolo. è necessario acquistare la propria attrezzatura, che non può ottenere un utilizzo efficiente della potenza di calcolo.

"il modello open source non è efficiente in termini di efficienza." ha affermato: "per essere precisi, il modello closed source dovrebbe essere chiamato modello di business. consente a innumerevoli utenti di condividere i costi di ricerca e sviluppo, le risorse della macchina e le gpu utilizzate per ragionamento. l'efficienza di utilizzo della gpu è la più alta. articolo di baidu l'utilizzo della gpu dei modelli xinda 3.5 e 4.0 ha raggiunto oltre il 90% "

robin li ha analizzato che in campi come l'insegnamento e la ricerca scientifica, il modello open source è prezioso ma in campo commerciale, quando si persegue l'efficienza, l'efficacia e il minor costo, il modello open source non presenta vantaggi;

ha espresso anche le sue opinioni sull'evoluzione applicativa dei modelli di grandi dimensioni. il primo è copilot, che assiste le persone, il successivo è agent intelligence, che ha un certo grado di autonomia e può utilizzare gli strumenti in modo indipendente, riflettere e autoevolversi; se questo livello di automazione si sviluppa ulteriormente, diventerà un ai worker in grado di completare tutti gli aspetti del lavoro in modo indipendente.

attualmente, gli agenti intelligenti hanno attirato sempre più l'attenzione di grandi aziende modello e clienti. robin li ritiene che, sebbene molte persone siano ottimiste su questa direzione di sviluppo, ad oggi, gli agenti intelligenti non sono un consenso.

"la soglia per gli agenti intelligenti è davvero molto bassa." ha detto che molte persone non sanno come trasformare modelli di grandi dimensioni in applicazioni, ma gli agenti intelligenti sono un modo molto diretto, efficiente e semplice per costruire intelligenti agenti sopra i modelli.

(questo articolo proviene da china business news)

segnalazione/feedback

notizia

robin li smaschera l'illusione di "punteggi continui" di modelli di grandi dimensioni: l'elenco non rappresenta tutti i punti di forza e il divario tra i modelli diventerà più ampio in futuro

introduzione

le mie informazioni di contatto