Una valutazione di 10.000 parole di set di dati di ottimizzazione delle istruzioni di modelli di grandi dimensioni! Prodotto congiuntamente da Tencent e dall'Università Jiao Tong di Shanghai
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Contributo di Tencent Youtu Lab
Qubit |. Account pubblico QbitAI
Con il rapido sviluppo di modelli di grandi dimensioni, la messa a punto delle istruzioni gioca un ruolo cruciale nel migliorare le prestazioni del modello e le capacità di generalizzazione.
Tuttavia, i metodi di valutazione e selezione dei dati per l’ottimizzazione dei set di dati delle istruzioni non hanno ancora formato un sistema unificato e manca una revisione completa e approfondita.
Per colmare questa lacuna, Tencent Youtu Lab ha rilasciato una recensione completa per risolvere.
È lungo più di 10.000 parole e comprende più di 400 documenti.
Questo studio copre i metodi di valutazione e selezione dei dati in tre aspetti principali: qualità, diversità e importanza, ciascuno dei quali è classificato ed elaborato in dettaglio.
Allo stesso tempo, l'autore presta attenzione anche agli ultimi progressi e tendenze in questo campo, comprese alcune tecnologie e metodi emergenti, come l'utilizzo di potenti modelli linguistici come GPT per il punteggio dei dati, campionamento Coreset basato sull'ottimizzazione a due livelli, ecc. .
Valutazione completa dei set di dati di ottimizzazione delle istruzioni
L'obiettivo di sviluppo degli LLM è sbloccare la capacità di generalizzazione per le attività di elaborazione del linguaggio naturale (NLP), in cui l'ottimizzazione delle istruzioni gioca un ruolo importante e la qualità dei dati è cruciale per l'effetto dell'ottimizzazione delle istruzioni.
Gli autori conducono uno studio approfondito sui metodi di valutazione e selezione dei dati per vari set di dati di ottimizzazione delle istruzioni, classificandoli ed elaborandoli sotto tre aspetti: qualità, diversità e importanza.
★Valutazione e selezione della qualità
La “qualità” si riferisce principalmente alla completezza, accuratezza e ragionevolezza dei dati di risposta ai comandi. I metodi esistenti di solito sviluppano un meccanismo di punteggio unificato per considerare in modo completo queste dimensioni.
Per quanto riguarda la qualità del set di dati, l’autore riassume principalmente quattro metodi di prova:
- Il primo è progettare manualmente gli indicatori, ad esempio utilizzando il vocabolario, la sintassi, la somiglianza semantica, ecc. Per valutare la qualità dei dati. Il vantaggio è che il calcolo dell'indicatore è chiaro, ma non è in grado di rilevare coppie istruzione-risposta non corrispondenti.
- Il secondo consiste nell'utilizzare indicatori basati su modelli. Questo metodo utilizza un modello addestrabile (come l'uso della perplessità, un valutatore di punteggio multidimensionale, ecc.), combinato con una tecnologia ibrida di molteplici indicatori sensibili alla formazione (come l'incertezza, il punteggio di ricompensa). , ecc.). Questo metodo ha il potenziale per selezionare campioni imparziali di alta qualità.
- Il terzo metodo consiste nel trasmetterlo direttamente a GPT e chiamare le API OpenAI per valutare automaticamente il set di dati di ottimizzazione delle istruzioni. Questo metodo è altamente in linea con le preferenze umane dopo aver raccolto un numero limitato di campioni di punteggio GPT, perfezionando il LLM open source per la misurazione della qualità può migliorare l’efficienza dei costi.
- Infine, esiste la valutazione manuale. Questo metodo è indispensabile quando si costruiscono set di dati di allineamento delle preferenze e può fornire dati di alta qualità per l'addestramento del modello. Tuttavia, esiste il problema dell'incoerenza dell'etichettatura che deve essere formulata e integrata da altre misure come punteggio GPT.
★Valutazione e selezione della diversità
La diversità qui si riferisce alla diversità individuale (come il vocabolario e la ricchezza semantica) e alla diversità complessiva (come la distribuzione dei dati) del set di dati delle istruzioni. La scelta di un set di dati con diversità può migliorare la capacità di generalizzazione del modello.
L'autore riassume inoltre quattro modi per testare la diversità dei set di dati.
- Indicatori progettati manualmente: inclusa la diversità lessicale (come il rapporto Type-token, vocd-D, MTLD, HD-D, ecc.) e la diversità semantica (come il calcolo della distanza tramite il grafico k-NN, il calcolo della varianza utilizzando l'incorporamento BERT, ecc. ), ecc. tipo di indicatore.
- Metriche basate su modelli: valutare la diversità attraverso metodi relativi all'entropia (come entropia vanilla, entropia di Rényi, indice di Simpson, punteggio Vendi, ecc.), incorporamenti Task2Vec, marcatori di diversità in aperto, ecc.
- Campionamento del coreset basato su caratteristiche geometriche: selezionare il sottoinsieme più informativo e diversificato tramite k-center greedy, herding e altri metodi per rappresentare l'intero set di dati, in modo che le prestazioni di addestramento del modello sul sottoinsieme siano vicine alle prestazioni di addestramento sul intero set di dati, la tecnologia di clustering gioca un ruolo nella spiegazione della struttura dei dati.
- Campionamento Coreset basato su Bi-level: Trattare il campionamento Coreset come un problema di ottimizzazione bi-level, selezionando sottoinsiemi ottimizzando maschere hard o pesi soft, coinvolgendo l'ottimizzazione dei parametri interni del modello e il ciclo esterno di selezione dei dati. Vengono introdotti alcuni metodi mediante set di convalida, tecniche di corrispondenza e ottimizzazione del gradiente, ecc. per migliorare la robustezza e l'efficienza.
★Valutazione e selezione dell'importanza
L'importanza si riferisce alla necessità di campioni per l'addestramento del modello, che è correlato al compito del modello ed è anche correlato alle prestazioni. I campioni semplici potrebbero non richiedere ulteriori regolazioni, mentre i campioni difficili sono fondamentali per l'addestramento del modello.
Esistono diversi indicatori e metodi principali per valutare l’importanza:
- Metriche progettate manualmente: valuta la difficoltà del testo attraverso metriche di leggibilità (come grammatica, vocabolario, dipendenze di inferenza, ecc.), seleziona campioni stimolanti per valutare la robustezza del modello e costruire benchmark NLP discriminativi.
- Indicatori basati su modelli: inclusa l'incertezza (come l'incertezza immediata), i punteggi di ricompensa (utilizzando il modello di ricompensa per giudicare la necessità di campioni per il comportamento del modello) e modelli di dati (come prevedere l'impatto dei punti dati sul comportamento del modello attraverso il modello di dati, DSIR basato sul punteggio di importanza per la stima della similarità della distribuzione, selezione continua MATES del sottoinsieme più efficace, Xie et al selezionano campioni simili alla distribuzione target attraverso il ricampionamento dell'importanza) e altri metodi.
- Campionamento coreset basato su perdita ed errore: stima dell'importanza registrando gli errori dei campioni nell'addestramento (come dimenticare il punteggio, memorizzazione, influenza, ecc.), Selezionando campioni che contribuiscono notevolmente alla perdita o portano a scarse prestazioni, alcuni studi utilizzano l'approssimazione iterativa e piccoli agenti Il modello accelera il calcolo degli effetti marginali.
- Campionamento Coreset basato su gradiente: utilizza le caratteristiche dei gradienti per influenzare direttamente l'ottimizzazione del modello linguistico, selezionato tramite la corrispondenza del gradiente (come l'approssimazione del gradiente dell'intero set di dati) e l'influenza basata sul gradiente (come la misurazione dell'impatto dei campioni sui parametri del modello attraverso la moltiplicazione del gradiente con peso superiore) dati, alcune tecniche (come la ricerca di similarità del gradiente di rango basso, l'approssimazione del campione in movimento, ecc.) vengono utilizzate per accelerare i calcoli e migliorare l'efficienza, mentre è necessario considerare l'accuratezza e l'efficienza dell'approssimazione.
Sfide attuali e direzioni future
Gli autori hanno riscontrato un divario tra l’efficacia della selezione dei dati e le prestazioni riportate del modello sui benchmark, a causa di ragioni tra cui la scarsa correlazione tra la perdita di valutazione e le prestazioni del benchmark, la contaminazione del set di test, ecc.
In futuro, sarà necessario costruire benchmark specializzati per valutare i modelli di ottimizzazione delle istruzioni e i punti dati selezionati e per disaccoppiare la selezione dei dati e la valutazione del modello per escludere l’impatto della contaminazione dei dati.
Attualmente non esiste uno standard unificato per distinguere le istruzioni "buone" e "cattive". I metodi di misurazione della qualità esistenti sono specifici per l'attività e mancano di interpretabilità. In futuro, saranno necessarie definizioni più unificate e universali e una migliore interpretabilità dei processi di selezione per adattarsi alle diverse esigenze dei compiti a valle.
Man mano che il set di dati si espande, determinare il rapporto di selezione ottimale diventa difficile a causa di maggiori problemi di rumore, adattamento eccessivo e dimenticanza. Si consiglia di determinare il miglior rapporto di selezione attraverso schemi di misurazione della qualità, enfatizzando la diversità e considerando la somiglianza con i dati pre-addestramento. Rapporti di selezione ottimali e pipeline di scalabilità ottimizzate per la valutazione e la selezione dei dati.
Oltre ai set di dati, sta aumentando anche la dimensione dei modelli di grandi dimensioni stessi, rendendo la valutazione e la selezione dei dati meno convenienti, richiedendo lo sviluppo di modelli surrogati efficienti ripensando al contempo le tradizionali tecniche di apprendimento automatico come tecniche di ottimizzazione e metodi di riduzione della dimensionalità.
Home page del progetto:
https://github.com/yuleiqin/fantastic-data-engineering
Indirizzo cartaceo:
https://arxiv.org/abs/2408.02085