notizia

hai ancora problemi con gli incantesimi dell'ia? l'università di pechino-baichuan ha sviluppato un sistema di ingegneria di promemoria automatico pas

2024-09-10

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

la rubrica aixiv è una rubrica in cui machine heart pubblica contenuti accademici e tecnici. negli ultimi anni, la rubrica heart of the machine aixiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. e-mail di presentazione: [email protected] [email protected];

zheng miao, il co-autore dell'articolo, fa parte del baichuan alignment team guidato da zhou zenan. si è laureato all'università di pechino. i suoi interessi di ricerca includono modelli linguistici di grandi dimensioni, apprendimento multimodale e visione artificiale progetti come mmflow. il co-primo autore liang hao è uno studente di dottorato presso l'istituto di studi interdisciplinari di frontiera dell'università di pechino. la sua direzione di ricerca è il lato dei dati di modelli di grandi dimensioni e il suo consulente è il professor zhang wentao. il laboratorio congiunto del sistema di intelligenza artificiale dell'università di pechino e di baichuan è stato istituito nel gennaio 2024. ha lo scopo di studiare questioni importanti come la generazione di dati scientifici e sistematici e le strategie di valutazione della qualità, l'addestramento di modelli di grandi dimensioni e l'accelerazione dell'inferenza attorno all'intero processo tecnico dei sistemi di modelli di intelligenza artificiale . il laboratorio congiunto è diretto da cui bin, illustre professore di boya presso l'università di pechino, e chen weipeng, co-fondatore di baichuan intelligence.

i grandi modelli linguistici basati sull'architettura transformer stanno ottenendo risultati rivoluzionari in vari campi. prompt engineering gioca un ruolo cruciale in questo.

con buoni suggerimenti, ricercatori e sviluppatori possono guidare i modelli affinché abbiano prestazioni migliori in compiti specifici. questo metodo può non solo migliorare significativamente le prestazioni del modello, ma anche migliorarne l'adattabilità, rendendolo più flessibile ed efficiente quando si affrontano vari compiti complessi.

inoltre, il progetto prompt word può anche ottimizzare il processo di apprendimento del modello, migliorare l'efficienza dell'elaborazione di problemi complessi e ridurre i tempi di formazione e i requisiti di risorse informatiche.

rispetto ai tradizionali metodi di perfezionamento, il prompt word engineering può adattare il modello a molteplici attività a valle a un costo molto basso, risparmiando in modo significativo sulle risorse di calcolo e sui costi di raccolta dei dati. tuttavia, progettare parole chiave efficaci è ancora impegnativo per i non esperti e spesso richiede molto apprendimento e pratica.

di solito è difficile ottenere risultati ideali utilizzando direttamente modelli linguistici di grandi dimensioni per progetti di prompt automatici. prompt inappropriati possono distrarre il modello e ridurre effettivamente le prestazioni. pertanto, è particolarmente importante sviluppare un sistema di ingegneria rapida automatico che possa assistere gli utenti e sia facile da utilizzare.

pas: sistema ingegneristico di allarme automatico rivoluzionario

per affrontare questa sfida, il laboratorio congiunto università di pechino-baichuan ha proposto il sistema di ingegneria rapida automatica pas. l’innovazione del pas è:

1. progettare un set di dati di richiesta automatica di alta qualità

2. eseguire l'apprendimento di pochi campioni e lo screening dei dati sul modello gpt

3. crea automaticamente un set di dati di prompt snello ed efficiente

4. implementare un'efficace ingegneria tempestiva automatica attraverso la messa a punto

pas può integrare in modo conciso ed efficace l'input dell'utente, realizzando un progetto rapido, semplice e automatico che supporta la visualizzazione in streaming.

in numerosi test di benchmark, pas supera di gran lunga i modelli sota esistenti e richiede meno dati. i risultati della valutazione manuale mostrano anche che pas ha prestazioni eccellenti, evidenziandone l’enorme potenziale nelle applicazioni pratiche.

questo risultato rivoluzionario non solo promuove lo sviluppo di un'ingegneria verbale tempestiva, ma apre anche la strada all'applicazione di modelli linguistici di grandi dimensioni in una gamma più ampia di campi.

  • indirizzo del documento: https://arxiv.org/abs/2407.06027

  • laboratorio di sistema ml-pku-baichuan:

https://github.com/pku-baichuan-mlsystemlab

https://huggingface.co/pku-baichuan-mlsystemlab

metodo

la formazione pas si articola principalmente in tre fasi:

passaggio 1: creare un set di dati sui problemi di alta qualità

il primo compito nell'addestramento del pas è costruire un set di dati sui problemi di alta qualità. come mostrato nella figura (a), i ricercatori hanno selezionato domande di alta qualità basate sui set di dati lmsys-1m e wildchat attraverso i seguenti tre aspetti:

1. deduplicazione dei dati: utilizza la tecnologia di incorporamento combinata con algoritmi di clustering per rimuovere in modo efficace i dati duplicati.

2. screening della qualità: utilizzare il modello grande di baichuan per valutare e analizzare la qualità dei dati.

3. garanzia di diversità: alla fine sono stati selezionati 9.000 dati di domande di alta qualità che coprono più di 10 categorie.

passaggio 2: integrare i dati tecnici richiesti

in questa fase, i ricercatori hanno utilizzato in modo completo i 100 dati di alta qualità accumulati internamente e i dati relativi ai problemi analizzati nella prima fase, e hanno utilizzato il metodo di apprendimento a pochi scatti per creare dati di prompt engineering automatici con l’aiuto del modello gpt:

1. generazione iniziale dei dati: utilizzare l'apprendimento "low-shot" per guidare gpt nella generazione di dati preliminari di ingegneria tempestiva.

2. controllo di qualità: progetta la fase di critica e utilizza nuovamente l'apprendimento a scatti per consentire a gpt di valutare la qualità dei dati generati.

3. ottimizzazione iterativa: filtra automaticamente i dati di bassa qualità e rigenerali per garantire la qualità dei dati attraverso più cicli di iterazione.

4. risultato finale: sono stati finalmente ottenuti 9.000 dati di ingegneria rapida automatica di alta qualità.

distribuzione dei dati

la distribuzione dei 9000 dati generati è mostrata nella figura sopra, garantendo la diversità e la rappresentatività dei dati.

passaggio 3: ottimizzare il modello di richiesta automatica

la fase finale utilizzerà il set di dati ottenuto nelle prime due fasi per mettere a punto il modello linguistico di grandi dimensioni:

1. seleziona un modello base: come qwen2-7b e altri modelli.

2. ottimizzazione diretta: utilizzare set di dati di alta qualità per l'ottimizzazione.

3. formazione specialistica: infine, si ottiene un ampio modello linguistico specifico per progetti di prompt automatico.

esperimenti e risultati

revisione manuale

secondo la valutazione dei valutatori umani, pas mostra un tasso di vincita più elevato in vari campi rispetto al precedente modello sota (state-of-the-art). il tasso medio di vincita in molti campi supera il 50% e la somma del tasso di vincita e del tasso di estrazione supera l'80%.

valutazione della macchinabenchmark

per valutare in modo completo le prestazioni del pas, i ricercatori hanno selezionato tre parametri di riferimento: arena-hard, alpaca-eval 2.0 e alpaca-eval 2.0 (lc).

i ricercatori hanno poi applicato il pas a sei principali modelli di intelligenza artificiale, tra cui:

  • gpt-4 (tre versioni)

  • gpt-3.5

  • qwen2-72-istruisci

  • llama3-70b-istruzione

i risultati della valutazione mostrano:

  • pas ottiene miglioramenti significativi sia rispetto al caso senza prompt sia rispetto al precedente modello ingegneristico con prompt automatico sota.

  • rispetto ai precedenti modelli bpo, pas mostra una maggiore adattabilità, è compatibile con una varietà di modelli molto grandi e ottiene miglioramenti delle prestazioni su ciascun modello.

analisi dell'efficienza computazionale

pas non solo funziona bene in termini di prestazioni, ma è anche molto efficiente dal punto di vista computazionale: in termini di efficienza dei dati, richiede solo 9000 dati ottimizzati per dimostrare prestazioni superiori. in termini di efficienza dell'output, può limitare la lunghezza dei prompt automatici supplementari, solitamente non più di 30 parole.

in termini di esperienza utente, pas apporta vantaggi anche ai modelli di grandi dimensioni, in particolare:

  • a differenza dei modelli precedenti come bpo, pas non ha bisogno di modificare la domanda originale dell'utente, ma solo di suggerimenti automatici supplementari.

  • fornire un'esperienza utente eccellente con tempi di risposta controllabili.

  • supporta la visualizzazione in streaming simile a gpt per migliorare ulteriormente l'esperienza interattiva.

esempio: pas aiuta i modelli di grandi dimensioni a evitare trappole logiche

"se ci sono 10 uccelli sull'albero e uno di loro viene ucciso, quanti uccelli ci sono a terra?"

questa domanda apparentemente semplice nasconde in realtà una trappola logica intelligente. quando la vedi, potrebbero volerci alcuni secondi per capire che sono rimasti 9 uccelli sull'albero e solo 1 a terra.

come mostrato in figura, senza l'ausilio di pas, gpt dà risposte errate. il sistema pas migliora significativamente le prestazioni del modello integrando parole immediate:

sotto la guida di pas, il nuovo ciclo di risposte del modello ha mostrato miglioramenti significativi, non solo ha evitato con successo le trappole logiche nelle domande, ha dimostrato un processo di ragionamento logico chiaro e in più fasi, ma ha anche fornito agli utenti la risposta corretta l'intero processo di ragionamento.

i lettori interessati possono leggere il testo originale dell'articolo per saperne di più sul contenuto della ricerca.