2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mingmin vient du temple Aofei
Qubits | Compte public QbitAI
Générez 20 000 mots en une seule fois, et la sortie du grand modèle est également cumulée !
Les dernières recherches de Tsinghua & Zhipu AI ont réussi à augmenter la longueur de sortie de GLM-4 et Llama-3.1.
Sous le même problème, le résultat de sortie est passé directement de 1 800 mots à 7 800 mots.4 fois。
Il faut savoir que la longueur de génération actuelle des grands modèles est généralement inférieure à 2k. Cela a un impact sur la création de contenu, la réponse aux questions, etc., ce qui peut conduire à des réponses incomplètes aux questions par le modèle et à une créativité réduite.
La recherche a été codirigée par Li Juanzi et Tang Jie, fondateurs de Zhipu AI et professeurs à l'Université Tsinghua.
Le document et le code sont disponibles en open source sur GitHub.
Certains internautes en ont déjà fait l'expérience en premier. LongWriter-llama3.1-8b peut générer un texte de 10 000 mots « L'histoire du déclin de l'Empire romain », qui peut être exécuté sur MacBook Pro 2018 (32 Go).
Le contenu de sortie est très précis et peut recevoir la note A++.
Le modèle 9B gère la sortie de 10 000 mots
Cette recherche comprend principalement trois aspects de travail.
Tout d’abord, les chercheurs ont construit un outil de test, LongWrite-Ruler. En testant plusieurs grands modèles, ils ont constaté que tous les modèles généraientPlus de 2000 motsdifficultés avec le texte.
En analysant plus en profondeur les journaux d'interaction des utilisateurs avec de grands modèles, les chercheurs ont constaté qu'un peu plus de 1 % des demandes des utilisateurs mentionnaient explicitementPour générer plus de 2000 motstexte.
Pour ce faire, ils ont modifié le modèle utilisé lors de l’étape de réglage fin supervisé (SFT).La longueur maximale de sortie de l'ensemble de données。
Il a été constaté que la longueur de sortie maximale du modèle était cohérente avec la longueur de sortie maximale dans l'ensemble de données SFT.corrélation positive significative。
Par conséquent, nous concluons que les modèles existants sont limités en termes de longueur de sortie, principalement à cause deLes échantillons de sortie longs sont manquants dans l'ensemble de données SFT。
Même si le modèle a vu des séquences plus longues au cours de la phase de pré-formation, le manque d'échantillons de texte longs au cours de la phase SFT affectera toujours la longueur de sortie.
Pour surmonter cette limitation, les chercheurs ont proposéAgentWrite。
Il s'agit d'un pipeline basé sur un agent.
Il permet de décomposer des tâches de génération de texte très longues en plusieurs sous-tâches, chacune en gérant une section.
Le processus spécifique est qu'AgentWrite développe d'abord un plan de rédaction détaillé basé sur les instructions de l'utilisateur. Le plan comprend les principaux points de contenu et le nombre cible de mots pour chaque paragraphe. Selon le plan, AgentWrite invite séquentiellement le modèle à générer le contenu de chaque paragraphe.
Sur la base d'AgentWrite, l'équipe a utilisé GPT-4o pour générer 6 000 données SFT de sortie longues, avec une longueur de sortie allant de 2 000 à 32 000 mots, formant l'ensemble de données LongWriter-6k. et ajoutez ces données au processus de formation.
Afin de vérifier l’efficacité de la méthode, l’équipe a également proposé un LongBench-Write. Il contient une variété d'instructions d'écriture utilisateur et les spécifications de longueur de sortie sont de 0 à 500 mots, de 500 à 2 000 mots, de 2 000 à 4 000 mots et de plus de 4 000 mots.
Les résultats de l'évaluation montrent que la longueur de sortie du modèle augmente considérablement après l'utilisation d'AgentWrite.
Grâce à l'optimisation directe des préférences (DPO), le GLM-4-9B atteint les meilleures performances parmi les modèles.
Les internautes aux mains rapides ont déjà pris les devants en le testant.
Un internaute sur Reddit a demandé à LongWriter-llama3.1-8b de générer l'histoire du déclin de l'Empire romain. Cela a pris 22 minutes au total (selon le matériel) et a généré en moyenne 3,34 jetons par seconde.
Le contenu généré est relativement formel, et la structure et le rythme de réponse aux différentes questions sont similaires.
Quoi qu'il en soit, c'est un bon début et les améliorations sont évidentes.
L'équipe de recherche a également déclaré qu'elle augmenterait encore la longueur et la qualité de la production du modèle à l'avenir, et qu'elle commencerait également à étudier comment améliorer l'efficacité sans sacrifier la qualité de la production.
Liens de référence :
https://github.com/THUDM/LongWriter