Tsinghua University Tang Jie 팀의 새로운 작업: 한 번에 20,000 단어 생성, 대형 모델 오픈북 및 긴 출력

2024-08-15

Mingmin은 Aofei Temple에서 왔습니다.
Qubits 공개 계정 QbitAI

한 번에 20,000 단어를 생성하고, 대형 모델 출력도 롤업됩니다!

Tsinghua & Zhipu AI의 최신 연구는 GLM-4 및 Llama-3.1의 출력 길이를 성공적으로 늘렸습니다.

동일한 문제에서 출력 결과가 1800 단어에서 7800 단어로 직접 증가했습니다.4회。

현재 대형 모델의 생성 길이는 일반적으로 2k 미만이라는 점을 알아야 합니다. 이는 콘텐츠 제작, 질문 답변 등에 영향을 미치며, 이는 모델의 질문에 대한 불완전한 답변으로 이어질 수 있으며 창의성이 저하될 수 있습니다.

이 연구는 Zhipu AI의 창립자이자 칭화대학교 교수인 Li Juanzi와 Tang Jie가 공동으로 주도했습니다.

논문과 코드는 GitHub에서 오픈소스로 공개되었습니다.

일부 네티즌들은 이미 이를 먼저 경험한 바 있다. LongWriter-llama3.1-8b는 MacBook Pro 2018(32GB)에서 실행할 수 있는 10,000 단어의 "로마 제국 쇠퇴의 역사" 텍스트를 생성할 수 있습니다.

출력 내용은 매우 정확하며 A++를 받을 수 있습니다.

9B 모델은 10,000 단어 출력을 처리합니다.

본 연구는 크게 세 가지 업무 측면을 포함한다.

텍스트 생성 길이 제한 요인 분석
제안된에이전트쓰기
LLM 출력 창 크기 확장

먼저, 연구원들은 LongWrite-Ruler라는 테스트 도구를 구축했습니다. 여러 개의 대형 모델을 테스트한 결과 모든 모델이 생성되고 있음을 발견했습니다.2000 단어 이상텍스트의 어려움.

대규모 모델을 사용한 사용자 상호 작용 로그를 추가로 분석한 결과 연구원들은 사용자 요청의 1% 이상이 명시적으로 언급된 것으로 나타났습니다.2000개 이상의 단어를 생성하려면텍스트.

이를 위해 SFT(Supervised Fine Tuning) 단계에서 사용되는 모델을 변경했습니다.데이터 세트의 최대 출력 길이。

모델의 최대 출력 길이는 SFT 데이터 세트의 최대 출력 길이와 일치하는 것으로 나타났습니다.유의미한 양의 상관관계。

따라서 기존 모델은 주로 다음과 같은 이유로 출력 길이에 제한이 있다고 결론지을 수 있습니다.SFT 데이터세트에 긴 출력 샘플이 누락되었습니다.。

모델이 사전 훈련 단계에서 더 긴 시퀀스를 보더라도 SFT 단계에서 긴 텍스트 샘플이 부족하면 여전히 출력 길이에 영향을 미칩니다.

이러한 한계를 극복하기 위해 연구자들은 제안했습니다.에이전트 쓰기。

이는 에이전트 기반 파이프라인입니다.

매우 긴 텍스트 생성 작업을 각각의 섹션을 처리하는 여러 하위 작업으로 분해할 수 있습니다.

구체적인 과정은 AgentWrite가 먼저 사용자 지시에 따라 상세한 작문 계획을 개발하는 것입니다. 계획에는 각 단락의 주요 내용 포인트와 목표 단어 수가 포함됩니다. 계획에 따라 AgentWrite는 각 단락의 내용을 생성하도록 모델에 순차적으로 프롬프트를 표시합니다.

AgentWrite를 기반으로 팀은 GPT-4o를 사용하여 6,000개의 긴 출력 SFT 데이터를 생성했으며, 출력 길이는 2k ~ 32k 단어 범위로 LongWriter-6k 데이터 세트를 구성했습니다. 이 데이터를 학습 프로세스에 추가합니다.

연구팀은 이 방법의 유효성을 검증하기 위해 LongBench-Write도 제안했다. 다양한 사용자 쓰기 명령이 포함되어 있으며 출력 길이 사양은 0~500단어, 500~2000단어, 2000~4000단어 및 4000단어 이상입니다.

평가 결과, AgentWrite를 사용한 후 모델 출력 길이가 크게 증가하는 것으로 나타났습니다.

DPO(직접 선호 최적화)를 통해 GLM-4-9B는 모델 중 최고의 성능을 달성합니다.

손이 빠른 네티즌들은 이미 테스트에 앞장섰다.

Reddit의 한 네티즌은 LongWriter-llama3.1-8b에게 로마 제국의 쇠퇴 역사를 생성해 달라고 요청했습니다. (하드웨어에 따라) 22분이 걸렸고 초당 평균 3.34개의 토큰이 생성되었습니다.

생성된 콘텐츠는 비교적 정형화되어 있으며 다양한 질문에 답하는 구조와 리듬도 유사합니다.

그럼에도 불구하고, 이는 좋은 시작이며 개선 사항은 분명합니다.

연구팀은 또한 앞으로 모델의 출력 길이와 출력 품질을 더욱 확장할 예정이며, 발전 품질을 희생하지 않고 효율성을 향상시킬 수 있는 방법에 대해서도 연구에 착수할 것이라고 밝혔습니다.

참조 링크:
https://github.com/THUDM/LongWriter

소식

Tsinghua University Tang Jie 팀의 새로운 작업: 한 번에 20,000 단어 생성, 대형 모델 오픈북 및 긴 출력

소개

내 연락처 정보