소식

아직도 ai 주문으로 어려움을 겪고 있나요? peking university-baichuan은 자동 알림 엔지니어링 시스템 pas를 개발했습니다.

2024-09-10

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

aixiv 칼럼은 machine heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 heart of the machine aixiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

논문의 공동 제1저자인 zheng miao는 zhou zenan이 이끄는 baichuan alignment team 출신으로 북경대학교를 졸업했습니다. 그의 연구 관심 분야는 대규모 언어 모델, 다중 모드 학습 및 컴퓨터 비전을 주도해 왔습니다. mmfflow와 같은 프로젝트. 공동 제1저자인 liang hao는 북경대학 첨단 학제간 연구 연구소의 박사 과정 학생입니다. 그의 연구 방향은 대형 모델의 데이터 측면이며, 지도교수는 zhang wentao 교수입니다. 북경대학교-바이촨 지능형 ai 시스템 공동 연구실은 2024년 1월에 설립되었습니다. 인공지능 모델 시스템의 전체 기술 프로세스에 대한 과학적이고 체계적인 데이터 생성 및 품질 평가 전략, 대규모 모델 훈련 및 추론 가속과 같은 중요한 문제를 연구하는 것을 목표로 합니다. . 공동 실험실은 북경대학교 보야학과의 특훈교수인 추이 빈(cui bin)과 바이촨 인텔리전스(baichuan intelligence)의 공동 창립자인 천 웨이펑(chen weipeng)이 지휘합니다.

transformer 아키텍처를 기반으로 한 대규모 언어 모델은 다양한 분야에서 획기적인 결과를 달성하고 있습니다. prompt engineering은 여기서 중요한 역할을 합니다.

좋은 힌트 단어를 통해 연구원과 개발자는 모델이 특정 작업에서 더 나은 성능을 발휘하도록 안내할 수 있습니다. 이 방법은 모델의 성능을 크게 향상시킬 수 있을 뿐만 아니라 모델의 적응성을 향상시켜 다양하고 복잡한 작업에 직면할 때 모델을 더욱 유연하고 효율적으로 만듭니다.

또한 프롬프트 단어 프로젝트는 모델의 학습 프로세스를 최적화하고 복잡한 문제 처리의 효율성을 향상시키며 교육 시간과 컴퓨팅 리소스 요구 사항을 줄일 수도 있습니다.

기존의 미세 조정 방법과 비교하여 프롬프트 워드 엔지니어링은 매우 저렴한 비용으로 모델을 여러 다운스트림 작업에 적용할 수 있어 컴퓨팅 리소스와 데이터 수집 비용을 크게 절약할 수 있습니다. 그러나 효과적인 큐 단어를 디자인하는 것은 비전문가에게는 여전히 어려운 일이며 종종 많은 학습과 연습이 필요합니다.

자동 프롬프트 프로젝트에 대규모 언어 모델을 직접 사용하여 이상적인 결과를 얻는 것은 일반적으로 어렵습니다. 부적절한 프롬프트는 모델의 주의를 산만하게 하고 실제로 성능을 저하시킬 수 있습니다. 따라서 사용자를 지원할 수 있고 조작하기 쉬운 자동 프롬프트 엔지니어링 시스템을 개발하는 것이 특히 중요합니다.

pas: 획기적인 자동 경고 엔지니어링 시스템

이러한 문제를 해결하기 위해 peking university-baichuan joint laboratory는 pas 자동 프롬프트 엔지니어링 시스템을 제안했습니다. pas의 혁신은 다음과 같습니다.

1. 고품질 자동 프롬프트 데이터 세트 디자인

2. gpt 모델에 대한 소수 표본 학습 및 데이터 스크리닝 수행

3. 간소화되고 효율적인 프롬프트 데이터 세트를 자동으로 구축합니다.

4. 미세 조정을 통한 효과적인 자동 프롬프트 엔지니어링 구현

pas는 사용자 입력을 간결하고 효과적으로 보완하여 스트리밍 디스플레이를 지원하는 빠르고 간단하며 자동 프롬프트 프로젝트를 실현할 수 있습니다.

여러 벤치마크 테스트에서 pas는 기존 sota 모델보다 훨씬 뛰어난 성능을 발휘하며 더 적은 데이터를 필요로 합니다. 수동 평가 결과도 pas의 성능이 뛰어나며 실제 응용 분야에서 엄청난 잠재력이 있음을 보여줍니다.

이 획기적인 결과는 프롬프트 단어 공학의 발전을 촉진할 뿐만 아니라 더 넓은 범위의 분야에서 대규모 언어 모델을 적용할 수 있는 길을 열어줍니다.

  • 논문 주소: https://arxiv.org/abs/2407.06027

  • pku-바이촨-mlsystemlab:

https://github.com/pku-baichuan-mlsystemlab

https://huggingface.co/pku-baichuan-mlsystemlab

방법

training pas는 크게 세 단계로 나누어집니다.

1단계: 고품질 문제 데이터 세트 구축

pas 훈련의 첫 번째 작업은 고품질 문제 데이터 세트를 구축하는 것입니다. 그림 (a)에서 볼 수 있듯이 연구원들은 lmsys-1m 및 wildchat 데이터 세트를 기반으로 다음 세 가지 측면을 통해 고품질 질문을 선별했습니다.

1. 데이터 중복 제거: 클러스터링 알고리즘과 결합된 임베딩 기술을 사용하여 중복 데이터를 효과적으로 제거합니다.

2. 품질 선별: baichuan 대형 모델을 사용하여 데이터 품질을 평가하고 선별합니다.

3. 다양성 보장: 10개 이상의 카테고리를 포괄하는 9,000개의 고품질 질문 데이터가 최종 선택되었습니다.

2단계: 신속한 엔지니어링 데이터 보완

이 단계에서 연구진은 내부에 축적된 100개의 고품질 데이터와 1단계에서 선별한 문제 데이터를 종합적으로 활용하고, gpt 모델의 도움으로 자동 프롬프트 엔지니어링 데이터를 구축하기 위해 퓨샷 학습 방법을 사용했습니다.

1. 초기 데이터 생성: 몇 번의 학습을 통해 gpt가 예비 프롬프트 엔지니어링 데이터를 생성하도록 안내합니다.

2. 품질 관리: critique 단계를 설계하고 few-shot 학습을 다시 사용하여 gpt가 생성된 데이터의 품질을 평가할 수 있도록 합니다.

3. 반복 최적화: 품질이 낮은 데이터를 자동으로 필터링하고 재생성하여 여러 차례의 반복을 통해 데이터 품질을 보장합니다.

4. 최종 결과: 9,000개의 고품질 자동 프롬프트 엔지니어링 데이터가 최종적으로 획득되었습니다.

데이터 배포

생성된 9000개 데이터의 분포는 위 그림과 같으며, 이는 데이터의 다양성과 대표성을 보장합니다.

3단계: 자동 프롬프트 모델 미세 조정

마지막 단계에서는 처음 두 단계에서 얻은 데이터 세트를 사용하여 대규모 언어 모델을 미세 조정합니다.

1. qwen2-7b 및 기타 모델과 같은 기본 모델을 선택하십시오.

2. 지시된 미세 조정: 미세 조정을 위해 고품질 데이터 세트를 사용합니다.

3. 전문 교육: 마지막으로 자동 프롬프트 프로젝트를 위해 특별히 대규모 언어 모델을 얻습니다.

실험 및 결과

직접 검토

인간 평가자의 평가에 따르면 pas는 이전 sota(state-of-the-art) 모델에 비해 다양한 분야에서 더 높은 승률을 보여줍니다. 많은 분야에서 평균 승률이 50%를 넘고, 승률과 추첨률을 합치면 80%가 넘을 정도로 높습니다.

기계 평가벤치마크

연구진은 pas의 성능을 종합적으로 평가하기 위해 arena-hard, alpaca-eval 2.0, alpaca-eval 2.0(lc)의 세 가지 벤치마크를 선택했습니다.

그런 다음 연구원들은 다음을 포함하여 6개의 상위 ai 모델에 pas를 적용했습니다.

  • gpt-4(세 가지 버전)

  • gpt-3.5

  • qwen2-72-지시

  • llama3-70b-지시

평가 결과는 다음과 같습니다.

  • pas는 프롬프트가 없는 경우와 이전 sota 자동 프롬프트 엔지니어링 모델에 비해 크게 개선되었습니다.

  • 이전 bpo 모델과 비교하여 pas는 더 큰 적응성을 보여주고 다양한 초대형 모델과 호환되며 각 모델의 성능이 향상되었습니다.

계산 효율성 분석

pas는 성능 측면에서 뛰어난 성능을 발휘할 뿐만 아니라 계산 효율성도 매우 뛰어납니다. 데이터 효율성 측면에서 뛰어난 성능을 발휘하려면 미세 조정된 데이터 9000개만 있으면 됩니다. 출력 효율성 측면에서 보충 자동 프롬프트의 길이를 일반적으로 30단어 이하로 제한할 수 있습니다.

사용자 경험 측면에서 pas는 특히 다음과 같은 대형 모델에 이점을 제공합니다.

  • bpo와 같은 이전 모델과 달리 pas는 사용자의 원래 질문을 수정할 필요가 없으며 보충적인 자동 프롬프트만 수정할 필요가 있습니다.

  • 제어 가능한 응답 시간으로 탁월한 사용자 경험을 제공합니다.

  • 대화형 경험을 더욱 향상시키기 위해 gpt와 같은 스트리밍 디스플레이를 지원합니다.

예: pas는 대형 모델이 논리 함정을 피하도록 도와줍니다.

"나무에 새 10마리가 있는데 그중 한 마리가 총에 맞아 죽으면 땅에는 몇 마리의 새가 있습니까?"

겉보기에 간단해 보이는 이 질문에는 실제로 영리한 논리적 함정이 숨겨져 있습니다. 이 질문을 보면 나무에는 새 9마리, 땅에는 1마리만 남아 있다는 사실을 깨닫는 데 몇 초가 걸릴 수 있습니다.

그림에서 볼 수 있듯이 pas의 도움 없이 gpt는 잘못된 답변을 제공합니다. pas 시스템은 프롬프트 단어를 보완하여 모델의 성능을 크게 향상시킵니다.

pas의 지도 하에 모델의 새로운 답변 라운드는 문제의 논리적 함정을 성공적으로 피했을 뿐만 아니라 명확한 다단계 논리적 추론 프로세스를 보여주었을 뿐만 아니라 사용자가 이해할 수 있도록 안내했습니다. 전체 추론 과정.

관심 있는 독자는 논문의 원문을 읽고 연구 내용에 대해 자세히 알아볼 수 있습니다.