소식

다중 모드 모델 평가 프레임워크 lmms-eval이 출시되었습니다! 포괄적인 적용 범위, 저렴한 비용, 무공해

2024-08-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다.제출 이메일: [email protected] [email protected]

함께대형 모델연구가 심화됨에 따라 이를 어떻게 더 많은 양식으로 확장할 것인가가 학계와 산업계에서 뜨거운 주제가 되었습니다. 최근 출시된 비공개 소스 대형 모델 GPT-4o클로드 3.5 등은 이미 슈퍼 이미지 이해 능력을 갖췄으며, LLaVA-NeXT, MiniCPM, InternVL 등 오픈소스 도메인 모델 역시 클로즈드소스에 가까워진 성능을 보이고 있다.


"무당 80,000kg"과 "10일마다 하나의 SoTA" 시대에 사용하기 쉽고 투명한 표준을 가지며 재현 가능한 다중 모드 평가 프레임워크가 점점 더 중요해지고 있으며 이는 쉽지 않습니다.


위의 문제를 해결하기 위해 난양기술대학교 LMMs-Lab 연구진은 다중 모드 대규모 모델을 위해 특별히 설계된 평가 프레임워크이자 다중 모드 모델 평가 방법을 제공하는 LMMs-Eval을 공동으로 오픈소스로 공개했습니다. (LMM). 원스톱 효율적인 솔루션입니다.


  • 코드 저장소: https://github.com/EvolvingLMMs-Lab/lmms-eval

  • 공식 홈페이지 : https://lmms-lab.github.io/

  • 논문 주소: https://arxiv.org/abs/2407.12772

  • 목록 주소: https://huggingface.co/spaces/lmms-lab/LiveBench


2024년 3월 출시 이후 LMMs-Eval 프레임워크는 오픈 소스 커뮤니티, 기업, 대학을 포함한 많은 당사자로부터 공동 기여를 받았습니다. 현재 Github에서 1.1K 별을 얻었으며 총 80개 이상의 데이터 세트와 10개 이상의 모델을 포함하여 30명 이상의 기여자가 있으며 여전히 성장하고 있습니다.

 

표준화된 평가 프레임워크


표준화된 평가 플랫폼을 제공하기 위해 LMMs-Eval에는 다음 기능이 포함되어 있습니다.


  1. 통합 인터페이스: LMMs-Eval은 텍스트 평가 프레임워크 lm-evaluation-harness를 기반으로 개선되고 확장되었습니다. 모델, 데이터 세트 및 평가 지표에 대한 통합 인터페이스를 정의함으로써 사용자가 새로운 다중 모드 모델 및 데이터를 추가하는 것이 편리합니다. 세트.

  2. 원클릭 실행: LMMs-Eval은 HuggingFace에서 모든 변형, 버전 및 분할을 포함하여 원본 소스에서 신중하게 변환된 80개가 넘는(계속 증가하고 있는) 데이터 세트를 호스팅합니다. 사용자는 어떤 준비도 할 필요가 없습니다. 단 하나의 명령으로 여러 데이터 세트와 모델이 자동으로 다운로드되어 테스트되며 결과는 몇 분 안에 제공됩니다.

  3. 투명하고 재현 가능: LMMs-Eval에는 통합 로깅 도구가 내장되어 있습니다. 모델이 답변한 각 질문과 그것이 올바른지 여부가 기록되어 재현성과 투명성이 보장됩니다. 또한 다양한 모델의 장점과 단점을 쉽게 비교할 수 있습니다.


LMMs-Eval의 비전은 미래의 다중 모드 모델이 더 이상 자체 데이터 처리, 추론 및 제출 코드를 작성할 필요가 없다는 것입니다. 다중 모드 테스트 세트가 집중되어 있는 오늘날의 환경에서 이 접근 방식은 비현실적이며 측정된 점수를 다른 모델과 직접 비교하기가 어렵습니다. LMMs-Eval에 액세스함으로써 모델 트레이너는 평가 및 정렬 결과에 시간을 소비하는 대신 모델 자체를 개선하고 최적화하는 데 더 집중할 수 있습니다.


평가의 '불가능한 삼각형'


LMM-Eval의 궁극적인 목표는 1. 넓은 커버리지, 2. 저렴한 비용, 3. 데이터 유출이 없는 LMM을 평가하는 방법을 찾는 것입니다. 그러나 LMMs-Eval을 사용하더라도 저자 팀은 이 세 가지 사항을 동시에 달성하는 것이 어렵거나 심지어 불가능하다는 사실을 발견했습니다.


아래 그림에서 볼 수 있듯이 평가 데이터 세트를 50개 이상으로 확장했을 때 이러한 데이터 세트에 대한 종합적인 평가를 수행하는 데 매우 많은 시간이 소요되었습니다. 또한 이러한 벤치마크는 훈련 중에 오염되기 쉽습니다. 이를 위해 LMMs-Eval은 넓은 커버리지와 저렴한 비용을 고려하여 LMMs-Eval-Lite를 제안했습니다. 또한 그들은 LiveBench를 저렴하고 데이터 누출이 없도록 설계했습니다.

 

LMMs-Eval-Lite: 넓은 적용 범위를 갖춘 경량 평가

 

대규모 모델을 평가할 때 많은 수의 매개변수와 테스트 작업으로 인해 평가 작업에 소요되는 시간과 비용이 급격히 증가하는 경우가 많습니다. 따라서 사람들은 평가를 위해 더 작은 데이터 세트를 사용하거나 특정 데이터 세트를 사용하는 경우가 많습니다. 그러나 제한된 평가로 인해 모델 기능에 대한 이해가 부족한 경우가 많습니다. 평가의 다양성과 평가 비용을 모두 고려하기 위해 LMMs-Eval은 LMMs-Eval-Lite를 출시했습니다.

 

LMMs-Eval-Lite는 모델 개발 중에 유용하고 빠른 신호를 제공하여 오늘날 테스트의 팽창 문제를 방지하기 위해 단순화된 벤치마크 세트를 구축하는 것을 목표로 합니다. 모델 간의 절대 점수와 상대 순위가 전체 세트와 유사하게 유지되는 기존 테스트 세트의 하위 세트를 찾을 수 있다면 이러한 데이터 세트를 정리하는 것이 안전하다고 간주할 수 있습니다.


데이터 세트에서 데이터 핵심 포인트를 찾기 위해 LMMs-Eval은 먼저 CLIP 및 BGE 모델을 사용하여 다중 모달 평가 데이터 세트를 벡터 임베딩 형태로 변환하고 k-탐욕 클러스터링 방법을 사용하여 데이터 핵심을 찾습니다. 전철기. 테스트에서 이러한 소규모 데이터 세트는 여전히 전체 세트와 유사한 평가 기능을 보여주었습니다.

 

이후 LMMs-Eval은 동일한 방법을 사용하여 더 많은 데이터 세트를 포함하는 Lite 버전을 생성했습니다. 이러한 데이터 세트는 사람들이 개발 중에 평가 비용을 절약하여 모델 성능을 신속하게 판단할 수 있도록 설계되었습니다.

 

LiveBench: LMM의 동적 테스트

기존 벤치마크는 고정된 질문과 답변을 사용하는 정적 평가에 중점을 둡니다. 다중 모드 연구가 진행됨에 따라 오픈 소스 모델은 점수 비교에서는 GPT-4V와 같은 상용 모델보다 우수한 경우가 많지만 실제 사용자 경험에서는 뒤떨어집니다. 동적, 사용자 지향 Chatbots Arenas 및 WildVision은 모델 평가에 점점 더 인기를 얻고 있지만 수천 개의 사용자 선호도를 수집해야 하므로 평가 비용이 매우 많이 듭니다.


LiveBench의 핵심 아이디어는 오염 제로를 달성하고 비용을 낮게 유지하기 위해 지속적으로 업데이트되는 데이터 세트에서 모델의 성능을 평가하는 것입니다. 저작팀은 웹에서 평가 데이터를 수집하고 뉴스, 커뮤니티 포럼 등 웹사이트에서 최신 글로벌 정보를 자동으로 수집하는 파이프라인을 구축했습니다. 정보의 적시성과 신뢰성을 보장하기 위해 저자 팀은 CNN, BBC, 일본 아사히 신문, 중국 신화 통신사를 포함한 60개 이상의 뉴스 매체와 Reddit과 같은 포럼에서 출처를 선택했습니다. 구체적인 단계는 다음과 같습니다:


  1. 홈페이지의 스크린샷을 캡처하고 광고와 뉴스가 아닌 요소를 제거하세요.

  2. GPT4-V, Claude-3-Opus 및 Gemini-1.5-Pro와 같이 현재 사용 가능한 가장 강력한 다중 모드 모델을 사용하여 질문 및 답변 세트를 설계합니다. 다른 모델에 의해 검토 및 수정됨

  3. 정확성과 관련성을 보장하기 위한 질문입니다.

  4. 최종 질문과 답변 세트는 수동으로 검토되며, 매달 약 500개의 질문이 수집되며, 100~300개가 최종 라이브벤치 질문 세트로 유지됩니다.

  5. 채점 기준은 LLaVA-Wilder와 Vibe-Eval의 채점 모델 점수를 사용하였으며, 채점 모델 점수는 제공된 표준 답변을 기준으로 하며 점수 범위는 [1, 10]입니다. 기본 채점 모델은 GPT-4o이며 Claude-3-Opus 및 Gemini 1.5 Pro도 대안으로 포함되어 있습니다. 최종 보고 결과는 0~100 범위의 정확도 측정항목으로 변환된 점수를 기반으로 합니다.

 

앞으로는 동적으로 업데이트되는 목록에서 매월 동적으로 업데이트되는 다중 모드 모델의 최신 평가 데이터와 목록의 최신 평가 결과를 볼 수도 있습니다.