2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- 크레시는 아오페이 사원(Aofei Temple)에서 왔습니다.
Qubits 공개 계정 QbitAI
Apple 팀은 대규모 모델 도구 호출 기능에 대한 일련의 벤치마크인 새로운 오픈 소스 성과를 발표했습니다.
이 벤치마크는 혁신적으로시나리오 기반 평가 방법이는 실제 환경에서 모델의 수준을 더 잘 반영할 수 있습니다.
또한 대화 상호작용, 상태 의존성 등 기존 표준에서는 주의를 기울이지 않는 중요한 시나리오를 소개합니다.
이번 테스트 벤치마크 세트는 ToolSandbox라고 불리며, Apple 기본 모델 팀장인 Pang Ruoming도 연구 작업에 참여했습니다.
ToolSandbox는 기존 테스트 표준의 시나리오 기반 평가 부족을 보완하고 테스트 조건과 실제 응용 프로그램 간의 격차를 줄여줍니다.
그리고 상호 작용 측면에서 저자는 GPT-4o가 사용자 역할을 하고 테스트 중인 모델과 대화하여 실제 시나리오를 시뮬레이션하도록 합니다.
예를 들어, GPT-4o에게 귀하는 더 이상 보조자가 아니지만 사용자 B와 대화하고 있는 사용자 A를 재생하고 일련의 특정 요청을 하고 싶다고 말합니다.
또한 저자는 ToolSandbox를 사용하여 일부 주류 모델을 테스트했으며 전반적인 결과를 얻었습니다.폐쇄형 소스 모델은 오픈 소스 모델보다 점수가 높습니다., 그 중 가장 강력한 것은 GPT-4o입니다.
iOS 애플리케이션 개발자인 Nick Dobos는 Apple의 표준이 간결하고 명확하다고 말했습니다.
동시에 그는 ChatGPT가 세 가지 도구에 직면했을 때 이미 다소 확장되어 있다고 지적했습니다. Siri가 휴대폰에서 수십 또는 수백 개의 애플리케이션을 관리하려면 도구 호출 기능도 향상해야 합니다.
이는 ToolSandbox의 연구가 Siri의 향후 연구 개발 방향을 명확히 하는 것일 수도 있다는 의미입니다.
위에서 언급했듯이 ToolSandbox는 시나리오 기반의 대화형 테스트 방법을 채택합니다.
구체적으로 ToolSandbox에는 단일/다중 도구 호출, 단일/다중 대화 라운드, 상태 의존성, 표준화, 정보 부족 등을 포함한 7가지 유형의 총 2,000개에 가까운 시나리오가 포함되어 있습니다.
전자는 비교적 이해하기 쉽습니다. 다음 세 가지 장면 유형에 대한 설명은 다음과 같습니다.
이러한 시나리오에서 ToolSandbox는 모델의 세 가지 지표에 중점을 둡니다.
도구 측면에서 저자는 실제 시나리오의 복잡성과 비교할 수 있는 34개의 결합 가능한 Python 함수를 도구로 선택했습니다.
여기에는 기본 Python 도구와 일부 통합 RapidAPI 도구가 모두 포함되어 있으며 검색, 대화, 탐색, 날씨 및 이미지 처리와 같은 많은 공통 영역을 다루는 기능이 포함되어 있습니다.
프로세스 측면에서 첫 번째 단계는 테스트 시나리오를 준비하는 것입니다. 연구원은 초기 세계 상태를 정의하고 저장하는 동시에 보정된 GPT-4o 모델을 사용하여 초기 사용자 메시지를 생성합니다.
그런 다음 대화형 실행 단계에 진입하면 시스템은 먼저 역할 간 통신 채널로 메시지 버스를 초기화하고 사용자를 연기하는 모델과 테스트 중인 모델을 구성합니다.
대화 루프가 시작되면 사용자를 시뮬레이션하는 모델은 초기 메시지를 보내고, 테스트 중인 모델은 메시지를 수신하고 사용자에게 직접 응답하거나 환경과 상호 작용하는 도구를 호출하는 등 다음 작업을 결정합니다.
모델이 도구를 호출하기로 선택한 경우 JSON 형식으로 필요한 매개변수를 제공하고 실행 환경은 이 호출을 해석하고 실행하여 가능하면 세계 상태를 업데이트하고 잠재적인 병렬 호출 조건을 처리합니다.
실행 결과가 테스트 중인 모델에 반환된 후 테스트 중인 모델은 다음 작업을 다시 결정합니다. 이 프로세스는 사용자 시뮬레이터가 작업이 완료되었다고(또는 완료할 수 없다고 믿을 때까지) end_conversation을 호출합니다. 대화를 끝내는 도구입니다.
전체 상호 작용 과정에서 시스템은 모든 메시지와 상태 변경 사항을 기록하여 완전한 "대화 트랙"을 형성한 다음 평가 단계로 들어갑니다.
평가에서는 미리 정의된 "마일스톤"과 "지뢰밭"을 사용하여 에이전트 모델의 성능을 측정합니다.
중요한 단계작업을 완료하기 위한 주요 이벤트가 정의되어 시간 종속성을 반영하는 방향성 비순환 그래프를 형성합니다.
시스템은 마일스톤의 토폴로지 순서를 유지하면서 궤적에서 이벤트와 마일스톤 간의 가장 일치하는 항목을 찾습니다.
지뢰밭금지된 이벤트를 정의하며, 정보 부족으로 인해 모델이 환각을 느끼는지 여부를 감지하는 데 주로 사용됩니다.
예를 들어, 아래 그림은 "정보 부족" 시나리오에 따른 지뢰밭 평가의 예를 보여줍니다.
이 작업에서는 현재 타임스탬프를 사용할 수 없으므로 모델이 timestamp_diff 도구를 호출하면 안 되지만, 모델이 현재 타임스탬프를 잘못 추측하고 도구를 호출하여 이번 라운드에서 점수가 0이 됩니다.
궁극적으로 시스템은 평균 마일스톤 일치 점수와 지뢰밭 페널티를 곱한 종합 점수를 계산합니다.
또한 시스템은 모델의 효율성을 평가하기 위한 보조 지표로 작업을 완료하는 데 필요한 평균 라운드 수도 계산합니다.
전체적으로,폐쇄 소스 모델은 도구 호출 측면에서 오픈 소스 모델보다 성능이 더 좋습니다.。
평균 점수가 가장 높은 것은 GPT-4o로 73.0점으로 유일하게 70점을 넘었고, 저자가 설정한 7가지 시나리오 중 4가지에서 가장 높은 점수를 달성했다.
또한 GPT-4o는 매우 견고하며 저자는 도구를 수정하기 위해 8가지 방법을 사용했으며 그 중 GPT-4o가 가장 높은 견고성 점수를 받았습니다.
그 뒤를 바짝 뒤쫓는 Claude 3-Opus는 평균 점수 69.2점으로 정보가 부족한 장면에서 GPT-4o보다 성능이 뛰어나며 GPT와 Claude의 다른 버전도 있습니다.
Google의 Gemini는 1.5 Pro의 점수가 60.4점으로 GPT-3.5만큼 좋지는 않지만 정보가 부족한 단일 항목에서는 좋은 성능을 보입니다.
오픈소스 모델의 최고 평균 점수는 31.4점에 불과하다. 그 중 유명한 Mistral-7B 점수는 29.8점이지만, 정보가 부족한 단일 항목에서는 76.8점이라는 최고 점수를 달성했다.
Gorilla 및 Command-R과 같은 일부 오픈 소스 모델조차도 도구 응답을 전혀 처리할 수 없거나 단일 도구 호출 라운드만 거의 완료할 수 없습니다.
추가 분석에 따르면오픈 소스 모델은 도구를 호출할 시점을 식별하는 데 어려움을 겪습니다., 문제를 순수한 텍스트 생성 작업으로 처리하는 것을 선호합니다.
작업 차원에서 대형 모델은 단일/다중 도구 호출 및 단일 라운드 사용자 요청에서 잘 수행되지만다회전 대화 및 상태 의존적 작업에서는 이점이 약화됩니다.。
GPT, Claude, Gemini 및 기타 가족에서는더 큰 모델은 다중 도구 호출 및 다중 턴 대화 작업에서 더 확실한 이점을 갖습니다.;하지만상태 의존적 작업, 중소형 모델(如GPT-3.5、Claude-3-Sonnet)오히려 대형모델보다 낫다(GPT-4、클로드-3-오푸스)더 나은 성과를 내다。
또한 정규화는 모든 모델, 특히 정규화를 위한 도구가 필요한 시나리오에서 주요 과제이며 시간 관련 매개변수의 정규화도 매우 어렵습니다.
견고성에 대한 연구에 따르면 도구 설명, 매개변수 정보 등의 변경에 대한 모델의 민감도가 크게 다르며 명확한 규칙이 발견되지 않습니다.
효율성 측면에서는 일반적으로 더 강력한 모델이 더 효율적이지만 예외도 있습니다. 예를 들어 Claude 시리즈 모델의 효율성은 일반적으로 GPT보다 좋습니다.
간단히 말해서, 실제 세계에서 복잡한 상호 작용 시나리오를 처리하기 위해 도구를 사용할 때 대형 모델은 여전히 많은 어려움에 직면해 있습니다.
ToolSandbox 팀 구성원은 Apple의 기계 학습, 데이터 과학, 기본 대형 모델 및 기타 팀에서 왔습니다.
첫 번째 저자는 중국 기계 학습 엔지니어입니다.루 지아루이, 칭화대학교에서 학사 학위를 취득하고, 공부하는 동안 Zhu Jun 교수의 연구실에서 연구 조교로도 일했습니다.
이후 Lu는 Carnegie Mellon University에서 기계 학습 석사 학위를 취득하고 졸업 후 2020년 Apple에 합류했습니다.
루 포함, 서명됨저자 12명 중 10명이 중국인, 모두 명문 학교 출신입니다.
여기에는 기초 대형모델팀장도 포함된다.팡 루오밍(루오밍 팡)。
또한, Apple에서 8년간 근무한 엔지니어링 디렉터베르나르트 오마이어이번 프로젝트에도 참여했습니다.
논문 주소:
https://arxiv.org/abs/2408.04682