2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
새로운 지혜 보고서
편집자: Qiao Yang은 너무 졸려요
[새로운 지혜 소개]스타트업 멀티온(MultiOn)은 최근 '현재 가장 강력하다'고 주장하며 실제 예약 작업에서 95.4%의 성공률을 달성할 수 있는 에이전트 Q(Agent Q)를 출시했다. 네티즌들은 OpenAI의 신비한 Q* 프로젝트가 그 배후에 있다고 추측했습니다.
OpenAI의 Q*/Strawberry 프로젝트 출시를 기다리지 않고 MultiOn이라는 스타트업이 먼저 Q라는 에이전트를 출시했습니다.
지난 6개월 동안 우리가 작업한 Agent Q가 이제 출시되었음을 알리게 되어 매우 기쁩니다! 추론과 검색이 가능한 자기주도 에이전트 프레임워크이며, 인터넷상의 실제 작업을 통해 자기놀이와 강화학습을 수행하여 자기교정과 자율개선을 이룰 수 있는 자기지도형 에이전트 프레임워크입니다!
더욱 눈길을 끈 것은 MultiOn Lianchuang/CEO Div Garg가 트위터에서 Agent Q를 언급했을 때, 이 눈에 띄는 것을 가져오는 것을 결코 잊지 않았다는 것입니다.
이는 각계각층의 지속적인 구경꾼들을 끌어 모았습니다. 어떤 사람들은 Agent Q의 배후에 있는 큰 보스가 OpenAI의 Q* 프로젝트라고 추측했습니다.
뿐만 아니라 멀티온은 '인간과 기계를 구별하기 어렵다'는 각종 이상한 발언을 자주 쏟아내는 에이전트Q를 위해 독립적인 트위터 계정도 개설했다.
계정의 배경 사진과 기본 정보에는 딸기가 가득하고, 이전에 울트라맨이 올렸던 자신의 정원에 있는 딸기 사진이 직접 붙여져 있었습니다.
그러나 놀라운 점은 이 신비한 계정에는 Y-Combinator CEO Garry Tan, Quora CEO Adam D'Angelo, New York Times 칼럼니스트 Kevin Roose, Wharton AI 교수 Ethan Mollick 및 여러 OpenAI 직원을 포함하여 많은 팔로어와 KOL이 있다는 것입니다.
최근 울트라맨도 이 신비한 계정과 교류하기 위해 주도적으로 활동했으며 해당 게시물에 "AGI가 레벨 2에 도달했다"고 조롱하는 댓글을 달았습니다.
MultiOn의 이러한 운영 물결이 순전히 과장된 것인지, 아니면 OpenAI의 Q* 프로모션과 연계된 것인지는 사람들의 의견에 달려 있습니다.
이것은 지금까지 출시된 최고의 AI 에이전트 중 하나가 될 것이고, 그렇지 않으면 Div Garg는 최악의 과대광고에 연루되어 회사의 명성을 망칠 것입니다. AI 커뮤니티에서는 이는 역효과를 낳는다.
모든 논란을 뒤로하고 먼저 이 에이전트 Q에 기술적인 내용이 얼마나 많은지 살펴보겠습니다.
CEO Div Garg에 따르면 Agent Q는 계획 및 추론 능력뿐만 아니라 자가 치유 능력도 갖추고 있습니다. 단 하루의 교육만으로 Llama 3의 제로 샘플 성능을 340% 향상하여 실제 예약 작업에서 95.4%의 성공률을 달성했습니다.
이는 자율 AI 에이전트가 실제 환경에서 복잡하고 신뢰할 수 있는 결정을 내릴 수 있도록 하는 중요한 진전입니다.
공식 데모 영상에서 Agent Q는 식당 예약, 회의, 항공권 예약 등 다단계 계획, 추론, 의사결정, 다양한 애플리케이션과의 상호작용 등의 작업을 수행할 수 있습니다.
멀티온 연구팀이 공식 홈페이지에 논문을 올렸으나 Agent Q는 아직 시험판이 공개되지 않았으며, 내부 시험 기회를 신청하려면 대기자 명단에 등록해야 한다.
논문 주소: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
공식 웹사이트에서는 Agent Q가 올해 말 MultiOn 개발자와 사용자에게 공개될 것이라고 주장합니다.
기술적 해석
최근 몇 년 동안 LLM은 NLP 분야를 완전히 전복시키고 놀라운 성과를 거두었지만 대화형 환경, 특히 웹 페이지 탐색과 같은 다단계 추론 작업에서는 여전히 큰 과제에 직면해 있습니다.
정적 언어 데이터 세트에 의존하는 현재 훈련 방법은 이러한 모델을 동적 실제 상호 작용에 적용하기에는 충분하지 않습니다.
Agent Q의 출현은 검색, 자기 성찰, 강화 학습을 결합하여 계획하고 자가 복구할 수 있는 AI 에이전트 분야의 중요한 이정표입니다.
새로운 학습 및 추론 프레임워크를 도입함으로써 Agent Q는 이전 LLM 교육 기술의 한계를 해결하여 자율적인 웹 탐색을 가능하게 합니다.
예약된 작업을 실행할 때 에이전트 Q의 단계 분석
현재 방법의 문제점
신중하게 계획된 전문가 시연에 대한 지도형 미세 조정과 같은 현재 방법은 누적된 오류와 제한된 탐색 데이터로 인해 에이전트의 다단계 작업에서 성능이 저하되는 경우가 많으므로 동적 환경에서 복잡한 의사 결정 및 적응이 필요합니다. 배우면서 최적이 아닌 전략 알려지다.
에이전트 Q 방법 및 구성 요소
에이전트 Q는 MCTS(Guided Monte Carlo Tree Search)와 AI 자체 반사 및 반복적 미세 조정 방법을 결합하는 동시에 DPO(Direct Preference Optimization)와 같은 RLHF 알고리즘을 사용하여 LLM 에이전트가 성공 및 실패한 궤적에서 학습하고 다중 일반화를 개선할 수 있도록 합니다. 단계별 추론 작업 능력.
에이전트 Q의 주요 구성 요소는 다음과 같습니다.
1. MCTS 기반 안내 검색: 다양한 행동과 웹 페이지를 탐색하여 자동으로 데이터를 생성하고 탐색과 활용 사이의 균형을 유지합니다.
MCTS는 더 높은 샘플링 온도와 다양한 프롬프트 단어를 사용하여 행동 공간을 확장하고 다양하고 최적의 궤적을 수집할 수 있도록 합니다.
2. AI 자기비판: 각 단계에서 AI 기반 자기비판은 에이전트의 의사결정을 최적화하는 데 유용한 피드백을 제공할 수 있습니다. 희박한 신호는 종종 학습 장애로 이어지기 때문에 이 단계 수준 피드백은 장기 작업에 매우 중요합니다.
3. 직접 선호도 최적화: DPO 알고리즘은 MCTS에서 생성된 데이터의 선호도 쌍을 구성하여 모델을 미세 조정합니다. 이 정책 외 학습 방법을 사용하면 모델이 검색 프로세스 중에 탐색된 최적이 아닌 분기를 포함하여 집계된 데이터 세트에서 효과적으로 학습할 수 있으므로 복잡한 환경에서 성공률이 향상됩니다.
평가실험
xLAM-v0.1-r 모델을 기반으로 구축된 온라인 상점을 시뮬레이션하는 작업에서 에이전트는 특정 제품을 찾기 위해 검색해야 합니다.
RFT, DPO 및 빔 검색과 같은 방법도 특정 개선을 달성할 수 있지만 규모는 AgentQ만큼 높지 않습니다.
Agent Q와 MCTS 방법을 동시에 사용하면 작업 성공률을 28.6%에서 50.5%로 높일 수 있으며 이는 인간의 평균 수준인 50%에 해당합니다.
Open Table의 실제 예약 작업에서 에이전트는 해당 레스토랑 페이지 찾기, 적절한 날짜 및 시간 선택, 사용자 선호도에 따라 적절한 좌석 선택, 사용자 연락처 정보 제출, 최종 완료 등 여러 단계를 수행해야 합니다. 작업.
이러한 복잡성은 분명히 Webshop보다 한 단계 더 높습니다. 실험 후 통계에 따르면 웹샵 작업을 완료하기 위한 평균 단계 수는 6.8단계인 반면, 오픈 테이블은 13.9단계로 두 배 증가했습니다.
Open Table은 시뮬레이션된 데이터 세트가 아니라 실제 온라인 환경이기 때문에 자동화된 평가를 수행하기가 어렵습니다. 따라서 본 논문에서는 GPT-4-V를 평가자로 사용하여 사전 정의된 작업의 각 단계에 대해 에이전트에게 보상을 제공합니다. 표시기를 사용하여 작업 완료 여부를 표시합니다.
에이전트 Q는 자율 데이터 수집 단 하루 만에 LLaMa-3의 제로 샘플 성공률을 18.6%에서 81.7%로 증가시켰으며 점수는 340% 증가했습니다.
온라인 몬테카를로 트리 검색을 추가하면 성공률을 95.4%까지 더욱 높일 수 있습니다.
Q 에이전트는 위의 평가 실험에서 강력한 웹 탐색, 검색, 추론 및 계획 능력을 입증했지만 현재 사용되는 방법에는 여전히 논의 및 개선의 여지가 많이 있습니다.
- 추론 알고리즘 설계: 에이전트 Q의 핵심 과제는 현재 탐색 및 검색 전략을 제한하는 약한 추론 능력에 있습니다. 또한 에이전트 전략을 훈련할 때 비판 모델은 현재 동결 상태에 있어 추가 문제가 발생합니다. 미세 조정을 통해 성능이 향상될 수 있습니다.
- 에이전트 Q는 MCTS의 이전 성공적인 수학 및 코딩 작업 경험으로 인해 검색용 MCTS를 선호하지만 실제 환경에서는 상당한 수의 위험한 상호 작용이 발생할 수 있습니다. 검색 전략을 변경하는 것이 더 적절한 옵션일 수 있습니다.
- 온라인 보안 및 상호 작용: 현재 에이전트 Q는 실제로 제한된 인간 개입으로 상당한 수준의 자율 탐색 및 자체 평가를 허용합니다. 그러나 에이전트의 운영, 특히 이메일, 결제, 보관 등의 중요한 작업에서는 여전히 많은 오류가 발생할 수 있습니다.
보안 문제가 해결되지 않으면 에이전트 Q의 실제 배포 가능한 작업 시나리오가 크게 제한되며 향후 추가 보안 비판 모델 및 인간 참여형 교육 설정이 필요할 수 있습니다.
참고자료:
https://x.com/rm_rafailov/status/1823462897751875701
https://x.com/ai_for_success/status/1823447309008490730
https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next- Generation-of-ai-agents-with-planning-and-self-healing-caparies