소식

에이전트가 스스로를 창조하기 시작하더라도 AI 제품의 폭발적인 증가는 여전히 먼 꿈일까요?

2024-08-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

텐센트기술 작가 하오 보양

편집자 정커준

2024년,일체 포함 이 분야에서 가장 뜨거운 주제는 단연 Agent입니다.

대형 모델멋지네요. 그런데 그걸로 무엇을 할 수 있나요? “이것은 2023년 연간 AI 적용 질문입니다. 2024년까지 에이전트는 이 문제에 대한 가장 유망한 해독제가 되었습니다.

지능형 에이전트는 복잡한 프로세스와 도구를 통해 사용될 수 있으므로 대규모 모델이 더 복잡하고 맞춤화된 작업을 처리할 수 있도록 하여 궁극적으로 자율성, 인식, 의사 결정 및 작업 기능을 갖춘 소프트웨어 엔터티 또는 물리적 엔터티를 생성할 수 있습니다. Ng Enda, Jim Fan 및 기타 업계 유명 인사들이 지능형 에이전트의 효율성을 입증하기 위해 합류했습니다.

Ng Enda 교수는 올해 3월 자신의 블로그에서 HumanEval 데이터 세트에 사용해야 한다고 제안했습니다. GPT-3.5(제로샷) 테스트 정확도는 48.1%입니다. GPT-4(제로샷)은 67.0%이다. GPT-3.5는 에이전트 워크플로와 협력하여 95.1%의 정확도를 달성했습니다.

(사진 참고: 지능형 에이전트 기술 하에서 Ng Enda의 실험은(주) 3.5 성능은 원래 GPT4를 훨씬 능가합니다)

그래서 지난 한 해 동안 대기업부터 민간 전문가까지 모두가 스마트 바디를 구축해왔습니다. 충분히 크다마이크로소프트말도 안되는 AI 운세인 Copilit, Langchain, Coze, Dify 등 지능형 에이전트 프레임워크를 구축하기 위한 도구도 비가 내린 뒤 버섯처럼 생겨나며 인기가 계속해서 높아지고 있습니다.

(사진설명: INSIGHT가 집계한 에이전트 및 AI 자동화 프로세스 관련 기업)

OpenAI의 전직 과학자인 Andrew Karpathy는 일반인, 기업가, 괴짜가 AI 에이전트를 구축할 가능성이 일반인보다 낮다고 말한 적이 있습니다.오픈AI그러한 회사에는 이점도 있습니다.

AI 에이전트 워크플로우를 기반으로 한 제품 관리자의 새로운 시대가 도래하고 있습니까? 반드시 그런 것은 아닙니다. AI가 인간보다 지능형 에이전트를 구축하는 데 더 나을 수 있기 때문입니다.

자동화된 루프 로직

8월 19일 브리티시 컬럼비아 대학교의 연구자 3명이 "에이전트 시스템의 자동화 설계"라는 제목의 논문을 발표했습니다. 이 논문에서 그는 AI가 스스로 에이전트를 발견하고 구축할 수 있으며, 스스로 반복할 수 있는 시스템을 설계했습니다.

OpenAI의 에이전트에 대한 고전적인 정의를 떠올려보세요. 에이전트는 지식을 저장하고, 계획하고, 도구를 적용할 수 있는 제품입니다.

워크플로우를 사용하여 에이전트를 구축할 때 기존 지식(에이전트 형태에 대한 지식)을 사용하여 스스로 계획(빌드 프로세스)하고 도구(API에 액세스)를 사용하여 최종적으로 출력을 실행하는 기능도 없습니다. 에이전트 자체.

그렇다면 자동으로 에이전트를 발견하고 설계할 수 있는 에이전트를 구축해 보는 것은 어떨까요?

논문의 저자는 이 아이디어를 따라 디자이너를 메타 에이전트라고 부르며, 그는 새로운 에이전트를 설계하도록 요청합니다. 설계된 에이전트를 데이터베이스에 데이터로 추가하고 새롭고 강력한 에이전트 버전을 지속적으로 반복합니다.

이 전체 방법 세트를 ADAS(지능형 시스템 자동화 설계)라고 부릅니다.

그렇다면 이 시스템은 정확히 어떻게 시행되는 걸까요?

체인을 회전시키자

ADAS 시스템에서 새로운 에이전트를 생성하는 프로세스는 세 부분으로 나눌 수 있습니다.

첫 번째 부분은 검색 공간을 설정하는데, 이는 잠재적인 새로운 에이전트를 설계하기 위해 몇 가지 기본 도구와 규칙을 사용하는 것으로 이해될 수 있습니다.

두 번째 부분은 검색을 실행하는 것입니다.연산는 메타 에이전트가 검색 공간을 사용하고 해당 요소를 사용하여 새 에이전트를 구체적으로 구축하는 방법을 규정합니다.

마지막 부분은 성능 및 기타 목표를 기반으로 구축된 에이전트를 평가하는 평가 기능을 실행하는 것입니다.

연구자들은 논문에서 위의 세 가지 핵심 부분을 구축하는 방법을 단계별로 설명합니다.

먼저, 검색 공간을 구성하기 위한 기본 요소가 결정되어야 합니다. 연구자들은 가장 좋은 방법은 코드라고 믿습니다.

코드가 Turing Complete이고 모든 가능성을 표현할 수 있기 때문입니다. 따라서 이론적으로 메타 에이전트는 가능한 모든 빌딩 블록(예: 힌트, 도구 사용, 제어 흐름)과 이러한 빌딩 블록을 어떤 방식으로든 결합하는 에이전트 시스템을 발견할 수 있습니다.

더 중요한 것은 에이전트 구축을 위해 Langchain과 같은 웹사이트에 이미 존재하는 다양한 워크플로우가 코드화되었다는 것입니다. 따라서 관련 데이터를 손쉽게 사용할 수 있으며 다시 변환할 필요가 없습니다. RAG(검색 증강 생성) 및 기타 기능 구성 요소와 같은 도구 호출은 이미 매우 충분한 코드 기반을 갖추고 있습니다.

코드를 사용하여 검색 공간을 구축한다는 것은 ADAS에서 생성된 에이전트를 수동 개입 없이 직접 실행하여 오류를 수정하고 점수를 실행할 수 있음을 의미합니다.

검색 공간을 정의한 후 연구자는 메타 에이전트가 작업을 완료할 수 있는 가능한 방법을 탐색할 수 있도록 검색 알고리즘을 설계하기 시작합니다. 이 프로세스는 기본적으로 프롬프트 단어 프로젝트에 의존하여 완료됩니다.

첫 번째는 일련의 시스템 프롬프트 단어를 제공하는 것입니다.

그럼 기본을 넣어주세요즉각적인언급된 정보는 다음을 포함하여 메타 에이전트에 제공됩니다.

1. 작업에 대한 기본 설명입니다.

2. 형식 지정 프롬프트, 캡슐화 및 기타 작업 이름은 물론 기타 기본 모델(FM) 및 API를 호출하는 기능과 같은 가장 기본적인 프레임워크 코드입니다.

(사진 참고: 프레임워크 코드의 일부)

3. 작업 입력 및 출력의 형식 및 예.

4. 기본 테스트 결과를 포함하여 원래 반복에서 생성된 일부 에이전트에 의해 형성된 샘플 라이브러리입니다.

(사진 참고: 지능형 에이전트 라이브러리의 예)

이러한 기본 힌트를 기반으로 ADAS는 특정 문제를 해결하기 위해 지능형 에이전트를 작동하고 생성할 수 있습니다.

이 과정에서 메타 에이전트는 생성된 에이전트가 새롭고 올바른지 확인하기 위해 두 차례의 반성을 수행합니다. 새로 생성된 코드 프레임워크에 오류가 있는지, 에이전트 예제 라이브러리의 과거 결과와 비교하여 충분히 혁신적인지 확인합니다.

또한 메타 에이전트는 실제 성능 능력에 대한 "이해"를 기반으로 생성된 에이전트에 대한 예비 평가를 수행하여 이전 에이전트보다 성능이 더 좋은지 여부를 결정해야 합니다.

이러한 조건 중 일부가 충족되지 않으면 메타 에이전트는 생성된 에이전트를 수정하거나 간단히 다시 생성해야 합니다.

(첫 번째 반성 요청)

두 번의 반성과 수정을 거친 후, 메타 에이전트는 세 번째 단계에서 새롭고 좋다고 생각되는 새로 생성된 에이전트를 평가 시스템으로 보냅니다.

평가 시스템은 기준 테스트를 바탕으로 에이전트의 능력에 객관적인 점수를 부여한 후 이를 에이전트 예제 라이브러리에 반환합니다.

메타 에이전트는 더 높은 작업 성능 점수를 달성하기 위해 이전 채점 결과와 예제 라이브러리의 과거 예제를 기반으로 다음 반복을 계속 최적화합니다.

이 과정에서 완전히 자동화된 체인이 탄생했습니다. 매우 효과적인 에이전트를 생성하려면 두 자릿수 이상의 반복이 필요할 수 있습니다.

손으로 문지르는 지능을 넘어

ADAS 방법을 통해 프로세스를 자동화하여 얻은 지능형 에이전트는 얼마나 복잡할까요? 아래 그림은 14번의 반복을 거쳐 생성된 에이전트 프레임워크입니다.

이 에이전트의 구조에는 예비 답변을 제공하는 5개의 사고 체인이 있습니다. 3명의 전문 전문가 모델과 인간의 평가를 모방한 모델의 피드백을 거쳐 최적화 과정 단계에서 답변을 3번 수정하고 강화합니다. 마지막으로 평가 후 세 가지 결과를 선별하고 결합하여 최종 답변을 제공했습니다.

인간이 이 정도의 복잡성을 처리하려면 아마도 일주일이 걸릴 것입니다. 지금은 테스트와 수평적 비교는 말할 것도 없고 프롬프트를 작성하고 아키텍처를 디자인할 때입니다.

물론, 이는 메타에이전트 설계를 지속적으로 반복한 결과이기도 합니다.

반복 프로세스 중에 지능형 에이전트를 생성하는 능력도 반복 횟수에 따라 빠르게 증가합니다. 세 번째 반복에서는 메타에이전트가 스스로 다중사고 체인 전략을 학습했고, 네 번째 반복에서는 동적 메모리를 활용해 답변을 최적화하는 방법을 학습했습니다. 14번째에는 생성된 에이전트가 위에서 언급한 복잡성에 도달했습니다.

결국, 최적 솔루션의 능력은 원래의 단순 대형 언어 모델에 비해 250% 이상 향상될 수 있으며, 최고 성능을 발휘하는 수동 에이전트인 COT-SC(다중 사고 체인)에 비해 75% 향상된다. 답변) 방법입니다.

ARC뿐만 아니라 ADAS 모드에서 생성된 에이전트는 COT, LLM Debate 및 Self-Refine과 같은 현재 가장 강력한 기본 수동 에이전트보다 모든 측면에서 훨씬 더 강력합니다. 그리고 더 복잡한 작업과 도메인 간 애플리케이션이 처리될수록 ADAS에서 생성되는 지능형 에이전트는 더욱 강력해집니다.

또한 생성된 에이전트 자체에는 특정 마이그레이션 기능이 있습니다. 예를 들어 과학적 문제를 해결할 수 있는 에이전트는 수학에서도 좋은 결과를 얻을 수 있습니다. 따라서 최적의 프레임워크는 여러 분야에서 관련된 문제를 해결할 수 있을 가능성이 높습니다.

손으로 비비는 에이전트의 시대가 끝나더라도 에이전트 패러다임을 발견하는 시대는 계속될 수 있다. 전반적인 테스트에서 ADAS는 현재의 지능형 에이전트 구성 패러다임을 벗어난 새로운 구성 방법을 발견하지 않고 오히려 이러한 방법을 재구성하여 사용했습니다.

그러나 일반 AI 에이전트 개발자의 경우 이는 작업을 대체하기에 충분합니다.

그러나 ADAS의 인기는 여전히 장애물을 극복해야 할 수도 있으며, 이는 비용 문제입니다.

연구원에 따르면 OpenAI API의 비용은 ARC 검색 및 평가에 약 500달러, 추론 및 문제 해결 영역에서 단일 실행에 약 300달러입니다. 반복 당 약 $ 20입니다. 이러한 높은 비용에 비해 현 단계에서는 인력이 여전히 일정한 이점을 갖고 있습니다.

하지만 연구진은 일찍부터 연구했기 때문에 'gpt-3.5-turbo-0125' 모델을 사용했다고도 전했다. 최신 GPT-4 모델 'gpt-4o-mini'는 'gpt-3.5-turbo-0125' 가격의 1/3도 안 되는 가격에 성능은 더 좋아졌다. 더욱이, 실험에 따르면 GPT 3.5 기능으로 반복된 에이전트는 특정 반복 횟수 후에 성능 병목 현상이 발생하며 14회 이후의 모든 반복은 낭비라는 사실이 밝혀졌습니다. 따라서 더 나은 평가와 리소스 관리를 갖춘 설계를 통해 비용도 크게 절감할 수 있습니다.

분명히 노동의 가격 우위는 오랫동안 유지될 수 없습니다.

정말로 지능의 폭발이 시작된 걸까요?

이 자동화 기술이 왜 그렇게 중요한가요?

모바일 인터넷 시대에는 다양한 트랙을 위한 다양한 앱이 꽃피우며 기술 번영의 시대를 함께 만들어가고 있습니다. 그러나 당시의 새로운 도구에는 학습이 필요했기 때문에 모바일 앱 개발 역시 충분한 개발자가 수용되기까지 오랜 침투 단계를 거쳤습니다.

이전 시대에는 속도가 느렸습니다. 1990년대 개인용 컴퓨터 경험을 바탕으로 제프리 무어(Geoffrey Moore)가 제안한 "캐즘 건너기" 이론에 따르면, 기술 출현 초기에는 얼리 어답터 중 약 13.5%만이 이 기술을 사용했습니다. 이것은 개발이 아니라 사용이었습니다. .

따라서 개발자 부족은 기술진흥에 있어서 중요한 병목현상이 될 수 있다.

물론 지능형 에이전트 구축의 개발 및 침투 속도는 훨씬 빨라질 수 있습니다. 이전 소프트웨어 개발보다 훨씬 간단하기 때문입니다. 예를 들어, 얼마 전 인기를 끌었던 워드웨어(Wordware)는 일반 사용자가 자연어를 활용해 지능형 에이전트 구축을 완료할 수 있게 해 문턱을 낮췄다.

그러나 사고 사슬이나 다단계 루프와 같은 설계는 여전히 매우 복잡하며 그 과정에서 점점 더 많은 도구가 필요합니다. 따라서 실제로 지능형 에이전트 개발에 전념하고 이 도구를 잘 활용할 수 있는 사람은 많지 않습니다.

Zuckerberg는 Huang Renxun과의 대화에서 대규모 모델 기술이 더 이상 개발되지 않더라도 지능형 에이전트의 잠재력을 완전히 이해하는 데 5년이 걸릴 것이라고 말한 적이 있습니다.

따라서 기술에 비해 아직 폭발하지 않은 지능형 에이전트에게는 개발자가 핵심 병목 현상이 될 수 있습니다. 아직까지 이 일을 할 수 있는 사람이 너무 적습니다.

그러나 에이전트는 많습니다.

튜닝 에이전트를 자동으로 생성하는 이 기술이 더 많은 상용 기업에서 채택되고 최적화된다면 초기 기술 인력의 병목 현상은 더 이상 존재하지 않을 것입니다. 에이전트가 다양한 분야의 기능 범위와 깊이를 탐색할 수 있는 속도가 크게 향상됩니다.

아마도 내년에는 인류 역사상 최초의 Killer AI 앱이 출시될 것인데, 저자는 AI입니다.