2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
새로운 지혜 보고서
편집자: 타오지(Taozi)
[새로운 지혜 소개]언젠가는 AI군이 회사의 중요한 업무를 맡게 되고, 인간은 보조 역할로 전락하게 될지도 모른다는 생각을 해보신 적 있으신가요?
Xiao Zha는 "미래에는 세상에 인간보다 AI 에이전트가 더 많을 것"이라고 굳게 믿습니다.
그렇다면 이러한 AI에도 기업 문화가 있다면 어떻게 될까요?
인간과 같은 AI도 있고, 의사결정권을 갖고 있는 AI도 있고, 열심히 일하는 AI도 있다.
몇 달 전 OpenAI가 내부적으로 5단계 AGI 경로인 L5 - Organizer: 조직 작업을 완료할 수 있는 AI를 정의한 것으로 밝혀졌습니다.
이것이 말하는 것은 미래 회사의 조직도일 수도 있습니다.
여러 지능형 에이전트의 협력이 증가하고 있기 때문입니다.
이전 연구에 따르면 30개 이상의 AI 에이전트가 포함된 시스템은 거의 모든 작업에서 단순 LLM 호출보다 성능이 뛰어나며 환각을 줄이고 정확도도 향상시키는 것으로 나타났습니다.
논문 주소: https://arxiv.org/pdf/2402.05120
하지만 실제로 여러 에이전트가 어떻게 협업해야 할까요?
소프트웨어 엔지니어링 작업에서 AI의 성능을 향상시키는 방법을 모색하는 동안 Alex Sima는 다음과 같은 깨달음을 얻었습니다.
AI 에이전트 간의 상호 작용을 제도화하고 거대 기술 기업의 '조직도'와 유사하게 만들면 어떻게 될까요?
다음으로 Alex는 AI가 Amazon, Google, Microsoft, Apple, Meta, Oracle 등 6개 주요 기술 기업을 인수하여 어떻게 협업하는지 살펴보았습니다.
느낌을 알아보기 위해 먼저 사진을 찍어보겠습니다.
주요 시사점
다음은 AI 에이전트를 Apple, Microsoft, Google과 유사한 기업 구조로 조직한 후 Alex가 얻은 몇 가지 핵심 사항입니다.
- Microsoft 및 Apple과 같이 여러 "경쟁" 팀(즉, 최고의 최종 제품을 생산하기 위해 경쟁)이 있는 회사는 중앙 집중식 계층 구조보다 성능이 뛰어납니다.
- Google, Amazon, Oracle과 같이 단일 실패 지점(예: 한 리더가 중요한 결정을 내리는 경우)이 있는 시스템은 제대로 작동하지 않습니다.
- 기술 대기업의 조직 구조는 문제 해결 능력에 미미하지만 중요한 영향을 미칩니다.
AI 에이전트 및 기술 거대 조직
SWE-bench와 같이 단순히 AI 에이전트 수를 늘려 성능을 향상시키는 기존 방법은 큰 결과를 얻지 못했습니다.
이는 숫자 증가에만 의존해서는 문제가 해결되지 않음을 보여줍니다.
그렇다면 소프트웨어 엔지니어링에서 AI 에이전트를 더 좋게 만드는 다른 방법은 무엇일까요?
3주 전 Alex는 James Huckle이 쓴 "Conway의 법칙"에 관한 기사를 접했습니다. 소프트웨어와 제품 아키텍처는 이를 만든 조직 구조를 반영하도록 되어 있습니다.
James는 Amazon, Google, Facebook, Microsoft, Apple 및 Oracle의 극적인 조직 구조를 보여주는 그림을 보여주고 아이디어를 제안했습니다.
대형 기술 회사의 인간과 마찬가지로 다중 에이전트 통신 구조는 문제 해결 접근 방식을 형성할 수 있습니다.
Alex는 영감을 받아 SWE 벤치 인스턴스에서 James의 가설을 테스트했습니다.
실험 설정
저자는 AI 에이전트를 다양한 회사 구조로 구성하고 SWE-bench-lite의 13개 인스턴스 "미니" 하위 집합에서 6개의 서로 다른 조직 구조를 평가합니다.
이 6개 조직을 구축하면서 그는 몇 가지 핵심 관찰을 기반으로 다중 에이전트 조직 구조를 설계했습니다.
아마존
최상위 수준에는 "관리자"의 이진 트리가 있습니다.
이 구조를 복제하기 위해 Alex는 코드 기반 검색을 수행하는 다수의 에이전트와 궁극적으로 코드 기반 업데이트를 수행하는 단일 에이전트를 사용합니다.
Amazon의 트리 구조와 유사하지만 중간 계층 간의 연결이 더 많습니다.
Alex는 단일 계층 내에서 집계하여 모든 에이전트 결과를 복사하여 다음 에이전트 계층에 전달합니다.
메타(페이스북)
계층적 구조는 부족하지만 여전히 에이전트 간 연결이 많은 네트워크 조직이다.
Alex는 서로 다른 에이전트 간의 전환 가능성을 높여 원래 에이전트 설계를 수정했습니다.
마이크로소프트
각각 고유한 계층이 있는 경쟁적인 팀에 중점을 둡니다.
기본적으로 Alex는 Amazon을 재구성하고(에이전트 수 감소) 벡터 유사성 투표 방법을 사용하여 3개의 개별 실행에서 "최고의" 솔루션을 선택했습니다(각 실행의 계층 구조를 약간 조정함).
사과
각각 고유한 최소한의 구조를 가진 소규모 경쟁 팀이 많이 있습니다.
Alex는 Microsoft와 동일한 "최상의 솔루션" 접근 방식을 사용했지만 에이전트 수준 없이 더 많은 실행을 수행했습니다(각 실행마다 다른 변환이 있었습니다).
신탁
더 큰 "법적" 바이너리 트리와 더 작은 엔지니어링 트리라는 두 개의 서로 다른 팀이 있습니다.
Alex는 법무팀을 코드 베이스를 검색하고 주요 컨텍스트를 검색하는 에이전트로 설명하고, 엔지니어링 팀은 실제로 코드를 작성하는 에이전트로 구성됩니다.
두 팀의 구조는 Amazon과 유사하며, 상단에 단일 에이전트가 "법률"과 "엔지니어링" 사이의 정보 흐름을 조정합니다.
평가 결과
SWE-벤치에서 각 패치 세트를 평가하기 위해 저자는 SWE-벤치 평가를 사용합니다.
결과는 다음과 같습니다.
조직도 성과 분석
다음은 다양한 회사 구조가 성과에 어떤 영향을 미치는지에 대한 저자의 관찰 내용 중 일부입니다.
- 경쟁적인 팀은 성공 확률을 높입니다.
상위 2개 성과자(Microsoft와 Apple)는 문제를 해결하기 위해 여러 팀이 경쟁하고 있는 반면, 다른 회사는 단일 패치를 생산하는 하나의 거대한 팀만 있는 것으로 보입니다.
여러 팀을 사용하면 문제 해결 접근 방식의 다양성이 증가하여 문제 해결 가능성이 높아집니다.
- 단일 실패 지점이 있는 구조는 제대로 작동하지 않습니다.
단일 실패 지점을 언급할 때, 우리는 운영 결과를 완전히 바꿀 수 있는 고위 관리자/에이전트를 보유한 회사(예: Google, Amazon, Oracle)를 지칭합니다.
여러 에이전트 간의 상호 작용을 조정할 때 일반적인 문제는 한 에이전트가 실패하여 한 에이전트가 팀의 문제 해결 전략 방향을 변경할 가능성이 있다는 것입니다.
단일 실패 지점이 있는 회사는 이러한 문제에 취약합니다.
또한, 최고의 성과를 내는 두 회사인 Microsoft와 Apple은 시가총액 기준으로 세계에서 가장 큰 두 기술 회사입니다.
현실 세계에서 가장 잘 작동하는 것처럼 보이는 조직 구조가 AI 에이전트에게도 잘 작동하는 것으로 나타났습니다.
CompaniesMarketCap의 스크린샷, 2024년 7월 25일
SWE-bench의 발전에 대한 생각
다양한 회사 구조에 대한 결과를 살펴보면 이는 이번 Mini 벤치마크에서 예상된 것입니다.
전반적으로 소프트웨어 엔지니어링처럼 복잡한 작업에서는 에이전트를 더 추가하거나 해당 에이전트의 구성 방식을 변경해도 성능 향상은 미미할 뿐입니다.
더 많은 에이전트가 필요하다는 논문에서 정확성이 상당히 향상(약 20%)된 것으로 나타났지만 GSM8K(초등학교 수학) 테스트에서는 에이전트가 30개 이후 성능이 크게 저하되었습니다.
또한 이 연구에서는 지나치게 복잡한 작업(예: SWE-벤치의 작업)이 모델의 추론 능력을 초과하여 성능 향상이 감소할 수 있음을 발견했습니다.
SIMA에 앉아도 이 결과가 확인되었으며 기본 아키텍처(40개 이상의 에이전트 사용)에 비해 최대 2-3% 개선되었습니다.
그는 이 작은 개선이 다중 에이전트가 아닌 다른 아키텍처에서도 일관되게 유지될 것으로 기대합니다.
저자는 벤치마크에서 더 큰 진전을 이루려면 에이전트의 실제 논리적 추론 능력이나 소프트웨어 문제를 해결하기 위해 채택할 수 있는(또는 제공할 수 있는) 전략 및 방법을 변경해야 한다고 주장합니다.
이는 보다 강력한 기본 모델(GPT-5)을 통해 또는 에이전트에 보다 광범위한 도구를 제공함으로써 달성할 수 있습니다.
기업 운영도 마찬가지다.
결론은 더 똑똑한 직원을 고용하거나 더 나은 자원을 제공하지 않으면 직원을 어떻게 구성하거나 직원 수에 관계없이 결과가 향상되지 않는다는 것입니다.
물론 13개 인스턴스의 성능은 전체 벤치마크의 실제 성능과 크게 다를 수 있습니다.
이 미니 하위 집합의 차이만으로도 주목할 가치가 있을 만큼 중요합니다(Google에서 Apple로 약 50% 개선).
기본 모델/도구는 에이전트 소프트웨어 엔지니어링의 제한 요소일 수 있지만 기본 모델이 개선됨에 따라 에이전트 통신 구조(기업 조직 여부에 관계없이)를 확실히 테스트해야 합니다.
James Huckle이 말했듯이 이 개념은 AI 에이전트 설계에서 "핵심 하이퍼 매개변수"가 될 수 있으며 다양한 조직 구조가 다양한 작업에 더 적합할 수 있습니다.
참고자료:
https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures