новости

Армия ИИ захватила шесть крупнейших технологических гигантов, и все боссы и рабочие — ИИ! Подражайте организационной структуре Microsoft и добейтесь потрясающей эффективности работы.

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Монтажер: Таози

[Введение в новую мудрость]Задумывались ли вы когда-нибудь о том, что, возможно, однажды в будущем армия ИИ сможет взять на себя важные задачи компании, а люди окажутся второстепенными?

Сяо Чжа твердо верит, что «в будущем в мире будет больше агентов ИИ, чем людей».


Итак, что произойдет, если у этих ИИ также будет корпоративная культура?

Они похожи на людей? Есть ИИ, обладающие полномочиями принимать решения, и ИИ, которые много работают?

Несколько месяцев назад выяснилось, что OpenAI внутренне определила пятиуровневый маршрут AGI, L5 — Организатор: ИИ, который может выполнять организационную работу.

Речь может идти об организационной схеме будущей компании.


Потому что сотрудничество нескольких интеллектуальных агентов находится на подъеме.

Ранее исследование показало, что система с более чем 30 агентами ИИ превосходит простые вызовы LLM практически в любой задаче, а также снижает галлюцинации и повышает точность.


Адрес статьи: https://arxiv.org/pdf/2402.05120.

Однако как на самом деле должны сотрудничать несколько агентов?

Исследуя способы повышения производительности ИИ в задачах разработки программного обеспечения, Алекс Сима сделал прозрение:

Что произойдет, если взаимодействие между агентами ИИ институционализировать и сделать похожим на «организационную схему» технологического гиганта?


Затем Алекс позволил ИИ взять на себя управление шестью крупнейшими технологическими гигантами — Amazon, Google, Microsoft, Apple, Meta и Oracle — чтобы посмотреть, как они сотрудничают.

Давайте сначала сфотографируемся, чтобы почувствовать это.


Ключевые выводы

Ниже приведены некоторые ключевые моменты, которые Алекс получил после организации агентов ИИ в корпоративные структуры, аналогичные структурам Apple, Microsoft и Google:

- Компании с несколькими «конкурирующими» командами (т. е. конкурирующими за производство лучшего конечного продукта), такие как Microsoft и Apple, превосходят централизованные иерархии.

- Системы с едиными точками отказа (например, один лидер, принимающий важные решения), такие как Google, Amazon и Oracle, работают плохо.

- Организационная структура крупных технологических компаний оказывает скромное, но существенное влияние на возможности решения проблем.


Агенты искусственного интеллекта и технологические гиганты

Предыдущие методы повышения производительности за счет простого увеличения количества ИИ-агентов, такие как SWE-bench, не дали существенных результатов.

Это показывает, что полагаться исключительно на увеличение численности не решит проблему.


Итак, каковы еще способы улучшить работу ИИ-агентов в разработке программного обеспечения?

Три недели назад Алекс наткнулся на статью Джеймса Хакла о «Законе Конвея» — архитектура программного обеспечения и продукта призвана отражать организационную структуру, которая его создала.

Джеймс показал иллюстрацию, раскрывающую драматические организационные структуры Amazon, Google, Facebook, Microsoft, Apple и Oracle, и предложил идею:

Подобно людям в крупных технологических компаниях, многоагентные коммуникационные структуры могут формировать подходы к решению проблем.


Алексу захотелось проверить гипотезу Джеймса на стенде SWE.

Экспериментальная установка

Авторы объединяют агентов ИИ в различные структуры компании и оценивают шесть различных организационных структур на «мини»-подмножестве SWE-bench-lite из 13 экземпляров.

Создавая эти шесть организаций, он разработал мультиагентную организационную структуру, основываясь на нескольких основных наблюдениях:

Амазонка

На верхнем уровне находится бинарное дерево «менеджеров».

Чтобы воспроизвести эту структуру, Алекс использует большое количество агентов, выполняющих поиск в базе кода, и один агент, который в конечном итоге выполняет обновления базы кода.


Google

Похож на древовидную структуру Amazon, но с большим количеством связей между средними уровнями.

Алекс копирует все результаты агентов путем агрегирования в одном слое и передает их следующему уровню агентов.


Мета (Facebook)

У нее отсутствует иерархическая структура, но она по-прежнему представляет собой сетевую организацию со множеством связей между агентами.

Алекс изменил исходную конструкцию агента, увеличив возможность преобразования между разными агентами.


Майкрософт

Особое внимание уделяется конкурентоспособным командам, каждая из которых имеет свой уровень.

По сути, Алекс реструктуризировал Amazon (сократив количество агентов) и использовал метод векторного голосования по сходству, чтобы выбрать «лучшее» решение из трех отдельных прогонов (с небольшими изменениями в иерархии в каждом прогоне).


яблоко

Множество небольших конкурентоспособных команд, каждая со своей минимальной структурой.

Алекс использовал тот же подход «лучшего решения», что и Microsoft, но выполнил больше запусков без уровня агента (каждый запуск имел разные преобразования).


Оракул

Есть две разные команды: большее «легальное» двоичное дерево и меньшее инженерное дерево.

Алекс объяснил, что команда юристов — это агенты, которые ищут в базе кода и извлекают ключевой контекст, а команда инженеров состоит из агентов, которые фактически пишут код.

Структура двух команд аналогична Amazon: один агент наверху координирует поток информации между юридическими отделами и инженерными отделами.


Результаты оценки

Для оценки каждого набора патчей на SWE-bench автор использует оценку SWE-bench.

Результат следующий:


Анализ эффективности организационной структуры

Вот некоторые наблюдения автора о том, как различные структуры компаний влияют на производительность:

- Конкурентоспособные команды увеличивают шансы на успех.

У двух лучших компаний (Microsoft и Apple) есть несколько команд, конкурирующих за решение проблемы, в то время как у других компаний, похоже, есть только одна огромная команда, производящая один патч.

Наличие нескольких команд позволяет увеличить разнообразие подходов к решению проблем, увеличивая вероятность их решения.

- Структуры с едиными точками отказа работают плохо.

Говоря об отдельных точках отказа, мы имеем в виду компании (такие как Google, Amazon и Oracle), у которых есть менеджеры/агенты высокого уровня, которые могут полностью изменить результаты операций.

При координации взаимодействия между несколькими агентами распространенной проблемой является то, что один агент терпит неудачу, что приводит к возможности того, что один агент меняет направление стратегии решения проблем команды.

Компании с едиными точками отказа уязвимы перед этими проблемами.

Кроме того, два лидера рынка, Microsoft и Apple, являются крупнейшими технологическими компаниями в мире по рыночной капитализации.

Оказывается, организационные структуры, которые лучше всего работают в реальном мире, также хорошо работают и для агентов ИИ.


Скриншот с сайта CompaniesMarketCap, 25 июля 2024 г.

Мысли о прогрессе SWE-bench

Глядя на результаты для различных структур компаний, этого и следовало ожидать в этом тесте Mini.

В целом кажется, что в такой сложной задаче, как разработка программного обеспечения, добавление большего количества агентов или изменение способа организации этих агентов приведет лишь к незначительному повышению производительности.

Хотя в статье «Больше агентов — это все, что вам нужно» обнаружено значительное улучшение точности (около 20%), в тесте GSM8K (математика для начальной школы) производительность значительно снизилась после 30 агентов.

Исследование также показало, что слишком сложные задачи (например, в SWE-bench) могут превысить возможности модели, что приведет к снижению прироста производительности.

Работа в SIMA также подтвердила этот вывод: улучшение по сравнению с базовой архитектурой (с использованием более 40 агентов) составило не более 2-3%.

Он ожидает, что это небольшое улучшение будет применимо и в других немультиагентных архитектурах.

Авторы утверждают, что достижение большего прогресса в тестах требует изменения реальных способностей агентов к логическому рассуждению или стратегий и методов, которые они могут принять (или предоставить) для решения программных проблем.

Этого можно достичь за счет более мощной базовой модели (GPT-5) или предоставления агенту более широких инструментов.

То же самое и с корпоративными операциями.

Суть в том, что если вы не нанимаете более умных сотрудников и не предоставляете им лучшие ресурсы, их производительность не улучшится, независимо от того, как вы их организуете или сколько у вас людей.

Надо признать, что производительность 13 экземпляров, вероятно, далека от фактической производительности полного теста.

Разница только в этом мини-подмножестве достаточно значительна, чтобы на нее стоит обратить внимание (улучшение примерно на 50 % по сравнению с Google по сравнению с Apple).

Базовая модель/инструменты могут быть ограничивающим фактором при разработке агентского программного обеспечения, но по мере совершенствования базовой модели обязательно следует тестировать изучение структур связи агентов (будь то в корпоративной организации или нет).

Как сказал Джеймс Хакл, эта концепция может стать «ключевым гиперпараметром» при разработке агентов ИИ, а разные организационные структуры могут больше подходить для разных задач.

Ссылки:

https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures