Nachricht

Die KI-Armee hat die sechs großen Technologiegiganten übernommen und die Chefs und Arbeiter sind alle KI! Imitieren Sie die Organisationsstruktur von Microsoft und erzielen Sie eine erstaunliche Arbeitseffizienz

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Taozi

[Einführung in die neue Weisheit]Haben Sie jemals darüber nachgedacht, dass die KI-Armee eines Tages vielleicht die wichtigen Aufgaben des Unternehmens übernehmen kann und der Mensch auf unterstützende Rollen reduziert wird?

Xiao Zha ist fest davon überzeugt, dass es „in Zukunft mehr KI-Agenten als Menschen auf der Welt geben wird.“


Was passiert also, wenn diese KIs auch eine Unternehmenskultur haben?

Sind sie wie Menschen? Es gibt KIs, die Entscheidungsbefugnis haben, und KIs, die hart arbeiten.

Vor einigen Monaten wurde bekannt, dass OpenAI intern eine fünfstufige AGI-Route definiert hatte, L5 – Organizer: AI, die organisatorische Arbeit erledigen kann.

Wovon die Rede ist, könnte das Organigramm des zukünftigen Unternehmens sein.


Denn die Zusammenarbeit mehrerer intelligenter Agenten nimmt zu.

Zuvor hatte eine Studie gezeigt, dass ein System mit mehr als 30 KI-Agenten einfache LLM-Anrufe bei fast jeder Aufgabe übertrifft und gleichzeitig Halluzinationen reduziert und die Genauigkeit verbessert.


Papieradresse: https://arxiv.org/pdf/2402.05120

Doch wie sollen mehrere Agenten eigentlich zusammenarbeiten?

Als Alex Sima nach Möglichkeiten suchte, die Leistung von KI bei Softwareentwicklungsaufgaben zu verbessern, hatte er eine Offenbarung:

Was würde passieren, wenn die Interaktion zwischen KI-Agenten institutionalisiert und dem „Organigramm“ eines Technologieriesen ähneln würde?


Als nächstes ließ Alex die KI die sechs großen Technologiegiganten – Amazon, Google, Microsoft, Apple, Meta und Oracle – übernehmen, um zu sehen, wie sie zusammenarbeiten.

Machen wir zunächst ein Foto, um ein Gefühl dafür zu bekommen.


Wichtige Erkenntnisse

Im Folgenden sind einige wichtige Punkte aufgeführt, die Alex gewonnen hat, nachdem er KI-Agenten in Unternehmensstrukturen organisiert hat, die denen von Apple, Microsoft und Google ähneln:

- Unternehmen mit mehreren „konkurrierenden“ Teams (d. h. die um die Herstellung des besten Endprodukts konkurrieren), wie Microsoft und Apple, übertreffen zentralisierte Hierarchien.

– Systeme mit Single Points of Failure (z. B. wenn ein Leiter wichtige Entscheidungen trifft), wie Google, Amazon und Oracle, weisen eine schlechte Leistung auf.

- Die Organisationsstruktur großer Technologieunternehmen hat einen bescheidenen, aber erheblichen Einfluss auf die Problemlösungsfähigkeiten.


KI-Agenten und Technologieriesenorganisationen

Bisherige Methoden zur Leistungsverbesserung durch einfache Erhöhung der Anzahl von KI-Agenten, wie z. B. SWE-Bench, haben keine nennenswerten Ergebnisse erzielt.

Dies zeigt, dass das Problem nicht allein durch steigende Zahlen gelöst werden kann.


Welche anderen Möglichkeiten gibt es also, KI-Agenten bei der Softwareentwicklung zu verbessern?

Vor drei Wochen stieß Alex auf einen Artikel von James Huckle über „Conways Gesetz“ – Software- und Produktarchitektur sind dazu bestimmt, die Organisationsstruktur widerzuspiegeln, die sie geschaffen hat.

James zeigte eine Illustration, die die dramatischen Organisationsstrukturen von Amazon, Google, Facebook, Microsoft, Apple und Oracle enthüllte, und schlug eine Idee vor:

Wie Menschen in großen Technologieunternehmen können Kommunikationsstrukturen mit mehreren Agenten Problemlösungsansätze prägen.


Alex wurde inspiriert, James‘ Hypothese an einem SWE-Bench-Instanz zu testen.

Versuchsaufbau

Die Autoren organisieren KI-Agenten in verschiedenen Unternehmensstrukturen und bewerten sechs verschiedene Organisationsstrukturen anhand der 13-Instanzen „Mini“-Teilmenge von SWE-bench-lite.

Beim Aufbau dieser sechs Organisationen entwarf er die Multi-Agenten-Organisationsstruktur auf der Grundlage einiger Kernbeobachtungen:

Amazonas

Auf der obersten Ebene gibt es einen Binärbaum von „Managern“.

Um diese Struktur zu replizieren, verwendet Alex eine große Anzahl von Agenten, die Codebasissuchen durchführen, und einen einzelnen Agenten, der letztendlich Codebasisaktualisierungen durchführt.


Google

Ähnlich der Baumstruktur von Amazon, jedoch mit mehr Verbindungen zwischen den mittleren Schichten.

Alex kopiert alle Agentenergebnisse durch Aggregation innerhalb einer einzelnen Ebene und übergibt sie an die nächste Agentenebene.


Meta (Facebook)

Es fehlt eine hierarchische Struktur, es handelt sich aber immer noch um eine Netzwerkorganisation mit vielen Verbindungen zwischen Agenten.

Alex hat das ursprüngliche Agentendesign geändert, indem er die Möglichkeit der Konvertierung zwischen verschiedenen Agenten erhöht hat.


Microsoft

Der Schwerpunkt liegt auf wettbewerbsfähigen Teams, jedes mit seiner eigenen Stufe.

Im Wesentlichen hat Alex Amazon umstrukturiert (die Anzahl der Agenten reduziert) und mithilfe einer Vektorähnlichkeitsabstimmungsmethode die „beste“ Lösung aus drei separaten Durchläufen ausgewählt (mit geringfügigen Anpassungen der Hierarchie in jedem Durchlauf).


Apfel

Viele kleine Wettbewerbsteams, jedes mit seiner eigenen minimalen Struktur.

Alex verwendete den gleichen Ansatz der „besten Lösung“ wie Microsoft, führte jedoch mehr Läufe ohne Agentenebene durch (jeder Lauf hatte unterschiedliche Transformationen).


Orakel

Es gibt zwei verschiedene Teams, einen größeren „legalen“ Binärbaum und einen kleineren technischen Baum.

Alex erklärte das Rechtsteam als die Agenten, die die Codebasis durchsuchen und den Schlüsselkontext abrufen, während das Technikteam aus den Agenten besteht, die den Code tatsächlich schreiben.

Die Struktur der beiden Teams ähnelt Amazon, wobei ein einzelner Agent an der Spitze den Informationsfluss zwischen „Legal“ und „Engineering“ koordiniert.


Bewertungsergebnisse

Um jeden Satz von Patches auf dem SWE-Bench zu bewerten, verwendet der Autor die SWE-Bench-Bewertung.

Das Ergebnis ist wie folgt:


Leistungsanalyse des Organigramms

Hier sind einige Beobachtungen des Autors dazu, wie sich unterschiedliche Unternehmensstrukturen auf die Leistung auswirken:

- Wettbewerbsfähige Teams erhöhen die Erfolgschancen.

Die beiden Spitzenreiter (Microsoft und Apple) haben mehrere Teams, die um die Lösung des Problems konkurrieren, während andere Unternehmen offenbar nur ein großes Team haben, das einen einzigen Patch produziert.

Mehrere Teams ermöglichen eine größere Vielfalt an Problemlösungsansätzen und erhöhen so die Wahrscheinlichkeit einer Problemlösung.

- Strukturen mit Single Points of Failure weisen eine schlechte Leistung auf.

Wenn wir von Single Points of Failure sprechen, beziehen wir uns auf Unternehmen (wie Google, Amazon und Oracle), die über hochrangige Manager/Agenten verfügen, die die Betriebsergebnisse vollständig verändern können.

Bei der Koordinierung von Interaktionen zwischen mehreren Agenten besteht ein häufiges Problem darin, dass ein Agent ausfällt – was dazu führen kann, dass ein Agent die Richtung der Problemlösungsstrategie des Teams ändert.

Unternehmen mit Single Points of Failure sind für diese Probleme anfällig.

Darüber hinaus sind die beiden Top-Performer Microsoft und Apple gemessen an der Marktkapitalisierung die beiden größten Technologieunternehmen der Welt.

Es stellt sich heraus, dass die Organisationsstrukturen, die in der realen Welt am besten zu funktionieren scheinen, auch für KI-Agenten gut funktionieren.


Screenshot von CompaniesMarketCap, 25. Juli 2024

Gedanken zum Fortschritt der SWE-Bank

Betrachtet man die Ergebnisse für verschiedene Unternehmensstrukturen, ist dies bei diesem Mini-Benchmark zu erwarten.

Insgesamt scheint es, dass bei einer so komplexen Aufgabe wie der Softwareentwicklung das Hinzufügen weiterer Agenten oder die Änderung der Art und Weise, wie diese Agenten organisiert sind, nur zu geringfügigen Leistungsverbesserungen führt.

Obwohl in der Arbeit „More Agents Is All You Need“ eine beträchtliche Verbesserung der Genauigkeit (ca. 20 %) festgestellt wurde, flachte die Leistung im GSM8K-Test (Grundschulmathematik) nach 30 Agenten deutlich ab.

Die Studie ergab außerdem, dass übermäßig komplexe Aufgaben (wie die im SWE-Bench) die Argumentationsfähigkeiten des Modells übersteigen können, was zu geringeren Leistungssteigerungen führt.

Auch eine SIMA-Sitzung bestätigte diesen Befund mit einer höchstens 2–3 %igen Verbesserung gegenüber der Basisarchitektur (mit mehr als 40 Agenten).

Er geht davon aus, dass diese kleine Verbesserung auch in anderen Nicht-Multi-Agent-Architekturen konsistent sein wird.

Die Autoren argumentieren, dass das Erreichen größerer Fortschritte bei Benchmarks eine Änderung der tatsächlichen logischen Denkfähigkeiten von Agenten oder der Strategien und Methoden erfordert, die sie zur Lösung von Softwareproblemen anwenden (oder erhalten) können.

Dies kann durch ein leistungsfähigeres Basismodell (GPT-5) oder durch die Bereitstellung umfassenderer Tools für den Agenten erreicht werden.

Das Gleiche gilt für den Unternehmensbetrieb.

Das Fazit lautet: Wenn Sie keine intelligenteren Mitarbeiter einstellen oder ihnen bessere Ressourcen zur Verfügung stellen, wird sich ihre Leistung nicht verbessern, egal wie Sie sie organisieren oder wie viele Mitarbeiter Sie haben.

Zugegebenermaßen dürfte die Leistung von 13 Instanzen weit von der tatsächlichen Leistung des vollständigen Benchmarks entfernt sein.

Allein der Unterschied in dieser Mini-Teilmenge ist signifikant genug, dass es sich lohnt, darauf zu achten (ca. 50 % Verbesserung von Google zu Apple).

Das zugrunde liegende Modell/die zugrunde liegenden Tools können ein limitierender Faktor bei der Softwareentwicklung von Agenten sein, aber wenn sich das zugrunde liegende Modell verbessert, sollte die Erforschung der Kommunikationsstrukturen von Agenten (ob in einer Unternehmensorganisation oder nicht) unbedingt getestet werden.

Wie James Huckle sagte, könnte dieses Konzept zu einem „Schlüssel-Hyperparameter“ bei der Gestaltung von KI-Agenten werden und unterschiedliche Organisationsstrukturen könnten für unterschiedliche Aufgaben besser geeignet sein.

Referenzen:

https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures