nachricht

gpt-4o spielte „black myth: wukong“, das ki-„pferd“ kümmerte sich um den boss und die gewinnquote war übermenschlich

2024-09-28

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ist das spiel „black myth: wukong“ nur ein monster?

ich gebe zu, als mein freund mich in diesem moment auf diese weise befragte, verlor ich meine wachsamkeit.

von der erkenntnis, dass yang jian gefangen werden muss, bis zum tod von tiger vanguard hat es nur weniger als einen halben tag gedauert. wenn wir „black myth“ klären wollen, können wir dann auf ki zählen?

rollen und ausweichen, abstand halten und die bewegungen des monsters klar im blick behalten.

als die zeit gekommen war, schwang der mann des schicksals plötzlich seinen schweren stock.

mit hilfe der ki wurde eine reibungslose combo durchgeführt und der boss wurde besiegt, ohne dass er sich wehren konnte.

das alibaba-forschungsteam hat kürzlich ein varp-agent-framework vorgeschlagen. und dieses ki-„pferd“ wurde von ihnen gemacht.

man kann sagen, dass es sich nicht um ein plug-in handelt, aber es ist besser als ein plug-in.

die gpts, die dem großen weisen gegenüberstanden, waren wirklich nicht schlimmer als menschen.

wenn die ki dem großen weisen gegenübersteht, ist das eigentlich gar nicht so kompliziert.

traditionell verlässt sich die spiel-ki auf spiel-apis, um umgebungsinformationen und ausführbare aktionsdaten zu erhalten. das problem besteht jedoch darin, dass nicht jedes spiel bereit ist, eine offene api bereitzustellen, oder selbst wenn eine solche bereitgestellt wird, fehlen einigen apis die grundlagen, was es schwierig macht, den tatsächlichen anforderungen gerecht zu werden.

darüber hinaus haben herkömmliche methoden immer das gefühl, dass etwas fehlt, und können das reale spielerlebnis menschlicher spieler nicht vollständig simulieren.

auf dieser grundlage schlug das alibaba-forschungsteam ein neues varp-agenten-framework (vision action role-playing) vor.

nach erhalt der eingabe-screenshots des spiels führt das varp-agent-framework mithilfe einer reihe von vlms eine inferenz durch und generiert schließlich code in python-form, um den spielcharakter zu steuern, einschließlich einer kombination aus einer reihe atomarer befehle wie leichter angriff, ausweichen und schwerer angriff , und die genesung wartet.

varp enthält drei wissensbasen: situationsbasis, aktionsbasis und menschliche führungsbasis sowie zwei systeme: aktionsplanungssystem und menschliches führungsbahnsystem.

einfach ausgedrückt entspricht das aktionsplanungssystem einem bibliothekar, der dafür verantwortlich ist, die am besten geeigneten materialien aus der situationsbibliothek und der aktualisierbaren aktionsbibliothek zu finden.

basierend auf den eingegebenen spiel-screenshots wählt oder generiert das system aktionen, die zur aktuellen situation passen, und dann werden diese aktionen und situationen in diesen beiden bibliotheken gespeichert oder aktualisiert.

das vom menschen gesteuerte flugbahnsystem nutzt menschliche operationsdatensätze, um die leistung von varp bei komplexen aufgaben wie wegfindungsaufgaben und schwierigen kampfaufgaben zu verbessern.

in der aktionsbibliothek stellt „def new_func_a()“ eine neue aktion dar, die vom aktionsplanungssystem generiert wird, während „def new_func_h()“ eine neue aktion darstellt, die vom menschlich geführten trajektoriensystem generiert wird. „def pre_func()“ gibt eine vordefinierte aktion an.

in dem oben erwähnten spiel „black myth wukong“ stellte das forschungsteam 12 aufgaben, von denen 75 % kämpfe beinhalteten, und führte benchmark-tests mit vlms durch, darunter gpt-4o, claude 3.5 sonnet und gemini 1.5 pro.

die ergebnisse zeigen,varp hat eine siegesquote von bis zu 90 % in einfachen missionen und gefechten mit einfachem bis mittlerem schwierigkeitsgrad. bei schwierigen aufgaben lässt die leistung von varp jedoch leicht nach, und das gesamtniveau ist immer noch nicht so gut wie das menschlicher spieler.

wenn der varp-agent außerdem entscheidungen im spiel verarbeitet, kann er nicht jeden spielrahmen (d. h. spielbildschirm) in echtzeit analysieren, da er auf die inferenzgeschwindigkeit des visuellen sprachmodells (vlm) angewiesen ist.

mit anderen worten: es kann nicht wie ein menschlicher spieler nahezu augenblicklich auf alles reagieren, was auf dem bildschirm passiert. stattdessen kann es das spielmaterial nur alle paar sekunden verarbeiten und einige wichtige frames (keyframes) für die analyse und entscheidungsfindung auswählen.

als „black myth: wukong“ auf den markt kam, wurde das fehlen einer karte und die existenz einer großen anzahl von „luftwänden“ beklagt. daher wäre die ki ohne menschliche hilfe nicht in der lage, wie eine kopflose fliege zu sein finde den boss.

generative ki hat das feuer der weltveränderung entfacht, bevor sie in das öffentliche bewusstsein gelangte, die intuitivere bindung der gewöhnlichen menschen zur ki entstand möglicherweise größtenteils aus spielen.

in der geschichte der videospiele ist ki weitaus wichtiger als wir denken

viele menschen hätten vielleicht nicht gedacht, dass eines der ersten spiele, das auf den ki-zug aufsprang, das klassische arcade-spiel „pac-man“ sein würde.

voraussetzung für den sieg des spielers ist das essen aller bohnen im labyrinth. die scheinbar albernen bunten geister haben unterschiedliche verfolgungsalgorithmen und verfolgen den spieler auf unterschiedliche weise und auf unterschiedliche weise.

die algorithmischen bewegungen jedes geistes sind extrem einfach und es mangelt ihnen an jeglicher lernfähigkeit. sobald der spieler diese regeln versteht, wird der schwierigkeitsgrad des spiels drastisch sinken.

„metal gear solid“ im jahr 1987 markierte einen weiteren wichtigen meilenstein in der spiele-ki.

die ki-charaktere im spiel begannen, komplexere verhaltensmuster zu zeigen, und zum ersten mal wurde ein feindseliger reaktionsmechanismus gegenüber spielern eingeführt. wenn der spieler vom feind entdeckt wird, löst der feind das alarmsystem aus, ruft verstärkung an, ändert die patrouillenrouten und stellt sogar fallen auf.

wenn der entwicklungsprozess von ki und spielen später in einer reihe bahnbrechender ereignisse kurz aufgelistet wird, sieht er ungefähr wie folgt aus:

1997 besiegte ibms „deep blue“ den menschlichen weltmeister in einem schachspiel und markierte damit einen großen durchbruch für die ki in schachspielen.

im jahr 2004 wurde „half-life 2“ veröffentlicht. die ki-charaktere im spiel waren in der lage, komplexere entscheidungen und interaktionen zu treffen, was die immersion des spiels verbesserte.

im jahr 2011 besiegte ibms „watson“ den menschlichen champion in der quizshow „jeopardy!“ und demonstrierte damit die fortschritte der ki in der verarbeitung natürlicher sprache und beim wissensdenken.

im jahr 2016 besiegte alphago lee sedol im go-spiel und markierte damit einen großen durchbruch für die ki in komplexen strategiespielen.

im jahr 2018 wurde „red dead redemption 2“ veröffentlicht. der grad der interaktion zwischen den ki-charakteren des spiels und der umgebung wurde erheblich verbessert und sorgte für ein äußerst realistisches spielerlebnis.

im jahr 2020 führte nvidia die dlss-technologie ein, die ki nutzt, um die grafikwiedergabe zu beschleunigen und die spieleleistung und bildqualität zu verbessern.

wenn man sich die aktuelle spielumgebung ansieht, liegt der schwerpunkt des spiels immer noch auf der kameradschaft, und die ki ist wie ein verstärker, der diese kameradschaft unzählige male verstärkt.

auf der diesjährigen ces nutzte nvidia die avatar cloud engine (ace), um spiele-npcs „lebendig“ zu machen, und erlangte in der branche große popularität.

in der demo namens kairos konnten spieler mit jin, dem besitzer des ramen-ladens, interagieren. obwohl jin nur ein npc ist, beantwortet er mithilfe generativer ki fragen wie eine echte person.

die kombination aus ki und spielen lässt die menschen immer sowohl liebe als auch hass empfinden.

nehmen wir als beispiel wettbewerbsspiele. in der vergangenheit bestand die methode lediglich darin, den schwierigkeitsgrad streng anzupassen. heute besteht die methode darin, menschliche vorgänge zu imitieren, um das spielerlebnis realistischer zu gestalten.

befürworter glauben, dass, wenn eine menschensimulierende ki zum gegner oder teamkollegen wird, dies aufgrund des mangels an echten spielern wiederum das wettbewerbsgefühl des spiels verbessern kann.

dies ist auch der nachteil, dass die spielerbindungsrate verbessert wurde, aber unter der kontrolle des systems können sich die spieler dem strudel des spielens durch die ki nicht entziehen.

in der anfangsphase gab es kühne worte, in der mittelphase gab es unsinn und in der späteren phase herrschte stille.

wenn wir die ganze nacht wach bleiben, nur um ein weiteres spiel zu gewinnen, ist es schwer zu sagen, ob wir das spiel spielen oder das spiel uns spielt.

besonders wenn man erkennt, dass es sich bei den teamkollegen möglicherweise um ki handelt, ist das gefühl der ohnmacht wie ein schlag mit der faust auf die baumwolle. mein herz fühlte sich weich an und hatte keinen fokus.

alter huang-prophet! werden zukünftige spiele von ki generiert?

selbst wenn sie ein anfänger im programmieren sind, können wir ki zum spielen von spielen nutzen.

vor ein paar jahren hätten wir davon wahrscheinlich nur träumen können, aber die einführung der generativen ki hat raum dafür geschaffen, dass all dies wirklichkeit werden kann.

auf einer kleinen ebene ist es so, als würde man ein gpts erstellen, um ein story-tell-spiel zu spielen. auf einer großen ebene ist es ein ki-gestütztes miniprogrammspiel. obwohl die interaktivität nicht interessant ist, ist es besser als die schöne grafik.

geht man noch einen schritt weiter, könnten in zukunft sogar spiele auf 3a-meisterwerksniveau direkt durch ki-rendering generiert werden.

letztes jahr hat nvidia-gründer jensen huang das vorhergesagtin zukünftigen spielen wird jedes pixel generiert und nicht gerendert.als dies damals gesagt wurde, waren vielleicht noch alle zögerlich.

normalerweise kann es eine woche dauern, eine umgebung für ein kleines spiel zu erstellen, und länger für ein studioprojekt, abhängig von der komplexität des designs.

letzten monat kündigte google deepmind seine erste „ki-game-engine“ an.gamengen

es ist in der lage, den schießspielklassiker „doom“ in echtzeit mit über 20 bildern pro sekunde auf einem einzigen tpu-chip zu simulieren.

dabei wird ein diffusionsmodell verwendet, um jeden frame in echtzeit vorherzusagen. das bedeutet, dass jeder moment im spiel in echtzeit generiert wird, basierend auf den komplexen interaktionen der aktionen des spielers und der umgebung.

damals musste der leitende nvidia-wissenschaftler jim fan seufzen, dass „doom“, das von hackern an verschiedenen orten wild betrieben wurde, tatsächlich in einem reinen diffusionsmodell implementiert wurde und jedes pixel generiert wurde.

später tauchen weitere ähnliche ergebnisse auf.

vor nicht allzu langer zeit hat tencent auch einen großen schritt unternommen und ein großes modell speziell für 3a-open-world-spiele auf den markt gebracht –gamegen-o

gamegen-o kann charaktere, dynamische umgebungen und komplexe aktionen in verschiedenen aaa-spielen wie „the witcher 3“, „cyberpunk 2077“, „assassin’s creed“ und „black myth: wukong“ simulieren und die qualität des generierten spiels verbessern szenen ist ebenfalls sehr hoch

um den datensatz aufzubauen, sammelte tencent, das viel geld ausgab, mehr als 32.000 spielvideos, jedes video war nur wenige minuten oder bis zu ein paar stunden lang, und wählte dann 15.000 verfügbare videos durch manuelle daten aus anmerkung.

diese kuratierten videos werden durch szenenerkennung in segmente geschnitten und dann streng nach ästhetik, optischer flussanalyse und semantischem inhalt sortiert und gefiltert.

electronic arts, ein amerikanischer spieleentwickler, zeigte der branche kürzlich mit einem video mit dem titel „from imagination to creation“ eine leuchtende vision für die zukünftige ki-implementierung in der spieleentwicklung.

im video können spieler mithilfe von ki-tools mit nur einfachen anweisungen spielszenen, charaktere und andere inhalte erstellen.

sagte ceo andrew wilsongenerative ki kann in zukunft mehr als die hälfte der entwicklungsprozesse von unternehmen verbessernwird voraussichtlich innerhalb von drei bis fünf jahren größere, immersivere spielwelten entwerfen und erschaffen.

ki kann nicht nur die entwicklungseffizienz bestehender spiele verbessern, sondern auch neue spielerlebnisse schaffen.

vielleicht werden sie sagen, dass egal, welche fortschrittliche technologie im spiel verwendet wird, letztendlich der spaß das wichtigste ist.

aber wenn gta 6 immer wieder abprallt und fehlt, kommen wir vielleicht auch auf die idee, es selbst zu machen und genug essen und kleidung zu haben.

schließlich würde es sich ziemlich gut anfühlen, wenn man mit eigenen händen eine „sin city“ erschaffen könnte.