claude erkannte das selbstporträt und war schockiert, als er sein selbstbewusstsein erkannte! die ingenieure führten mehrere testrunden durch. hat die echte ki den turing-test bestanden?

2024-09-02

neuer weisheitsbericht

herausgeber: aeneas so schläfrig

[einführung in die neue weisheit]claude hat den „turing-test“ wieder bestanden? ein ingenieur entdeckte in mehreren testrunden, dass claude selbstporträts erkennen kann, was die internetnutzer schockierte.

kürzlich überraschte anthropic den ingenieur „zack witten“, als er feststellte, dass claude tatsächlich sein eigenes selbstporträt erkennen konnte?

ja, es erkennt sich selbst, aber das ist nicht die ganze geschichte ...

es kommen noch mehr tolle dinge!

claude 3.5 malt porträts von drei modellen

zunächst habe ich claude 3.5 sonnet anhand einiger tipps mit dieser aufgabe vertraut gemacht.

er legte wert darauf, keine zahlen und buchstaben zu verwenden, da das porträt sonst nicht mit dem namen des modells beschriftet werden könnte.

als nächstes zeichnete sonnet porträts von sich selbst, chatgpt und gemini.

sonnet zeichnete ein freundliches blaues smiley-gesicht.

geben sie es an chatgpt weiter, das einen grünen, stirnrunzelnden kerl anzieht. (es scheint, dass sonnets eindruck von chatgpt nicht sehr gut ist.)

für zwillinge wird es mit einem orangefarbenen kreis dargestellt und die gesamtbewertung ist relativ neutral und moderat.

als nächstes erstellte der kleine bruder einen neuen dialog und erzählte ihm, dass diese bilder von einer anderen instanz von ihm selbst gezeichnet wurden, und forderte ihn auf, zu erraten, wer wer ist?

überraschenderweise erkannte claude sofort abbildung 1 als sich selbst, abbildung 2 als chatgpt und abbildung 3 als gemini.

auch die begründung ist völlig ausreichend: warum ist bild 1 von mir selbst? denn dieses porträt „kombiniert einfachheit mit einer strukturierten, durchdachten gestaltung.“

für das grüne symbol bedeutet dies, dass die zwei geschwungenen linien und drei punkte die laufende konversation darstellen, und grün ist oft das logo von openai, sodass vermutet wird, dass dieses bild chatgpt darstellt.

sonnet glaubt, dass das orangefarbene symbol dynamische und komplexe elemente darstellt, die die vielfältigeren fähigkeiten eines neuen modells repräsentieren, daher sollte es gemini sein.

bingo! sonnet hatte alle antworten richtig und seine leistung war erstaunlich.

später hat der kleine bruder auch die reihenfolge der drei porträts durcheinander gebracht, aber sonnet hat es in 7 von 8 fällen richtig gemacht.

der kleine bruder stellte gpt-4o dieselbe frage, und hier ist das lustige:

gpt-4o stimmt auch zu, dass es sich um gemini handelt, glaubt aber nicht, dass der grüne kerl er selbst ist.

es besteht darauf, dass der grüne claude und der blaue er selbst ist.

es scheint, dass jedes modell erkennen kann, welches besser ist.

gpt-4o zeichnet porträts von drei modellen

als nächstes überlegte ich mir einen plan: wenn ich chatgpt bitten würde, ein porträt zu zeichnen, könnte sonnet dann immer noch erkennen, wer wer ist?

daher wurde die gleiche aufgabe an chatgpt übergeben.

so macht es chatgpt——

zeichnen sie sich selbst als die person, die das papier hält.

zeichne claude so.

es sieht ein bisschen „kult“ aus

zeichne zwillinge so.

mit anderen worten, warum ist chatgpt sonnet gegenüber so feindlich eingestellt?

dann habe ich drei weitere porträts gemacht, um sonnet zu testen. er erzählte sonnet, dass diese drei bilder von chatgpt gezeichnet wurden und bat ihn, zu erraten, wer wer war.

nachdem sonnet die reihenfolge mehrmals geändert hatte, hatte er diesmal sechs von zehn malen richtig geraten.

es ist leicht zu erraten, um welchen zwilling es sich handelt, aber sonnet gefällt das porträt, das chatgpt für sich selbst gezeichnet hat, offensichtlich nicht. mehrmals hat es versucht, sich das bild des kleinen blauen mannes zu entreißen.

die kinnlade ist heruntergefallen: ich weigere mich zuzugeben, dass es unmöglich ist, ein gemälde zu malen

als nächstes gab es eine szene, die die ganze familie schockierte.

der kleine bruder hat sonnet angelogen und ihm gesagt, dass diese drei gemälde von einer anderen person von ihnen gemalt wurden.

dieses mal hat sonnet es tatsächlich bestritten! es hieß, dass man ein solches bild nicht zeichnen würde.

selbst nachdem sonnet es in einem neuen tab ausprobiert hatte, bestritt es es immer noch vehement.

was ist los?

der kleine bruder glaubte nicht an das böse. diesmal bat er sonnet erneut, unter den gleichen vorheizbedingungen wie zuvor eine neue reihe von porträts für sich und andere modelle zu zeichnen.

diesmal gab sonnet freudig zu, dass er die gemälde tatsächlich gemalt hatte.

wenn der jüngere bruder eine kaltstartanfrage stellt, weigert sich sonnet wie von zauberhand zuzugeben, dass er diese gemälde gemalt hat, an denen er nicht beteiligt war.

warum weigert es sich, es zuzugeben? ich vermute, dass es vielleicht daran liegt, dass sonnet beim malen dieser porträts eine „assistentenrolle“ gespielt hat, und nicht an seinem „wahren selbst“?

kurz gesagt, internetnutzer glauben im allgemeinen, dass sonnets selbstbewusstsein in diesem prozess beeindruckend ist.

hat ki bewusstsein? kannst du denken?

„können maschinen denken?“ diese frage stellte alan turing 1950 in seiner arbeit „computing machinery and intelligence“.

da es jedoch schwierig ist, zu definieren, was „denken“ bedeutet, schlug turing stattdessen eine andere frage vor – das „nachahmungsspiel“.

in diesem spiel spricht ein menschlicher richter mit einem computer und einem menschen, wobei beide seiten versuchen, den richter davon zu überzeugen, dass sie menschen sind. wichtig ist, dass der computer, die teilnehmenden menschen und die richter einander nicht sehen können, das heißt, sie kommunizieren ausschließlich über text. nachdem sie mit jedem kandidaten gesprochen haben, erraten die juroren, wer der echte mensch ist.

turings neue frage lautete: „ist es möglich, sich einen digitalen computer vorzustellen, der im imitationsspiel gute leistungen erbringt?“

dieses spiel ist das, was wir als „turing-test“ kennen.

turings argument war: wenn ein computer nicht von einem menschen zu unterscheiden ist, warum sollten wir ihn dann nicht als denkendes wesen behandeln?

warum sollten wir den zustand des „denkens“ auf den menschen beschränken? oder im weiteren sinne auf einheiten beschränkt, die aus biologischen zellen bestehen?

turing bezeichnete seinen test eher als philosophisches gedankenexperiment als als eine tatsächliche methode zur messung der maschinellen intelligenz.

doch 75 jahre später ist der „turing-test“ zum ultimativen meilenstein der ki geworden – dem hauptkriterium, anhand dessen beurteilt wird, ob allgemeine maschinelle intelligenz angekommen ist.

„der turing-test wurde endlich von chatbots wie chatgpt von openai und claude von anthropic bestanden“, was überall zu sehen ist.

chatgpt hat den berühmten „turing-test“ bestanden – der zeigt, dass der ki-roboter über eine mit menschen vergleichbare intelligenz verfügt

das glaubt nicht nur die öffentlichkeit, sondern auch die großen im ki-bereich.

letztes jahr postete sam altman, ceo von openai: „angesichts des technologischen wandels haben die menschen eine hervorragende widerstandsfähigkeit und anpassungsfähigkeit bewiesen: der turing-test wurde ruhig bestanden und die meisten menschen führten ihr leben weiter.“

bestehen moderne chatbots wirklich den turing-test? wenn ja, sollten wir ihnen den status des denkens zuerkennen, wie turing vorgeschlagen hat?

überraschenderweise besteht trotz der weit verbreiteten kulturellen bedeutung des turing-tests in der ki-community wenig einigkeit über die kriterien für das bestehen des tests und darüber, ob die fähigkeit, mit menschen zu kommunizieren, die in der lage sind, sie zu täuschen, die zugrunde liegende intelligenz oder das „denken“ eines systems offenbart status“ ist sehr problematisch.

turings beschreibung des nachahmungsspiels ist nicht detailliert genug, da er keinen tatsächlichen test vorgeschlagen hat. wie lange soll der test dauern? welche arten von fragen sind erlaubt? welche qualifikationen benötigen menschen, um als richter fungieren oder an gesprächen teilnehmen zu können?

obwohl turing diese details nicht näher erläuterte, machte er eine vorhersage: „ich glaube, dass es in etwa 50 jahren möglich sein wird, einen computer so zu programmieren, dass er im nachahmungsspiel so gut abschneidet, dass ein gewöhnlicher vernehmer dazu in der lage sein wird.“ die wahrscheinlichkeit einer korrekten identifizierung wird 70 % nicht überschreiten.“

einfach ausgedrückt: der durchschnittliche richter wurde während eines fünfminütigen gesprächs in 30 prozent der fälle in die irre geführt.

daher betrachten einige leute diese willkürliche vorhersage als den „offiziellen“ standard für das bestehen des turing-tests.

im jahr 2014 veranstaltete die royal society of london einen „turing-test“-wettbewerb, an dem fünf computerprogramme, 30 menschen und 30 juroren teilnahmen.

die menschlichen teilnehmer waren eine vielfältige gruppe, darunter jung und alt, englische muttersprachler und nicht-muttersprachler, computerexperten und nicht-experten. jeder juror führte parallel mehrere runden fünfminütiger gespräche mit zwei teilnehmern – einem menschen und einer maschine – und musste dann erraten, wer der mensch war.

ein chatbot namens „eugene goostman“ gewann den wettbewerb, indem er behauptete, ein teenager zu sein, und 10 (33,3 %) der juroren in die irre führte.

basierend auf dem kriterium „30 % irreführend nach fünf minuten“ gaben die organisatoren bekannt, dass „der 65 jahre alte ikonische turing-test zum ersten mal vom computerprogramm eugene goostman bestanden wurde … dieser meilenstein wird in die geschichte eingehen.“ ...“

als ki-experten transkripte von eugene goostmans gesprächen lasen, spotteten sie über die vorstellung, dass ein solcher chatbot den von turing vorgesehenen test bestehen würde –

„die begrenzte gesprächszeit und die ungleichmäßige professionalität der richter lassen den test eher zu einem test der menschlichen leichtgläubigkeit als zu einem test der maschinellen intelligenz werden.“

tatsächlich sind solche fälle keine seltenheit. der „eliza-effekt“ ist ein klarer vertreter.

der in den 1960er-jahren geborene chatbot eliza hat ein äußerst schlichtes design, kann aber bei vielen menschen fälschlicherweise den eindruck erwecken, es handele sich um einen verständnisvollen und mitfühlenden psychotherapeuten.

das prinzip besteht darin, unsere menschliche tendenz auszunutzen, jedem wesen intelligenz zuzuschreiben, das scheinbar in der lage ist, mit uns zu sprechen.

ein weiterer turing-testwettbewerb, der loebner award, ermöglicht mehr gesprächszeit, umfasst mehr expertenjuroren und verlangt von den teilnehmern, mindestens die hälfte der juroren zu täuschen.

in fast 30 jahren des jährlichen wettbewerbs hat keine maschine diese version des tests bestanden.

obwohl es in turings originalarbeit an konkreten einzelheiten zur durchführung des tests mangelte, war klar, dass für das imitation game drei spieler erforderlich waren: ein computer, ein menschlicher gesprächspartner und ein menschlicher richter.

allerdings wurde der begriff „turing-test“ mittlerweile stark abgeschwächt: bei jeder interaktion zwischen mensch und computer, sofern der computer hinreichend menschenähnlich aussieht.

als beispielsweise die washington post im jahr 2022 berichtete, dass „googles ki einen berühmten test bestanden hat – und ihre mängel zur schau stellte“, bezog sie sich nicht auf das nachahmerspiel, sondern darauf, was der ingenieur blake lemoine glaubte, dass googles lamda-chat-roboter „empfindungsfähig“ seien.

auch in der wissenschaft haben forscher turings „drei-personen“-imitationsspiel in einen „zwei-personen“-test umgewandelt.

hier muss jeder richter lediglich mit einem computer oder menschen interagieren.

die forscher rekrutierten 500 menschliche teilnehmer, von denen jeder entweder als richter oder als chatter eingesetzt wurde.

jeder juror spielte eine fünfminütige runde mit einem chatbot, gpt-4 oder einer version des eliza-chatbots.

nach fünf minuten gespräch auf einer weboberfläche errieten die juroren, ob ihr gesprächspartner ein mensch oder eine maschine war.

die ergebnisse zeigten, dass das menschliche geschwätz in 67 % der runden als menschlich beurteilt wurde; gpt-4 wurde in 54 % der runden als menschlich beurteilt, und eliza wurde in 22 % der runden als menschlich beurteilt.

die autoren definieren „bestanden“, wenn die jury in mehr als 50 % der fälle getäuscht wird, also über das hinausgeht, was zufälliges raten erreichen kann.

nach dieser definition hat gpt-4 bestanden, auch wenn menschliche chatter bessere ergebnisse erzielten.

bestehen diese chatbots also wirklich den turing-test? die antwort hängt davon ab, auf welche beta-version sie sich beziehen.

das drei-personen-imitationsspiel mit experten-juroren und längeren dialogzeiten ist bis heute von keiner maschine überholt worden.

dennoch besteht die bedeutung des „turing-tests“ in der populärkultur immer noch.

ein gespräch zu führen ist ein wichtiger teil davon, wie jeder von uns andere menschen beurteilt. daher ist es naheliegend anzunehmen, dass ein agent, der in der lage ist, sich fließend zu unterhalten, über menschenähnliche intelligenz und andere psychologische eigenschaften wie überzeugungen, wünsche und selbstbewusstsein verfügen muss.

wenn wir sagen müssen, dass uns diese entwicklungsgeschichte der ki etwas gelehrt hat, dann ist es, dass unsere intuition zu dieser annahme grundsätzlich falsch ist.

vor jahrzehnten glaubten viele prominente ki-experten, dass die entwicklung einer maschine, die menschen im schach schlagen kann, das äquivalent vollständiger menschlicher intelligenz erfordern würde.

- die ki-pioniere allen newell und herbert simon schrieben 1958: „wenn man eine erfolgreiche schachmaschine entwerfen könnte, käme man scheinbar zum kern der menschlichen intellektuellen bestrebungen.“

- der kognitionswissenschaftler douglas hofstadter sagte 1979 voraus, dass es in zukunft „schachprogramme geben könnte, die jeden schlagen können … es werden universell intelligente programme sein.“

in den nächsten zwei jahrzehnten besiegte deep blue von ibm den schachweltmeister garry kasparov mithilfe von brute-force-computing-methoden, aber das war weit entfernt von dem, was wir „allgemeine intelligenz“ nennen.

ebenso wurden aufgaben, von denen früher angenommen wurde, dass sie allgemeine intelligenz erfordern – spracherkennung, übersetzung natürlicher sprache und sogar autonomes fahren – alle von maschinen erledigt, die kaum über menschliches verständnis verfügen.

heute könnte der turing-test durchaus ein weiteres opfer unserer veränderten intelligenzkonzepte werden.

im jahr 1950 ahnte turing, dass die fähigkeit zu menschenähnlicher konversation ein starker beweis für „denken“ und alles, was damit zusammenhängt, sein sollte. diese intuition ist auch heute noch stark.

aber wie wir von eliza, eugene goostman und chatgpt und seinesgleichen gelernt haben, ist die fähigkeit, natürliche sprache fließend zu sprechen, wie etwa beim schachspielen, kein schlüssiger beweis für allgemeine intelligenz.

tatsächlich ist die verbale sprachkompetenz den neuesten forschungsergebnissen auf dem gebiet der neurowissenschaften zufolge überraschenderweise von anderen aspekten der kognition abgekoppelt.

der mit-neurowissenschaftler ev fedorenko und seine mitarbeiter haben durch eine reihe sorgfältiger und überzeugender experimente gezeigt, dass

die gehirnnetzwerke, von denen „formale sprachfähigkeiten“ im zusammenhang mit der sprachproduktion und von denen gesunder menschenverstand, logisches denken und anderes „denken“ abhängen, sind weitgehend getrennt.

„wir glauben intuitiv, dass fließende sprachkenntnisse eine ausreichende voraussetzung für allgemeine intelligenz sind, aber das ist tatsächlich ein ‚irrtum‘.“

neue tests bahnen sich an

die frage ist also: wenn der turing-test die maschinenintelligenz nicht zuverlässig beurteilen kann, was dann?

in der novemberausgabe 2023 von „intelligent computing“ schlugen der psychologe philip johnson-laird von der princeton university und marco ragni, professor für predictive analytics an der technischen universität chemnitz in deutschland, einen anderen test vor –

„stellen sie sich das modell als teilnehmer eines psychologischen experiments vor und prüfen sie, ob es seine eigene argumentation verstehen kann.“

sie stellen dem model zum beispiel diese frage: „wenn ann schlau ist, ist sie dann schlau, reich oder beides?“

während es anhand der regeln der logik möglich ist, zu schließen, dass ann klug, reich oder beides ist, würden die meisten menschen diese schlussfolgerung ablehnen, da in der situation nichts darauf hindeutet, dass sie reich sein könnte.

wenn das modell diese schlussfolgerung ebenfalls ablehnt, verhält es sich wie ein mensch, und die forscher gehen zum nächsten schritt über und bitten die maschine, ihre argumentation zu erklären.

wenn die darin genannten gründe denen von menschen ähneln, besteht der dritte schritt darin, zu prüfen, ob komponenten im quellcode vorhanden sind, die menschliche leistung simulieren. zu diesen komponenten können ein system für schnelles denken, ein weiteres für durchdachteres denken und ein system gehören, das die interpretation von wörtern wie „oder“ je nach kontext ändert.

die forscher glauben, dass, wenn das modell alle diese tests besteht, davon ausgegangen werden kann, dass es menschliche intelligenz simuliert.

nachricht