2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Maschinenherzbericht
Herausgeber: Zenan, Asia Oriole
Das anthropomorphe Verhalten großer Modelle verursacht den Uncanny-Valley-Effekt.
「Turing-Testist ein schlechter Test, da Konversationsfähigkeiten und Argumentation völlig unterschiedliche Dinge sind. „In den letzten Tagen ist im KI-Kreis eine neue Sichtweise populär geworden.
Jetzt, da wir uns im Zeitalter der generativen KI befinden, sollten sich unsere Standards für die Bewertung von Intelligenz ändern.
„Können Maschinen denken?“ Diese Frage stellte Alan Turing 1950 in seiner Arbeit „Computing Machinery and Intelligence“. Turing wies schnell darauf hin, dass die Frage angesichts der Schwierigkeit, „Denken“ zu definieren, „bedeutungslos und einer Diskussion unwürdig“ sei. Wie es in philosophischen Debatten üblich ist, schlug er vor, sie durch eine andere Frage zu ersetzen.
Turing stellte sich ein „Imitationsspiel“ vor, bei dem ein menschlicher Richter mit einem Computer und einem Menschen (Folie) spricht, wobei beide Seiten versuchen, den Richter davon zu überzeugen, dass sie wirklich Menschen sind.
Wichtig ist, dass Computer, Folie und Richter einander nicht ansehen konnten und ausschließlich über Text kommunizierten. Nachdem sie mit jedem Kandidaten gesprochen haben, erraten die Juroren, wer der wahre Mensch ist.
Turings neue Frage lautete: „Gibt es einen denkbaren digitalen Computer, der sich beim Imitation Game auszeichnen könnte?“
Papierlink:
https://academic.oup.com/mind/article/LIX/236/433/986238?login=false
Dieses von Turing vorgeschlagene Spiel, das heute allgemein als Turing-Test bekannt ist, wurde verwendet, um die weit verbreitete intuitive Überzeugung zu widerlegen, dass „es aufgrund der mechanischen Natur von Computern unmöglich ist, auf prinzipieller Ebene zu denken“.
Turings Argument ist folgendes: Wenn ein Computer verhaltenstechnisch nicht von einem Menschen zu unterscheiden ist (abgesehen von seinem Aussehen und anderen physischen Eigenschaften), warum behandeln wir ihn dann nicht als denkendes Wesen? Warum sollten wir die Qualifikation zum „Denken“ auf Menschen (oder allgemeiner auf Einheiten aus biologischen Zellen) beschränken? Wie der Informatiker Scott Aronson es beschreibt, war Turings Vorschlag „ein Appell gegen den ‚fleischlichen Chauvinismus‘“.
Der Turing-Test ist eher eine Idee als eine „Methode“
Turing bezeichnete seinen Test eher als philosophisches Gedankenexperiment als als eine Möglichkeit, die maschinelle Intelligenz tatsächlich zu messen. In der öffentlichen Wahrnehmung ist der Turing-Test jedoch zum ultimativen Meilenstein der künstlichen Intelligenz (KI) geworden – dem Hauptkriterium für die Beurteilung, ob die allgemeine maschinelle Intelligenz angekommen ist.
Jetzt, fast 75 Jahre später, sind Berichte über KI voller Behauptungen, dass der Turing-Test bestanden wurde, insbesondere mit der Einführung von Chatbots wie ChatGPT von OpenAI und Claude von Anthropic.
Letztes Jahr schrieb Sam Altman, CEO von OpenAI: „Angesichts des technologischen Wandels haben sich die Anpassungsfähigkeit und Widerstandsfähigkeit der Menschen deutlich gezeigt: Der Turing-Test wurde stillschweigend bestanden und die meisten Menschen führten ihr Leben weiter.“
Auch große Medien haben ähnliche Schlagzeilen veröffentlicht: „ChatGPT hat den berühmten ‚Turing-Test‘ bestanden – ein Hinweis darauf, dass der KI-Roboter über eine mit Menschen vergleichbare Intelligenz verfügt.“
Die alte Tageszeitung im Vereinigten Königreich – The Daily Mail
Sogar eines der größten Medien der Welt und eine einflussreiche öffentliche Medienorganisation wie die BBC behaupteten 2014 sogar, dass Computer-KI den Turing-Test bestanden habe.
https://www.bbc.com/news/technology-27762088
Die Frage ist jedoch: Bestehen moderne Chatbots wirklich den Turing-Test? Wenn ja, sollten wir ihnen den Status des „Denkens“ zuerkennen, wie Turing vorgeschlagen hat?
Überraschenderweise ist sich die KI-Community trotz der weit verbreiteten kulturellen Bedeutung des Turing-Tests seit langem uneinig über die Kriterien für das Bestehen des Turing-Tests. Viele fragen sich, ob Konversationsfähigkeiten, die in der Lage sind, Menschen zu täuschen, wirklich die zugrunde liegende Intelligenz oder „Denkfähigkeit“ eines Systems offenbaren.
In den Augen von tausend Menschen gibt es wahrscheinlich tausend Turing-Teststandards.
Turing-Award-Gewinner Geoffery Hinton sprach in einem Interview über seinen „Turing Test Standard“. Er glaubt, dass Chatbots wie Palm erklären können, warum ein Witz lustig ist, was als Zeichen ihrer Intelligenz gewertet werden kann. Heutige große Modelle wie GPT-4 können sehr gut erklären, warum ein Witz lustig ist, was als Teil ihrer Turing-Testkriterien gilt.
Verglichen mit den seriösen Definitionen anderer Wissenschaftler zum Turing-Test sind Hintons Ansichten zwar humorvoll, bringen aber immer noch seine Gedanken zur ultimativen These zum Ausdruck, „ob künstliche Intelligenz die Fähigkeit zum Denken hat.“
Link zum Interviewvideo: https://www.youtube.com/watch?v=PTF5Up1hMhw
Eine „Turing-Farce“
Da Turing keinen Test mit vollständigen praktischen Anweisungen vorgelegt hat.
Seiner Beschreibung des „Imitationsspiels“ mangelt es an Details:
Wie lange soll der Test dauern?
Welche Arten von Fragen sind erlaubt?
Welche Qualifikationen müssen menschliche Richter oder „Foiler“ mitbringen?
Auf diese spezifischen Fragen ging Turing nicht näher ein. Er machte jedoch eine konkrete Vorhersage: „Ich glaube, dass Computer in etwa 50 Jahren so gut programmiert sein werden, dass der durchschnittliche Vernehmer nach fünf Minuten Befragung nur noch eine Chance haben wird, einen echten Menschen zu identifizieren.“ 70 % .“ Vereinfacht ausgedrückt wurde der Bewerter in einem fünfminütigen Gespräch durchschnittlich 30 % der Zeit in die Irre geführt.
Manche sehen in dieser willkürlichen Vorhersage das „offizielle“ Kriterium für das Bestehen des Turing-Tests. Im Jahr 2014 veranstaltete die Royal Society in London einen Turing-Testwettbewerb, an dem fünf Computerprogramme, 30 menschliche Gegenspieler und 30 Juroren teilnahmen.
Die vielfältige Gruppe der teilnehmenden Menschen umfasste Jung und Alt, englische Muttersprachler und Nicht-Muttersprachler sowie Computerexperten und Nichtexperten. Jeder Richter führte mehrere Runden fünfminütiger paralleler Gespräche mit zwei Teilnehmern (einem Menschen und einer Maschine), wonach der Richter erraten musste, wer der Mensch war.
Ein Chatbot namens „Eugene Goostman“, der die Rolle eines Teenagers spielte, täuschte erfolgreich zehn Richter (Täuschungsrate: 33,3 %).
Offensichtlich hat die „Täuschungsrate“ die von Turing damals genannten 30 % überschritten.
Eugene Goostman simuliert einen 13-jährigen Jungen.
Gemäß dem Standard „30 % Wahrscheinlichkeit einer Täuschung innerhalb von fünf Minuten“ gaben die Organisatoren bekannt: „Der ikonische Turing-Test wurde vor 65 Jahren erstmals vom Computerprogramm „Eugene Gustman“ bestanden. Der Meilenstein wird in die Geschichte eingehen... ".
Nachdem sie das Transkript des Gesprächs zwischen dem Protagonisten „Eugene Goostman“ in diesem Turing-Test gelesen hatten, spotteten KI-Experten über die Vorstellung, dass der Chatbot den Turing-Test bestanden habe, und sagten, er sei nicht komplex genug und nicht menschenähnlich der von Turing vorgesehene Test.
Die begrenzte Gesprächszeit und die unterschiedlichen Fachkenntnisse der Richter machten den Test eher zu einem Test menschlicher Leichtgläubigkeit als zu einer Demonstration maschineller Intelligenz. Das Ergebnis ist ein eindrucksvolles Beispiel für den „ELIZA-Effekt“ – benannt nach dem Chatbot ELIZA aus den 1960er-Jahren, der trotz seiner extremen Einfachheit vielen Menschen immer noch vorgaukeln kann, er sei ein verständnisvoller und mitfühlender Psychotherapeut.
Dies unterstreicht unsere menschliche Tendenz, Wesenheiten Intelligenz zuzuschreiben, die mit uns sprechen können.
ELIZA ist einer der frühesten Chatbots nach der „Veröffentlichung“ des Turing-Tests. Es handelt sich um einen sehr einfachen Rogersite-Chatbot für Psychotherapie.
Ein weiterer Turing-Testwettbewerb, der Loebner-Preis, ermöglicht längere Gespräche, lädt mehr Experten als Juroren ein und erfordert, dass die teilnehmenden Maschinen mindestens die Hälfte der Juroren täuschen. interessant,Als die Standards in den fast 30 Jahren des jährlichen Wettbewerbs angehoben wurden, hatte keine einzige Maschine diese Version des Tests bestanden.
Der Turing-Test nimmt eine Wendung
Obwohl es in Turings Originalarbeit an Einzelheiten zur Durchführung des Tests mangelte, war klar, dass das Imitation Game drei Spieler erforderte: einen Computer, einen menschlichen Gegenspieler und einen menschlichen Richter. Im Laufe der Zeit hat sich der Begriff „Turing-Test“ jedoch zu einer deutlich schwächeren Version im öffentlichen Diskurs entwickelt: Jede Interaktion zwischen einem Menschen und einem Computer, die sich ausreichend menschenähnlich verhält, um als den Turing-Test bestanden zu gelten.
Als beispielsweise die Washington Post im Jahr 2022 berichtete, dass „Googles KI einen berühmten Test bestanden hat – und ihre Mängel zeigte“, bezog sie sich nicht auf The Imitation Game, sondern auf den Google-Ingenieur Blake Lemo, weil (Blake Lemoine) glaubt, dass Googles LaMDA-Chatbot dies getan hat„Empfindend“。
Im Jahr 2024 gab die Stanford University in einer Pressemitteilung bekannt, dass die Forschung des Stanford-Teams „das erste Mal ist, dass künstliche Intelligenz einen der strengen Turing-Tests bestanden hat“. Aber der sogenannte Turing-Test wird hier durchgeführt, indem die Verhaltensstatistiken von GPT-4 in psychologischen Umfragen und interaktiven Spielen mit menschlichen Verhaltensstatistiken verglichen werden.
Diese Definition ist möglicherweise weit von Turings ursprünglicher Absicht entfernt: Die Definition des Stanford-Teams lautet: „Wir glauben, dass eine KI den Turing-Test bestanden hat, wenn ihre Reaktion statistisch nicht von einer zufällig ausgewählten menschlichen Reaktion zu unterscheiden ist.“
Der jüngste behauptete Fall, dass ein Chatbot den Turing-Test bestanden hat, stammt aus einer Studie aus dem Jahr 2024, die einen „Zwei-Spieler“-Test verwendete: ein „Drei-Spieler“-Imitationsspiel mit Turing (bei dem der Schiedsrichter sowohl den Computer als auch den Menschen befragte). (Folie), hier interagiert jeder Schiedsrichter nur mit einem Computer oder einem Menschen.
Die Forscher rekrutierten 500 menschliche Teilnehmer, von denen jeder entweder als Schiedsrichter oder als menschliche Gegenspieler fungierte. Jeder Juror spielte eine fünfminütige Runde entweder mit Foil, GPT-4 (was von Menschen geschriebene Vorschläge dazu veranlasste, wie man den Juror austricksen könnte) oder einer Chatbot-Version von ELIZA. Nach fünf Minuten Gespräch über eine Weboberfläche errieten die Richter, ob sie mit einem Menschen oder einer Maschine sprachen.
Schließlich wurde die menschliche Gegenspielerin in 67 % der Runden als menschlich beurteilt; GPT-4 wurde in 54 % der Runden als menschlich beurteilt, und ELIZA wurde in 22 % der Runden als menschlich beurteilt. Die Autoren definieren „bestanden“, wenn die Jury in mehr als 50 % der Fälle getäuscht wird – das heißt, dass die Wahrscheinlichkeit einer zufälligen Schätzung überschritten wird. Nach dieser Definition besteht GPT-4, obwohl der menschliche Gegner immer noch eine höhere Punktzahl erzielt.
Besorgniserregend ist, dass die meisten menschlichen Richter innerhalb von fünf Minuten nach dem Gespräch von GPT-4 getäuscht wurden. Der Einsatz generativer KI-Systeme, um sich als Menschen auszugeben, um Desinformationen zu verbreiten oder Betrug zu begehen, ist ein Risiko, mit dem sich die Gesellschaft auseinandersetzen muss. Aber bestehen die heutigen Chatbots wirklich den Turing-Test?
Die Antwort ist natürlich, dass es davon abhängt, um welche Version des Tests es sich handelt. Ein Nachahmungsspiel für drei Personen mit Experten-Juroren und längeren Dialogzeiten wurde noch von keiner Maschine bestanden (eine superstrikte Version ist für 2029 geplant).
Denn der Schwerpunkt des Turing-Tests liegt auf dem Versuch, Menschen zu täuschen, und nicht auf einem direkteren Test der Intelligenz. Viele KI-Forscher betrachten den Turing-Test seit langem als Ablenkung, einen Test, „der nicht dazu gedacht ist, dass die KI besteht, sondern dass Menschen durchfallen“. Aber die Bedeutung des Tests ist für die meisten Menschen immer noch von größter Bedeutung.
Gespräche zu führen ist für jeden von uns eine wichtige Möglichkeit, andere Menschen zu bewerten. Wir gehen natürlich davon aus, dass ein Agent, der in der Lage ist, sich fließend zu unterhalten, über menschenähnliche Intelligenz und andere psychologische Eigenschaften wie Überzeugungen, Wünsche und Selbstbewusstsein verfügen muss.
Wenn uns die Geschichte der künstlichen Intelligenz jedoch etwas gelehrt hat, dann ist es, dass diese Annahmen oft auf falschen Intuitionen beruhen. Vor Jahrzehnten argumentierten viele prominente Experten für künstliche Intelligenz, dass die Entwicklung einer Maschine, die Menschen im Schach schlagen kann, etwas erfordern würde, das der vollständigen menschlichen Intelligenz ebenbürtig sei.
Die Pioniere der künstlichen Intelligenz, Allen Newell und Herbert Simon, schrieben 1958: „Wenn ein Mann eine erfolgreiche Schachmaschine entwerfen könnte, würde er 1979 bis zum Kern der menschlichen Intelligenz vordringen.“ Vielleicht sind es Programme, die jeden im Schach schlagen können, aber … es werden Programme mit allgemeiner Intelligenz sein.“
Natürlich besiegte IBMs DeepBlue in den nächsten zwei Jahrzehnten den Schachweltmeister Garry Kasparov mit einem Brute-Force-Ansatz, der weit von dem entfernt war, was wir „allgemeine Intelligenz“ nennen. Ebenso zeigen Fortschritte in der künstlichen Intelligenz, dass Aufgaben, von denen früher angenommen wurde, dass sie allgemeine Intelligenz erfordern – Spracherkennung, Übersetzung natürlicher Sprache und sogar autonomes Fahren –, von Maschinen ausgeführt werden können, denen das menschliche Verständnis fehlt.
Der Turing-Test könnte durchaus ein weiteres Opfer unserer veränderten Vorstellungen von Intelligenz werden. Im Jahr 1950 glaubte Turing intuitiv, dass die Fähigkeit, wie ein Mensch zu sprechen, ein starker Beweis für „Denken“ und alle damit verbundenen Fähigkeiten sein sollte. Diese Intuition ist bis heute überzeugend. Aber vielleicht haben wir von ELIZA und Eugene Goostman gelernt, und was wir möglicherweise noch von ChatGPT und seinesgleichen lernen, ist, dass die Fähigkeit, eine natürliche Sprache fließend zu sprechen, wie etwa beim Schachspielen, kein schlüssiger Beweis für die Existenz allgemeiner Intelligenzbeweise ist.
Tatsächlich gibt es im Bereich der Neurowissenschaften zunehmend Hinweise darauf, dass die Sprachkompetenz überraschenderweise nicht mit anderen Aspekten der Kognition verknüpft ist. Durch eine Reihe sorgfältiger und überzeugender Experimente haben der MIT-Neurowissenschaftler Ev Fedorenko und andere gezeigt, dass die Gehirnnetzwerke, die den sogenannten „formalen Sprachfähigkeiten“ (den Fähigkeiten im Zusammenhang mit der Sprachproduktion) zugrunde liegen, mit dem gesunden Menschenverstand, dem logischen Denken und dem, was wir so nennen könnten, zusammenhängen Die Netzwerke hinter anderen Aspekten dessen, was man „Denken“ nennt, sind weitgehend getrennt. Diese Forscher behaupten, dass unsere Intuition, dass fließende Sprache eine ausreichende Voraussetzung für allgemeine Intelligenz sei, ein „Irrtum“ sei.
Turing schrieb in seiner Arbeit von 1950: „Ich glaube, dass sich bis zum Ende dieses Jahrhunderts die Verwendung von Wörtern und die allgemeine gebildete Meinung so sehr verändert haben werden, dass die Menschen in der Lage sein werden, über das Denken von Maschinen zu sprechen, ohne dass dies widerlegt wird.“ diesen Punkt schon erreicht. Waren Turings Vorhersagen einfach um ein paar Jahrzehnte daneben? Findet die wirkliche Veränderung in unserem Konzept des „Denkens“ statt? – Oder ist wahre Intelligenz komplexer und subtiler als Turing und wir erkennen? Es bleibt alles abzuwarten.
Interessanterweise äußerte auch der ehemalige Google-CEO Eric Schmidt seine Ansichten kürzlich in einer Rede an der Stanford University.
Lange Zeit war das Verständnis der Menschheit vom Universum mysteriöser. Die wissenschaftliche Revolution veränderte diese Situation. Die heutige KI hindert uns jedoch erneut daran, ihre Prinzipien wirklich zu verstehen. Verändert sich die Natur des Wissens? Werden wir anfangen, die Ergebnisse dieser KI-Modelle zu akzeptieren, obwohl wir sie nicht länger erklären müssen?
Schmidt drückt es so aus: Wir können es mit einem Teenager vergleichen. Wenn Sie einen Teenager haben, wissen Sie, dass es sich um Menschen handelt, aber Sie können seine Gedanken nicht ganz verstehen. Unsere Gesellschaft passt sich offensichtlich an die Existenz von Teenagern an. Wir verfügen möglicherweise über Wissenssysteme, die wir nicht vollständig verstehen können, die wir jedoch innerhalb der Grenzen unserer Fähigkeit verstehen können, sie zu verstehen.
Das ist wahrscheinlich das Beste, was wir bekommen können.