ChatGPT:n jälkeen tekoälyn perimmäinen virstanpylväs fall

ChatGPT:n jälkeen tekoälyn perimmäinen virstanpylväs putosi

2024-08-19

Koneen sydänraportti

Toimittaja: Zenan, Asia Oriole

Suurten mallien antropomorfinen käyttäytyminen antaa meille kummallisen laaksoefektin.

「Turingin testion huono koe, koska keskustelutaidot ja päättely ovat täysin eri asioita. ”Tekoälypiirissä on viime päivinä tullut suosittu uusi näkymä.

Nyt kun elämme generatiivisen tekoälyn aikakautta, älykkyyden arviointistandardimme pitäisi muuttua.

"Voivatko koneet ajatella?" Alan Turing kysyi vuoden 1950 artikkelissaan "Computing Machinery and Intelligence". Turing huomautti nopeasti, että koska "ajattelun" määrittely on vaikeaa, kysymys oli "merkittämätön ja keskustelun arvoinen". Kuten filosofisissa keskusteluissa on tavallista, hän ehdotti sen korvaamista toisella kysymyksellä.

Turing kuvitteli "jäljitelmäpelin", jossa ihmistuomari puhuu tietokoneelle ja ihmiselle (folio), ja molemmat osapuolet yrittävät vakuuttaa tuomarille, että he ovat todella ihmisiä.

Tärkeää on, että tietokone, folio ja tuomari eivät voineet katsoa toisiaan, ja he kommunikoivat kokonaan tekstin välityksellä. Keskusteltuaan jokaisen ehdokkaan kanssa tuomarit arvaavat, kuka on todellinen ihminen.

Turingin uusi kysymys oli: "Onko olemassa mitään ajateltavissa olevaa digitaalista tietokonetta, joka voisi loistaa jäljitelmäpelissä?"

Paperinen linkki:

https://academic.oup.com/mind/article/LIX/236/433/986238?login=false

Tätä Turingin ehdottamaa peliä, joka tunnetaan nykyään laajalti Turingin testinä, käytettiin kumoamaan laajalle levinnyt intuitio, jonka mukaan "tietokoneiden mekaanisen luonteen vuoksi on mahdotonta ajatella periaatetasolla".

Turingin pointti on tämä: Jos tietokone on käyttäytymisensä suhteen mahdoton erottaa ihmisestä (lukuun ottamatta sen ulkonäköä ja muita fyysisiä ominaisuuksia), niin miksi emme kohtele sitä ajattelevana kokonaisuutena? Miksi meidän pitäisi rajoittaa "ajattelun" pätevyys ihmisiin (tai laajemmin biologisista soluista koostuviin kokonaisuuksiin)? Kuten tietojenkäsittelytieteilijä Scott Aronson kuvailee, Turingin ehdotus oli "vetoutus lihallista šovinismia vastaan".

Turingin testi on pikemminkin idea kuin "menetelmä"

Turing muotoili testinsä pikemminkin filosofiseksi ajatuskokeeksi kuin tapaksi mitata koneälyä. Yleisön käsityksen mukaan Turingin testistä on kuitenkin tullut tekoälyn (AI) perimmäinen virstanpylväs - tärkein kriteeri arvioitaessa, onko yleinen koneäly saapunut.

Nyt, lähes 75 vuotta myöhemmin, tekoälyraportit ovat täynnä väitteitä, että Turingin testi on läpäissyt, varsinkin OpenAI:n ChatGPT:n ja Anthropicin Clauden kaltaisten chatbottien julkaisun myötä.

Viime vuonna OpenAI:n toimitusjohtaja Sam Altman kirjoitti: "Teknologisen muutoksen edessä ihmisten sopeutumiskyky ja joustavuus ovat osoittaneet hyvin: Turingin testi läpäisi hiljaa, ja useimmat ihmiset jatkoivat elämäänsä."

Suuret tiedotusvälineet ovat myös julkaisseet samanlaisia otsikoita. Esimerkiksi sanomalehti raportoi, että "ChatGPT läpäisi kuuluisan "Turing-testin" - mikä osoittaa, että tekoälyrobotin älykkyys on verrattavissa ihmisiin.

Vanha sanomalehti, joka ilmestyy päivittäin Yhdistyneessä kuningaskunnassa – Daily Mail

Jopa yksi maailman suurimmista tiedotusvälineistä ja laajasti vaikutusvaltainen julkisen median organisaatio, kuten BBC, jopa ehdotti vuonna 2014, että tietokone tekoäly on läpäissyt Turingin testin.

https://www.bbc.com/news/technology-27762088

Kuitenkin kysymys kuuluu: läpäisevätkö nykyaikaiset chatbotit todella Turingin testin? Jos on, pitäisikö meidän antaa heille "ajattelun" asema, kuten Turing ehdotti?

Yllättäen Turingin testin laajasta kulttuurisesta merkityksestä huolimatta tekoälyyhteisö ei ole pitkään aikaan päässyt yhteisymmärrykseen Turingin testin läpäisemisen kriteereistä. Monet kyseenalaistavat, paljastavatko keskustelutaidot, jotka voivat pettää ihmisiä, todella järjestelmän taustalla oleva älykkyys tai "ajattelukyky".

Tuhannen ihmisen silmissä on luultavasti tuhat Turingin testistandardia.

Turing-palkinnon voittaja Geoffery Hinton puhui "Turing Test Standardistaan" haastattelussa. Hän uskoo, että chatbotit, kuten Palm, voivat selittää, miksi vitsi on hauska, mitä voidaan pitää merkkinä heidän älykkyydestään. Nykypäivän suuret mallit, kuten GPT-4, ovat erittäin hyviä selittämään, miksi vitsi on hauska, mitä pidetään osana heidän Turingin testikriteereitä.

Verrattuna muiden tutkijoiden vakaviin Turingin testin määritelmiin Hintonin näkemykset, vaikkakin humoristiset, ilmaisevat silti ajatuksensa lopullisesta ehdotuksesta "onko tekoälyllä kykyä ajatella".

Linkki haastatteluvideoon: https://www.youtube.com/watch?v=PTF5Up1hMhw

"Turingin farssi"

Koska Turing ei keksinyt testiä täydellisillä käytännön ohjeilla.

Hänen kuvauksestaan "jäljitelmäpelistä" puuttuu yksityiskohdat:

Kuinka kauan testin tulisi kestää?
Millaiset kysymykset ovat sallittuja?
Mitä pätevyyttä ihmistuomareilla tai ”foilersilla” on oltava?

Turing ei tarkentanut näitä erityiskysymyksiä. Hän kuitenkin esitti erityisen ennusteen: "Uskon, että noin 50 vuoden kuluttua tietokoneet ohjelmoidaan niin hyviksi, että keskivertokuulustelijalla on vain mahdollisuus tunnistaa todellinen ihminen viiden minuutin kuulustelun jälkeen. 70 % Yksinkertaisesti sanottuna viiden minuutin keskustelussa arvioija johdettiin harhaan keskimäärin 30 % ajasta.

Jotkut näkevät tämän mielivaltaisen ennusteen "virallisena" kriteerinä Turingin testin läpäisemiselle. Vuonna 2014 Royal Society järjesti Lontoossa Turingin testikilpailun, johon osallistui viisi tietokoneohjelmaa, 30 ihmiskalvoa ja 30 tuomaria.

Monipuoliseen ihmisryhmään osallistui nuoria ja vanhoja, englannin äidinkielenään ja muualla puhuvia sekä tietokoneasiantuntijoita ja ei-asiantuntijoita. Jokaisella tuomarilla oli useita kierroksia viiden minuutin rinnakkaisia keskusteluja kilpailijaparin (ihmisen ja koneen) kanssa, minkä jälkeen tuomarin oli arvattava, kuka oli ihminen.

"Eugene Goostman" -niminen chatbot, joka näytteli teinin roolia, petti onnistuneesti 10 tuomaria (petosprosentti: 33,3 %).

Ilmeisesti "petosaste" on ylittänyt Turingin tuolloin sanoman 30 %.

Eugene Goostman simuloi 13-vuotiasta poikaa.

"30 % petoksen mahdollisuus viiden minuutin sisällä" -standardin mukaan järjestäjät ilmoittivat: "Ikoninen Turingin testi 65 vuotta sitten läpäisi ensin tietokoneohjelma "Eugene Gustman". Virstanpylväs jää historiaan... ".

Luettuaan tekstin päähenkilön "Eugene Goostmanin" välisestä keskustelusta tässä Turing-testissä, tekoälyasiantuntijat pilkkasivat ajatusta, että chatbot läpäisi Turingin testin, sanoen, että se ei ollut tarpeeksi monimutkainen eikä ihmisen kaltainen chatbot epäonnistui Turingin suunnittelema testi.

Rajoitettu keskusteluaika ja tuomareiden epätasainen asiantuntemus tekivät testistä enemmän ihmisen herkkäuskoisuuden kuin koneälyn osoituksen. Tuloksena on silmiinpistävä esimerkki "ELIZA-efektistä", joka on nimetty 1960-luvun chatbotin ELIZAn mukaan, joka äärimmäisestä yksinkertaisuudestaan huolimatta voi silti huijata monia ihmisiä ajattelemaan, että se on ymmärtävä ja myötätuntoinen psykoterapeutti.

Tämä korostaa inhimillistä taipumuksemme omistaa älykkyyttä olennoille, jotka voivat puhua meille.

ELIZA on yksi varhaisimmista chatboteista Turing Testin "julkaisun" jälkeen. Se on hyvin yksinkertainen Rogersite-psykoterapia-chatbot.

Toinen Turingin testikilpailu, Loebner-palkinto, mahdollistaa pidemmät keskustelut, kutsuu enemmän asiantuntevia tuomareita ja vaatii osallistuvia koneita huijaamaan vähintään puolet tuomareista. mielenkiintoista,Kun standardeja nostettiin, vuosittaisen kilpailun lähes 30 vuoden aikana yksikään kone ei ollut läpäissyt tätä testiversiota.

Turingin testi alkaa ottaa käännettä

Vaikka Turingin alkuperäisestä paperista puuttui yksityiskohtia testin toteuttamisesta, oli selvää, että jäljitelmäpeli vaati kolme pelaajaa: tietokoneen, ihmiskalvon ja ihmistuomarin. Ajan myötä termin "Turing-testi" merkitys julkisessa keskustelussa kuitenkin kehittyi merkittävästi heikentyneeksi versioksi: mikä tahansa ihmisen ja tietokoneen välinen vuorovaikutus, joka käyttäytyy riittävän ihmismaisesti, jotta sen katsotaan läpäisevän Turingin testin.

Esimerkiksi, kun Washington Post raportoi vuonna 2022, että "Googlen tekoäly läpäisi kuuluisan testin - ja osoitti sen puutteet", he eivät viitanneet The Imitation Game -peliin vaan Googlen insinööri Blake Lemo Koska (Blake Lemoine) uskoo, että Googlen LaMDA-chatbot"tunteva"。

Vuonna 2024 Stanfordin yliopiston lehdistötiedote ilmoitti, että Stanfordin tiimin tutkimus "merkitsee ensimmäistä kertaa, että tekoäly on läpäissyt yhden tiukista Turingin testeistä". Mutta niin kutsuttu Turing-testi tässä tehdään vertaamalla GPT-4:n käyttäytymistilastoja psykologisissa tutkimuksissa ja interaktiivisissa peleissä ihmisten käyttäytymistilastoihin.

Tämä määritelmä saattaa olla kaukana Turingin alkuperäisestä tarkoituksesta: Stanfordin tiimin määritelmä on "Uskomme, että tekoäly on läpäissyt Turingin testin, kun sen vastausta ei voida tilastollisesti erottaa satunnaisesti valitusta ihmisen vastauksesta."

Viimeisin väitetty tapaus, jossa chatbot läpäisi Turingin testin, on peräisin vuoden 2024 tutkimuksesta, jossa käytettiin "kahden pelaajan" testiä: "kolmen pelaajan" jäljitelmäpeli Turingin kanssa (jossa erotuomari kyseenalaisti sekä tietokoneen että ihmisen) (folio), tässä jokainen erotuomari on vuorovaikutuksessa vain tietokoneen tai ihmisen kanssa.

Tutkijat rekrytoivat 500 ihmistä, joista jokainen oli joko erotuomari tai ihmisfoil. Jokainen tuomari pelasi viiden minuutin kierroksen joko Foililla, GPT-4:llä (joka sai ihmisen kirjoittamia ehdotuksia tuomarin huijaamisesta) tai ELIZAn chatbot-versiolla. Viiden minuutin keskustelun jälkeen verkkokäyttöliittymän kautta tuomarit arvasivat, puhuivatko he ihmiselle vai koneelle.

Lopuksi ihmisen folio arvioitiin ihmiseksi 67 prosentilla kierroksista GPT-4:n arvioitiin olevan ihminen 54 prosentilla kierroksista ja ELIZA:n arvioitiin olevan ihminen 22 prosentilla kierroksista. Kirjoittajat määrittelevät "hyväksynnän" tuomareiden huijaamiseksi yli 50 % ajasta – toisin sanoen satunnaisen arvauksen todennäköisyyden ylittämistä. Tämän määritelmän mukaan GPT-4 läpäisee, vaikka ihmisvastustaja saa silti korkeammat pisteet.

Huolestuttavaa on, että useimmat ihmistuomarit joutuivat GPT-4:n huijaukseen viiden minuutin kuluessa keskustelusta. Generatiivisten tekoälyjärjestelmien käyttö ihmisten matkimiseen disinformaation levittämiseksi tai petokseen on riski, jonka kanssa yhteiskunnan on taisteltava. Mutta läpäisevätkö tämän päivän chatbotit todella Turingin testin?

Vastaus on tietysti, että se riippuu siitä, mistä testin versiosta puhut. Kolmen hengen jäljitelmäpeli, jossa on asiantuntevia tuomareita ja pidemmät dialogiajat, ei ole vieläkään selvinnyt millään koneella (vuonna 2029 on suunnitteilla supertiukka versio).

Koska Turingin testin painopiste on pikemminkin ihmisten huijaamisessa kuin suoremmassa älykkyystestissä. Monet tekoälytutkijat ovat pitkään pitäneet Turingin testiä häiriötekijänä, testinä "ei suunniteltu tekoälyn läpäisemiseen, vaan ihmisten epäonnistumiseen". Mutta testin tärkeys hallitsee edelleen useimpien ihmisten mieliä.

Keskustelu on meille jokaiselle tärkeä tapa arvioida muita ihmisiä. Oletamme luonnollisesti, että sujuvaan keskusteluun kykenevällä agentilla on oltava ihmisen kaltainen älykkyys ja muita psykologisia ominaisuuksia, kuten uskomuksia, haluja ja itsetietoisuutta.

Jos tekoälyn historia on kuitenkin opettanut meille jotain, niin se on, että nämä oletukset perustuvat usein vääriin intuitioihin. Vuosikymmeniä sitten monet tunnetut tekoälyasiantuntijat uskoivat, että sellaisen koneen luominen, joka pystyy lyömään ihmisiä shakkipelissä, vaatisi jotain, joka vastaa ihmisen täydellistä älykkyyttä.

Tekoälyn pioneerit Allen Newell ja Herbert Simon kirjoittivat vuonna 1958: "Jos mies voisi suunnitella onnistuneen shakkikoneen, hän näyttäisi tunkeutuneen ihmisen älykkyyden ytimeen asti." voivat olla ohjelmia, jotka voivat voittaa kenet tahansa shakissa, mutta... ne ovat ohjelmia, joilla on yleinen älykkyys."

Tietenkin seuraavien kahden vuosikymmenen aikana IBM:n DeepBlue voitti shakin maailmanmestari Garry Kasparovin käyttämällä raakaa voimaa, joka oli kaukana siitä, mitä kutsumme "yleiseksi älykkyydeksi". Samoin tekoälyn kehitys osoittaa, että tehtäviä, joiden luultiin vaativan yleistä älykkyyttä – puheentunnistus, luonnollisen kielen kääntäminen, jopa itseohjautuva ajaminen – voidaan suorittaa koneilla, joilla ei ole ihmisen ymmärrystä.

Turingin testistä voi hyvinkin tulla toinen uhri älykkyyskäsityksissämme. Vuonna 1950 Turing uskoi intuitiivisesti, että kyvyn puhua ihmisten tavoin pitäisi olla vahva todiste "ajattelusta" ja kaikista siihen liittyvistä kyvyistä. Tämä intuitio on edelleen vakuuttava tänään. Mutta ehkä se, mitä opimme ELIZAlta ja Eugene Goostmanilta, ja mitä voimme vielä oppia ChatGPT:ltä ja sen kaltaisista, on se, että kyky puhua luonnollista kieltä sujuvasti, kuten shakin pelaaminen, ei ole ratkaiseva todiste yleisen älykkyyden todisteiden olemassaolosta.

Itse asiassa neurotieteen alalla on yhä enemmän todisteita siitä, että kielen sujuvuus on yllättävän irrallaan muista kognition näkökohdista. MIT:n neurotieteilijä Ev Fedorenko ja muut ovat osoittaneet useiden huolellisten ja vakuuttavien kokeiden avulla, että heidän "muodollisen kielikyvyn" (kielen tuotantoon liittyvän kyvyn) takana oleva aivoverkosto liittyy terveeseen järkeen, päättelyyn ja siihen, mitä voisimme kutsua. Verkostot muiden "ajattelun" näkökohtien takana ovat suurelta osin erillisiä. Nämä tutkijat väittävät, että intuitiomme siitä, että kielen sujuvuus on riittävä edellytys yleiselle älykkyydelle, on "harha".

Turing kirjoitti vuoden 1950 kirjoituksessaan: "Uskon, että tämän vuosisadan loppuun mennessä sanojen käyttö ja yleinen koulutettu mielipide ovat muuttuneet niin paljon, että ihmiset voivat puhua koneen ajattelusta ilman, että niitä kiistetään." vielä saavuttanut sen pisteen. Poistuivatko Turingin ennusteet muutamalla vuosikymmenellä? Tapahtuuko todellinen muutos käsitteessämme "ajattelusta"? — Vai onko todellinen äly monimutkaisempi ja hienovaraisempi kuin Turing ja me ymmärrämme? Kaikki jää nähtäväksi.

Mielenkiintoista kyllä, entinen Googlen toimitusjohtaja Eric Schmidt ilmaisi näkemyksensä äskettäisessä puheessaan Stanfordin yliopistossa.

Pitkään historiassa ihmiskunnan käsitys maailmankaikkeudesta oli mystisempi. Tieteellinen vallankumous muutti tilanteen. Nykypäivän tekoäly estää kuitenkin jälleen kerran ymmärtämästä sen periaatteita. Muuttuuko tiedon luonne? Aiommeko hyväksyä näiden tekoälymallien tulokset, mutta emme enää tarvitse niitä selittämään niitä meille?

Schmidt ilmaisee asian näin: Voimme verrata sitä teini-ikään. Jos sinulla on teini, tiedät hänen olevan ihmisiä, mutta et voi täysin ymmärtää heidän ajatuksiaan. Yhteiskuntamme on selvästi sopeutumassa teinien olemassaoloon. Meillä voi olla tietojärjestelmiä, joita emme täysin ymmärrä, mutta jotka ovat kykyjemme sisällä ymmärtää niitä.

Se on luultavasti parasta mitä voimme saada.

uutiset

ChatGPT:n jälkeen tekoälyn perimmäinen virstanpylväs putosi

Johdanto

Yhteystietoni