uutiset

Neiti A:n keskustelu Serge Belongien kanssa: Anna sinulle väärennetty "luoti" |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Falsifiointi on sekä enkeli että paholainen, viime kädessä väärennettävyys on kädenpuristus, joka linjaa maailman.

Kirjailija| Zhang Yijia Sukhoi‍‍

Kymmenen vuotta sitten eräs eurooppalainen akateemikko sanoi minulle: "Tekoälyssä on peräti sata jaettua raitaa, ja Yhdysvallat määrittelee yhden tai kaksi suosittua raitaa. , ja sitten globaalit yrittäjät ja sijoittajat ryntäsivät kuromaan kiinni näihin kahteen tapaan. "

Seuraavien kymmenen vuoden aikana tekoälyn trendi on pyörinyt ja tekoäly on mennyt epäyhtenäisyydestä pieneen konsensukseen ja pienestä konsensuksesta suureen konsensukseen, mutta tämä lause ei ole koskaan hypännyt pois.

Tämä keskustelu Sergen kanssa alkoi arvioimalla paperia, jonka hän kirjoitti yhdessä kaksi vuotta sitten."Etsi rakennetta väärentämättömistä väitteistä" kiinnostusta. On sääli, että tämä artikkeli ei ole toistaiseksi kiinnittänyt huomiota, Google ScholarMainittu vain 2 kertaa

Tämä on yllättävää.

"Jiazi Guangnian" uskoo, ettätämä esseepahasti aliarvioitu

Syy 1: Tämän artikkelin kohtaama ongelma on äärimmäisen kriittinen (perustana oleva kertomus väärentämättömistä tiedoista sosiaalisessa mediassa);

Syy kaksi, tämä artikkeli tarjoaa tärkeitä teoreettisia innovaatioita (kolmiomainen merkintämenetelmä ja SNaCK-sarja);

Kolmas syy: Tämä artikkeli antaa käytännön suunnittelutuloksia (tietojoukon rakentaminen ja yksityiskohtainen kokeellinen vertailu).


Paperin kirjoittajat Peter Ebert Christensen, Frederik Warburg, Menglin Jia ja Serge Belongie ARXIV2022

Tätä paperia ei ole vaikea ymmärtääVäärennettävyysKäsitettä aletaan esitellä.

Falsifiointia kutsutaan myös kiistämiseksi.Tieteen filosofiat käyttävät usein tiukkojaväärennösmenetelmäSen määrittämiseksi, onko teoria tieteellinen"Näiden johtopäätösten on sallittavalogiikkaVastaesimerkkien olemassaolo

Karl Popper ehdotti vuonna 1934, että jos teoria tai hypoteesi voidaan loogisesti kumota olemassa olevien tekniikoiden empiirisellä testauksella, se onVäärennettävä /. Ja jos ilmaisu on niin moitteeton, ettei maailmalla ole tilaa kommentoida, se usein vain pitää kaikki etäisyyden päässä, mikä ei auta tieteellistä edistystä.

Ongelmat, joita tiedemiehet voivat tai joiden pitäisi tutkia, on oltava enemmän tai vähemmän aidattuja, jotta muut voivat hyökätä niihin tai jopa kaataa ne. Falsifioitavuuden tarkoituksena on tehdä teoriasta ennustava ja testattava.siis hyödyllinen käytännössä

Sergen paperi"Etsi rakennetta väärentämättömistä väitteistä"keskusteltuVäärentämättömien väitteiden tulkinnan monimutkaisuus sosiaalisessa mediassa

Lehden pääidea:

Sosiaalisen median alustat ovat täynnä viestejä ja kommentteja, eikä monia väitteitä voida kiistää. Kuitenkin,Riittämättömät tosiasiantarkistustyökalut, sosiaalisten verkostojen keskustelujen rakenteen puute, narratiivien tunnistamisen vaikeudet ja julkisten keskustelujen laadun puutejne. aiheuttaen paljon ongelmia.

Paperi tutkii kuinka tunnistaa ja ymmärtää heidät sosiaalisessa mediassaväärentämättömiä väitteitäja tiivistää nämä väitteet muodossaRajallinen määrä kertomuksia, helpottaa keskustelua ja keskustelua sosiaalisessa mediassa.

Mielenkiintoista on, että kirjoittaja rakensi työkalun nimeltäMAKSAAJATietojoukko, joka sisältää keskustelun käsien kuivausmenetelmistä julkisissa wc-tiloissa (paperipyyhkeet vs. ilmankuivaimet), 600 lyhyttä tekstiottetta, 31 kerrontaa ja 4 superluokkaa, joiden avulla voit ymmärtää ja löytää hallitsevia kertomuksia verkkokeskusteluissa.

Tämä paperi esitteleeUusi lähestymistapa, joka ylittää nykyisten tosiasiantarkistustekniikoiden mahdollisuudet, tarjoaa tärkeän panoksen väärentämättömien väitteiden vaikutusten hallintaan ja ymmärtämiseen digitaalisissa viestintäympäristöissä – käyttämällä tätä prosessia hallitsevien kertomusten löytämiseen ja osoittaen, että tämä prosessi ylittää viimeaikaiset suuren mittakaavan muunnosmallit ja huippuluokan valvomattomat aiheet Malli .

kokeilujen kautta,Kirjoittaja löysiKäytä modernia lausemuunninta(kuten T5 malli)Alkulauseen upotuson avain .He havaitsivat myös, että näytteenottostrategia on erittäin tärkeä erityisesti korkealaatuisten upotusten luomiseksi"Distance-Rnd" -strategiaParas suoritus.

Kokeelliset tulokset osoittavat, että ihmisten merkintöjen yhdistäminenkolmosetvoi paljastaa noudattamisenkiteytynyt kerrontamielenkiintoinen klusterointi.

Vain 2 lainausta

"Jiazi Guangnian" uskoo, että mahdollisia syitä siihen, miksi tämä paperi ei ole toistaiseksi huomioitu alalla, ovat muun muassa:

(1) Teoreettinen analyysi on suhteellisen heikkoa ja kokeellisten tulosten analyysi on edelleen laadullista (11-sivuisessa tekstissä on vain puoli sivua kaavoja);

(2) Useita vertailussa käytettäviä algoritmeja ei juuri esitetä;

(3) Akateemisessa yhteisössä ei ehkä vielä ole yhtenäistä tietojoukkoa tällä alalla, mikä ei johda "kehän ulkopuolelle" akateemisen yhteisön sisällä;

(4) Kirjoittaja korosti T5:n kriittisyyttä, mutta ei kuvaillut selkeästi sen algoritmin ylivoimaisuutta.


Serge Belongien akateeminen jakaminen CVPR2024:ssä, lähde: Kuvannut "Jiazi Guangnian"

Vaikka edellä mainitut artikkelit ovat vähän tunnettuja, Serge itse on erittäin vaikutusvaltainen tiedemies tietokonenäön ja koneoppimisen alalla. Hän tutkii pääasiassa esineiden tunnistusta ja kuvan segmentointia.

Serge Belongie on tietojenkäsittelytieteen professori Kööpenhaminan yliopistossa ja Danish Pioneer Center for Artificial Intelligence -keskuksen johtaja. Aiemmin hän toimi apulaisdekaanina sekä Andrew H. ja Ann R. Tisch tietojenkäsittelytieteen professorina Cornell Techissä.

Esittelyn arvoisin onSerge on MSCOCO:n johtava kirjoittaja

MSCOCO-tietojoukko on yksi tunnetuimmista suuren mittakaavan tietokokonaisuuksista tietokonenäköön.Vuonna 2000 Serge ja Jitendra Malik (nykyisin tietojenkäsittelytieteen professori Kalifornian yliopistossa Berkeleyssä ja kuuluisa tutkija tietokonenäön alalla)ehdottivat yhdessä "muotokontekstin" käsitettä,Se on laajalti käytetty muotopiirteiden kuvausmenetelmä tietokonenäön ja esineiden tunnistamisen aloilla.

Vuonna 2004 MIT Technology Review nimesi Sergen alle 35-vuotiaksi nuoreksi teknologiainnovaattoriksi vuonna 2007, hän ja Jitendra Malik saivat kunniamaininnan Marr-palkinnosta vuonna 2015, Serge sai ICCV:n Helmholtz-palkinnon, tämä palkinto myönnetään pääasiassa tekijöille; julkaisuista, jotka ovat vaikuttaneet merkittävästi tietokonenäön alalla.

Serge on myös useiden yritysten perustaja, mukaan lukien Digital Persona (yhdistetty CrossMatchiin vuonna 2014), CarCode (osti Transport Data Systems), Anchovi Labs (osti Dropbox vuonna 2012) ja Orpix.

Tällä hetkellä Serge-joukkueUusien ulottuvuuksien avaaminen sosiaalisten verkostojen analysointiin——Aloittaen suuresta määrästä vähäpätöisiä huomautuksia, joihin ei ole kiinnitetty aiemmin huomiota ja jotka eivät sovellu perinteiseen tosiasioiden tarkistamiseen,Analysoi ongelma-asetus janarratiivista manipulointia

Tällä on erityistä merkitystä tällä hetkellä:

Antifasistisen maailmansodan jälkeen vaihtelivatko tekniset läpimurrot tai pullonkaulat, ne kaikki kokivat historiallisen kuvan ylä- ja alamäkiä ajan kuluessa. Aivan kuten "Jen varrella Qingming-festivaalin aikana" avautui aika- ja tilakoordinaattijärjestelmässä, se on täynnä tuhansia kohtauksia ja muinaisten ja nykyaikaisten olentojen esiintymisiä.

Seuraava on neiti A:n keskustelu Sergen kanssa.

Seuraa julkista tiliä "Jiazi Guangnian" ja vastaa "voidaan väärentää" taustalla saadaksesi artikkelissa mainitut tiedot"Etsi rakennetta väärentämättömistä väitteistä"jaMSCOCO-tietojoukkoKaksi paperia.

1. Väärennettävyys kyseenalaistetaan

Käytännössä tutkijat saavat usein vaikutteita niistä kertomuksista, joista he pitävät tai eivät pidä – jonkin verran samankaltaisia ​​kuin Instagramin trendaavat aiheet.

Neiti A: "Jos sitä ei voida väärentää, se ei voi olla tieteellistä" on tullut tiedeyhteisön yleinen konsensus. Mutta monet filosofit ovat kyseenalaistaneet tämän väittäen, että väärennettävyyden periaate voi johtaa loputtomiin tieteellisiin keskusteluihin.Onko falsifiointi välttämätön edellytys tieteen kehitykselle?

SergeYleisen mielipiteen mukaan tieteellisen teorian on oltava väärennettävä.

Neiti A:Tämä on yleinen näkemys, mutta onko falsifiointi vallitseva paradigma?

Serge: Koneoppimisen kirjallisuus on kasvanut räjähdysmäisesti viimeisen 15 vuoden aikana, ja suuri määrä artikkeleita on julkaistu ja lainattu päivittäin. Näissä kirjoissa vastaavissa työosissa viitataan usein muuhun kirjallisuuteen, mutta lainaukset eivät välttämättä ole heidän töidensä kannalta oleellisin kirjallisuus. Tämä johtuu siitä, että kirjallisuuden määrä on valtava;Tutkijat itse asiassa vastaavat alan hallitsevaan narratiiviin.

Pidämme itseämme usein Karl Popperin perinteen mukaisina tiedemiehinä, jotka ovat alttiita vain väärennettäville väitteille. Tieteellisessä tutkimuksessa on kuitenkin myös suuntauksia, kuten teknologioita, kuten generatiiviset kilpailevat generatiiviset verkostot ja Transformers. Vaikka näiden papereiden tarkoituksena on seurata tieteellistä perinnettä,Usein tutkijoihin vaikuttavat käytännössä narratiivit, joista he pitävät tai eivät pidä——Vähän kuin trendikkäitä aiheita Instagramissa

Neiti A:Tarkoitatko, että koneoppimisen jälkeen tiedemiehet ovat alkaneet poiketa falsifioitavuuden normista?

Serge:Tiedemiehet väittävät usein olevansa immuuneja näille vaikutuksille ja pitävät itseään objektiivisina, mutta he ovat kuitenkin ihmisiä, ja nämä yleiset mielipiteet vaikuttavat heitä.Tämä on jotain, jota pidämme epätieteellisenä ja enemmänkin sisäistä tunteita ja mielipiteitä.

Neiti A:Miten määrittelet väärentämättömät väitteet sosiaalisessa mediassa?

Serge: Meidän on ensin keskusteltava tosiasiantarkistusta koskevasta kirjallisuudesta. Esimerkiksi Kööpenhaminan yliopiston professori Isabelle Augenstein on kehittänyt menetelmän, joka alkaa lausunnon verifiointiarvon määrittämisestä. Tarkistamme lausunnon,ja määritä sen vahvistusarvo välillä 0-1

Esimerkiksi väite, että Kalifornian pääkaupunki on Sacramento, on ihanteellinen kieliopin ja syntaksin tarkistamiseen, koska se löytyy useista jäsennellyistä tietokannoista. Voisimme tutkia lausuntoa, kuten: "Kalifornian pääkaupunki on Sacramento" ja antaa sille testattavuuspisteeksi luultavasti lähellä 0,99. Lähetämme sen sitten jäsenneltyyn tietokantaan vastauksen vahvistamiseksi. Tämä syvään oppimiseen perustuva testausjärjestelmä käsittelee suuria määriä väitteitä ja koulutusdataa erilaisten väitteiden todentamisarvon arvioimiseksi.

Mutta joitain lausuntoja,Esimerkiksi "Maahanmuutto Kaliforniaan on huonoa" kuvastaa henkilökohtaisempia mielipiteitä, eikä se sovellu tosiasioiden tarkistamiseen.Sitä vastoin väitteillä, kuten "Vuodesta 2020 lähtien maahanmuuttajien määrä Kaliforniassa on jatkanut kasvuaan", on korkea todentamisarvo.

niinKiinnitämme erityistä huomiota väitteisiin, joita on vaikea todentaa——Näitä väitteitä ei voida suoraan todentaa, mutta keskustelu, jota ne ovat herättäneet sosiaalisessa mediassa, on merkittävää.Useat tarkastukset voivat auttaa meitä tekemään parempia päätöksiä.

Neiti A:Mitä erityisiä tekniikoita tai työkaluja tutkimuksessasi käytetään väärentämättömien väitteiden tunnistamiseen ja analysointiin?

Serge:Käytämme luonnollisen kielen käsittelytekniikoita (NLP), klusterointi- ja ryhmittelyalgoritmeja sekä koneoppimismenetelmiä.

tavoitteemme onGlobal Narrative Information Facilityn (GNIF) luominen, tutkia ja organisoida sosiaalisen median sisältöä

Näiden tekniikoiden ja työkalujen yhdistelmä antaa meille mahdollisuuden ymmärtää ja käsitellä paremmin suuria määriä kerrottavaa sisältöä,Epäsuorasti auttaa tunnistamaan väärentämättömät väitteet

Pystymme analysoimaan erilaisia ​​tekstimuotoja.Olipa kyseessä twiitti tai Reddit-kommentti, käytämme NLP-tekniikkaa poimiaksemme ja ymmärtääksemme tämän sisällön kertomuksia ja teemoja.

Toiseksi käytimmeKlusterointi- ja ryhmittelyalgoritmit . Nämä algoritmit auttavat meitä järjestämään suuria määriä sosiaalisen median sisältöä erilaisiin teemoihin tai kertomuksiin.

Esimerkiksi,Voimme löytää miljoonien tweettien joukosta tuhansia twiittejä, jotka ovat hyvin samankaltaisia, koska ne kaikki käsittelevät samaa taustalla olevaa kertomusta.

kulkeaNarratiivien klusterointi ja väitteiden ryhmittely , järjestämme suuret määrät sisältöä pienempiin ryhmiin, jolloin faktantarkistajat voivat käsitellä sitä tehokkaammin ilman, että heidän tarvitsee tarkistaa jokaista kohdetta erikseen. Tällä tavalla väärentämättömätkin väitteet voidaan tunnistaa ja luokitella klusteroinnin ja ryhmittelyn avulla lisäanalyysin ja käsittelyn helpottamiseksi.

Käsittelemme kahta syötettä, esimerkiksi kahta twiittiä, ja mittaamme niiden samankaltaisuutta erilaisten kerrontanäkökohtien perusteella -Nämä voivat koskea sellaisia ​​aiheita kuin ydinvoima vs. vihreä energia -keskustelu tai keskustelu äidinmaidonkorvikkeesta ja lehmänmaidosta.

Verkossa on monia kiihkeästi kiistettyjä aiheita, jotka ovat usein seurausta disinformaatiokampanjoista Nämä toimet voivat olla hyvin epämääräisiä. Yritämme ymmärtää, kuinka nämä erilaiset lausunnot ilmenevät kielen tai meemien muodossa, jotka voivat sisältää kuvia, tekstiä, äänilauseita jne.Näyttää täysin erilaiselta sisällöltä . Voit kerätä miljoonia keskusteluja aiheesta sosiaalisen median alustalla, mutta kaikki tiedot voivat edustaa vain muutamia kymmeniä mielipiteitä. Pyrimme ymmärtämään näitä ilmiöitä teknologioiden, kuten suurten kielimallien ja syvän metrisen oppimisen avulla.


Ihmisten annotoitujen parien visualisointi, alakuva (a) näyttää positiiviset parit, eli samankaltaiset tai johdonmukaiset kerrontaparit, jotka ihmiset ovat kommentoineet. Alakuvio (b) esittää negatiivisia pareja, toisin sanoen erilaisia ​​tai epäjohdonmukaisia ​​kerrontapareja, jotka ihmiset ovat leimanneet. Lähde: "Etsi rakennetta väärentämättömistä väitteistä"


2. Totuuden ja väärän lisäksi

Kaikki väitteet eivät ansaitse tosiasioiden tarkistamista, eivätkä kaikki faktantarkistukset anna oikeita tai vääriä tuloksia.

Neiti A: Luomasi MSCOCO-tietojoukko on yksi tunnetuimmista suuren mittakaavan tietokonenäkötietojoukoista. Kuinka se alkoi?

Serge: Aloitimme esineiden havaitsemistutkimuksen 15 vuotta sitten pienestä tietojoukosta CUB200, joka sisältää yli 200 lintulajia. COCO-tietojoukko oli alun perin Microsoft Researchin tohtoriopiskelijani Tsung-Yi Linin kesätyöharjoitteluprojekti. Hänen mentorinsa oli tuolloin toinen tohtoriopiskelijani, Piotr Dollá. Hankkeesta kehittyi korkeakoulujen ja teollisuuden tutkijoiden konsortio. He toivovat voivansa luoda tietojoukon, joka kertoo yksityiskohtaisesti arkipäivän esineistä luonnollisessa ympäristössä ja merkitsee tarkasti niiden nimet ja tilapaikat.

Neiti A: Nimesit tietojoukon MSCOCO. Pidän "Cocosta" erittäin paljon, ja sen englanninkielinen nimi on myös Coco.

Serge:Kyllä, me kaikki rakastamme nimeä "COCO", se on hauska ja helppo muistaa.

Neiti A:MSCOCO-tietojoukon syntymisen jälkeen tietokonenäkökentän kehittäminen oli kuin raketilla ratsastusta.

Serge:No, olemme järjestäneet sen ympärille yhä enemmän tietoyhteisöjä, ja miljoonat ihmiset ovat käyttäneet COCO:ta.Aloitimme pienestä ja kehitimme lopulta tutkimusalan, jolla on ollut syvällinen vaikutus.

Ensimmäinen tietokonenäkökonferenssi, johon osallistuin, oli CVPR 1994, myös Seattlessa. Se oli kolmekymmentä vuotta sitten, ja paikalla oli noin 300 ihmistä. Nyt vuoden 2024 Seattlen CVPR:ssä konferenssiin osallistuu 12 000 ihmistä.

Neiti A:Siitä on 30 vuotta, mikä saa johdonmukaisen intohimosi tietokonenäköön ja tekoälytutkimukseen?

Serge: Niin kauan kuin muistan, olen ollut kiinnostunut kuvioista ja asioiden luokittelusta. Yläasteella tein luokkaprojektin ruuvien, pulttien ja muiden kiinnittimien luokittelusta. Opiskellessani kiinnostuin äänikuvioista, erityisesti bioakustiikasta, kuten lintujen tai valaiden äänistä.Kuvien suhteen minua houkuttelivat sormenjäljet ​​ja kasvot.

Olen tutkinut kuinka lukea huulilta videoita. Minua kiehtovat kaikki tämän ongelman näkökohdat: äänen ja näön fuusio, eri kaiuttimien väliset erot ja laskennalliset haasteet. 1990-luvun alussa digitaalikamerat olivat juuri tulossa markkinoille, mutta niillä ei vielä ollut minkäänlaista laskennallista ymmärrystä. Nykyään saatat pitää itsestäänselvyytenä, että etsimessäsi on kasvojentunnistuskehykset tai valokuva-albumiohjelmisto, joka pystyy järjestämään älykkäästi valokuvia koko perheestäsi, mutta niitä ei silloin ollut olemassa.

Tunsin tuolloin, että kysyntä tälle teknologialle olisi erittäin suuri, ja samallaPidän myös tekniikan takana olevasta matematiikasta . Pidin näillä aloilla käytetystä tekniikasta, mutta en halunnut opiskella matematiikkaa tai fysiikkaa. Kuten monimutkaisten matemaattisten menetelmien käyttäminen äänen, videon ja kuvankäsittelyn ongelmien ratkaisemiseen.

Tunnen aina, että tehtäväni tässä maailmassa on tehdä tällaista työtä.

Neiti A:Mitä akateemista jakamista teit CVPR:ssä tänä vuonna?

Serge: Tiimini toimitti useita esitelmiä CVPR:n pääkonferenssissa, ja jaoin ne myös kahdessa seminaarissa. Yksi raporteista käsittelee tietokonenäkötutkimuksen historiaa, lähinnä auttaakseen nuoria tutkijoita ymmärtämään klassista tietokonenäkötekniikkaa, eli tekniikkaa ennen syväoppimista ja muuntajia. Esittelin myös Visipedia-projektin, joka alkoi CUB200-tietojoukon laajennetun version julkaisulla vuonna 2011. Tällä hetkellä Visipedian tutkimussisältö on laajentunut kymmeniin tuhansiin kasveihin, eläimiin ja sieniin, mikä tarjoaa tärkeän tutkimusperustan esineiden tunnistamiselle luonnossa.

Toinen raportti on se, mihin haluan keskittyä tämän päivän haastattelussa, joka liittyy narratiiviin, yleiseen mielipiteeseen ja väärään informaatioon erityisesti sosiaalisen median kehityksen yhteydessä.

Neiti A:Mitä innovaatioita työsi on tuonut alalle?

Serge: Klassinen ongelma disinformaation ja sosiaalisen median maailmassa on tosiasioiden tarkistaminen Esimerkiksi Kööpenhaminan yliopistolla on paljon asiaan liittyvää työtä. Yleinen lähestymistapa on, että tiettyjen varmennettavien huomautusten kohdalla käytämme tekoälyjärjestelmiä etsimään relevantteja tosiasioita ja ennustamaan tosiasioiden perusteella aitouspisteet 0–1.

Neiti A:Mitä haasteita tässä lähestymistavassa on?

Serge:Tässä menetelmässä itsessään ei ole paljon ongelmia, haaste tulee itse ongelmasta.Kaikki väitteet eivät ansaitse tosiasioiden tarkistamista, eivätkä kaikki faktantarkistukset anna oikeita tai vääriä tuloksia. Esimerkiksi "Pandat ovat Kiinan kansallinen aarre" on lausunto, jota voidaan käyttää mallien kouluttamiseen ja aitouden tarkistamiseen jäsennellyn tietokannan ja suurten tietomäärien avulla. Ei niin lauseen "muutto Kaliforniaan" kanssa.

Neiti A:Näet siis tutkimuspotentiaalin jälkimmäisen kaltaisissa lausumissa?

Serge: Tätä jälkimmäistä lausuntoa ei ole tutkittu laajasti, mutta se on yhtä tärkeä kysymys. Näillä väitteillä ei ehkä ole tiukkaa tosi/epätosi määritelmää, mutta ne herättävät paljon keskustelua sosiaalisessa mediassa. Tätä haastetta ei ollut aikakaudella, jolloin vain uutismedia piti tarkistaa faktat. Nykypäivän pitkälle kehittyneessä sosiaalisessa mediassa aihe, joka herättää kiivasta keskustelua, on vaikea tieteellisesti kuvata tai jota ei voida väärentää. tutkimuksen arvoinen.

Neiti A:Voitko kertoa minulle tapauksen, jolla oli todellinen vaikutus tai jopa vakava konflikti?

Serge: Olen iloinen, että esitit tämän kysymyksen, annetaanpa mielenkiintoinen esimerkki. Kun peset kätesi julkisessa vessassa, sinulla on kaksi vaihtoehtoa niiden kuivaamiseen. En ole varma, mitä menetelmää käytetään yleisesti Kiinassa, Euroopassa voit joko ottaa paperipyyhkeitä tai käyttää kuumailmakuivausrumpua.

Neiti A:Nämä kaksi menetelmää ovat yleisimpiä myös Kiinassa.

Serge: Kuivausrumpujen ja paperipyyhkeiden valmistajat voivat ansaita paljon rahaa allekirjoittamalla sopimuksia minkä tahansa hotelliketjun kanssa, ja koko markkinat tuottavat todennäköisesti miljardeja dollareita tuloja. Mutta monilla eurooppalaisilla on nyt erittäin vahva näkemys näiden kahden menetelmän erosta. Monet sanovat, että yksi näistä tavoista voi levittää tauteja, kun taas toiset sanovat, että paljon sähköä tai paperin valmistus aiheuttaisi ympäristövahinkoja puiden tuhlaamisen vuoksi. Useimmat ihmiset, jotka pitävät näitä näkemyksiä, eivät ole kansanterveys- tai ympäristöasiantuntijoita.

Neiti A:Ovatko väitteet sinänsä totta?

Serge: Emme itse asiassa välitä lausuntojemme aitoudesta, koska monia sosiaalisen median aiheita ei voida tiukasti todistaa tai väärentää. Mutta aihe nostetaan esille, koska pieni joukko ihmisiä haluaa vakuuttaa massat, että yksi tapa on parempi kuin toinen. He loivat todennäköisesti satoja tuhansia bottien luomaa sisältöä. Jos etsit nykyään sosiaalisista verkostoista keskusteluja paperipyyhkeistä ja kuivausrummuista, löydät miljoonia kommentteja. Tutkimuksemme ei keskity tiukkaan kahden lähestymistavan etujen ja haittojen vertailuun ja tosiasiantarkistustulosten esittämiseen.Olemme enemmän huolissamme näiden suunniteltujen ongelmien havaitsemisesta.

3. ”COCO”-tietojoukko sosiaalisessa mediassa

Vältä hätiköityjen päätösten tekemistä.

Rouva A: Tutkimuksesi on avannut toisen ulottuvuuden.Perinteinen faktantarkistus keskittyy semantiikan totuuteen, kun taas tutkimuksesi keskittyy väitteiden tai väitteiden totuuteen.asia selväpragmatiikkaa——Ennustamisen tavoite ei rajoitu siihen, onko se totta vai ei, vaan se ulottuu aihekeskusteluihin, joita jotkut käyttäjät tai useat robotit ovat luoneet sosiaalisissa verkostoissa tiettyjen tarkoitusten saavuttamiseksi.Tiedätkö mitä tämä tutkimus tarkoittaa?

Serge: Kyllä, olemme luomassa jotain täysin uutta. Tiedämme, että useimmat asiaankuuluvat tutkimukset keskittyvät yksinomaan tosiasioiden tarkistamiseen. Mutta yritämme käyttää aihekohtaista luonnollisen kielen teknologiaa ryhmitellä ja klusteroida keskusteluja sosiaalisessa mediassa auttaaksemme yksilöitä, yrityksiä ja strategiantekijöitä ymmärtämään, mitä sosiaalisessa mediassa tapahtuu.Emme tee arvoarvioita näistä aiheista ja keskustelusisällöstä, vaan näytämme vain objektiivisesti sen muodon, jossa kukin asia nostetaan esille.

Neiti A: Tämän tavoitteen saavuttamiseksi tarvitsemme ensin tietojoukon. Tämän tietojoukon rakentamisen pitäisi olla suuri haaste. Kun aloitit tietokonenäkötutkimuksen, laajensit pienistä lintutietojoukosta COCO:han. Miten lähestyit tätä aikaa?

Serge: Tämän tyyppiselle sosiaalisen verkostoitumisen käyttäytymiselle on usein ominaista yksi asia. Aiheesta voi olla miljoona twiittiä, ja keskusteluun osallistuu näennäisesti tuhansia tilejä.Mutta analyysin avulla voimme havaita, että satatuhatta noista twiiteistä itse asiassa julkaisi täsmälleen saman asian, hyvin samankaltaisilla tai jopa identtisillä kerroilla. Muista kuitenkin, että tämä ei tarkoita, että nämä keskustelut olisivat oikein tai väärin. Annamme käyttäjille mahdollisuuden nähdä eri lausuntojen klustereita ja ryhmiä, mikä helpottaa faktantarkistajien ja sosiaalisten verkostojen analyytikot käsittelemään ja ymmärtämään suuria määriä sisältöä ilman, että heidän tarvitsee kohdata äkillinen miljoonien twiittien virta.

Neiti A:Voiko tämä järjestelmä käsitellä erilaisia ​​kiistanalaisia ​​aiheita sosiaalisessa mediassa reaaliajassa?

Serge:Luulen, että voi, ja toivon niin. Oletetaan, että Välimerellä kaksi laivaa, venäläinen ja amerikkalainen, kohtaavat. Keskustelut alkavat sosiaalisissa verkostoissa ja syntyy tarina. Uutta tietoa ilmestyy muutaman tunnin välein, mukaan lukien kapteenin lausunto tai matkapuhelintallenne. Tässä tapauksessa jotkut kertomukset ja ongelmat saavat huomiota, kun taas toiset voivat muuttua merkityksettömiksi.

Neiti A: ToivotreaaliaikaTartu-ongelmia

Serge:ja muuta tietoa.Ammattidiplomaattien avuksi haluamme luoda akojelauta(kojelauta) , tarjoaa kattavaa asiaankuuluvaa tietoa ja asettaa nämä tapahtumat myös maailman kontekstiin.Tämä järjestelmä voiEstä ihmisiä tekemästä hätiköityjä päätöksiä . Haluan korostaa, että järjestelmä ei itse päätä, kumpi puoli on oikea, vaan järjestää tiedot kattavasti.

Neiti A:Mihin kipukohtiin on puututtava luotettavan toiminnan saavuttamiseksi?

Serge: Haasteita on sekä perinteisiä että uusia . Perinteisiä haasteita ovat kielen, kulttuurin ja emotionaalisen ennakkoluulojen vaikutukset.

esimerkiksi, "Pikku merenneito" ja "The Ruma ankanpoikanen" ovat molemmat tanskalaisten kirjailijoiden teoksia, mutta heidän Disney-elokuvaversionsa tarinoista on mukautettu amerikkalaiseen kulttuuriin. Koska amerikkalainen narratiivi hallitsee enemmän tanskalaista narratiivia sosiaalisessa mediassa, Andersenin tarinan alkuperäinen versio on lähes tuntematon Internetin käyttäjien keskuudessa monissa muissa maissa.

Tietojen merkintäprosessissa, erityisesti sosiaalisten verkostojen tietojen merkitsemisessä, kieli ja kulttuuri vaikuttavat siihen. Toinen esimerkki on, että mielialan analyysi on jo tärkeä osa faktantarkistusta, ja itse tunteiden ennustemallissa voi olla paljon harhoja ja stereotypioita koulutuksessa.Tekoälymallikoulutus on roskien sisään- ja ulosottoprosessi. Harjoitteludatan aiheuttamia ongelmia on vaikea ratkaista. Siksi meidän on ymmärrettävä, mitä koulutusdataa malli käyttää.Voimme sanoa, että tosiasioiden tarkistaminen ilman ihmisen osallistumista on olematonta (epäluotettavaa).

Neiti A:Mitkä ovat uudet haasteet?

Serge: Kielimallien luoma väärä sisältö on meille uusi haaste. Aikaisemmilla väärennetyillä sosiaalisen median tileillä oli usein hyvin yksinkertaisia ​​​​malleja seurata. Mutta GPT- ja kuvanluontimallien avulla väärennetyt tilien luojat voivat luoda monimutkaisempia ja luonnollisempia väärennettyjä profiileja ja sitten väärennettyjä sosiaalisen median tilejä, jotka näyttävät aidolta. Näitä tilejä ei ole helppo löytää perinteisillä väärennetyillä tilintunnistusmalleilla. Nämä generatiiviset tekoälymallit tuovat myös vastaavia haasteita perinteisiin faktantarkistustehtäviin. siksi,Generatiivinen tekoäly luo ja tunnistaa väärää tietoa, josta tulee tämän aikakauden kissa-hiiri-peli.

4.AI tulevaisuus

He (OpenAI) eivät ehkä vielä tiedä suunnitelmiamme.

Neiti A:Vaikuttaa siltä, ​​että näitä haasteita ei voida ratkaista pelkästään mallien avulla, vaan ne voivat nousta tekoälyn ja ihmisten välisen yhteistyön ulottuvuuteen.sinänäyttävätLöydä aina uusia ongelmia uusissa ulottuvuuksissa ja ratkaise ne sitten yksinkertaisesta näkökulmasta.

Serge:Joo.Uutta ideaamme voidaan verrata Wikipediaan. Ihmiset luulivat kerran, että sama Wikipedia-solmu tarvitsee vain sivuja eri kielillä, joilla on sama semantiikka. Tosiasia on, ettei vain kieli ole erilainen.

Kieli, kulttuuri, arvot, perinteet, kaikki tekijät sekoittuvat saman artikkelin eri sivuilla. Esimerkiksi atomienergiaa ja fossiilisia polttoaineita käsitellään hyvin eri tavoin eri kielillä ja eri puolilla maailmaa. Joten tämä muistuttaa meitä siitä, että tekoälyjärjestelmä, jota yritämme rakentaa, ei ole täysin automatisoitu, eikä se ole erillinen malli. Tämä on ihmisten osallistava järjestelmä, mikä tarkoittaa, että tarvitset monia erilaisia ​​ihmisyhteisöjä ympäri maailmaa tietojen merkitsemiseen ja järjestämiseen sekä kaikkien erilaisten osien huomioon ottamiseksi.Tämä on suuri ja syvällinen ongelma, koska ennakkoluuloja tulee aina olemaan.

Neiti A:Kuten MSCOCO, myös tiedon järjestäminen mahdollisimman kattavaksi ja oikeudenmukaiseksi on tämän tutkimuksen tavoite.

Serge: Tämä on prosessi, jossa järjestetään kaikenlaisia ​​yhteisöjä. Eri puolilla maailmaa eri-ikäiset opiskelevat eri pääaineita, kuten kirjallisuutta, historiaa, tiedettä jne., ja jokaisella alalla on oma tarinansa. Jotta kuvaamani tutkimus onnistuisi,Tarvitsemme paljon huomautuksia, jotka ymmärtävät erilaisia ​​​​aiheitaTekijä: Heidän ei tarvitse olla asiantuntijoita, mutta heillä on oltava jonkin verran tietoa koodattavasta sisällöstä, kuten ydinenergiasta, yrittäjyydestä tai kryptovaluutoista, jotta he tietävät tarinoiden ja asioiden yhtäläisyydet. Siksi suurin haaste on yhteisön organisointi, ei tekoälyn peruslaskenta- ja tallennustilat.

Neiti A:Kommentoivatko Sam Altman tai Yann Lecun ajatteluasi?

Serge: He eivät ehkä vielä tiedä suunnitelmiamme.

Neiti A:Näytän olevan aloitteen ensimmäisiä vaiheita:Löydä ongelmia korkeammasta ulottuvuudesta ja löydä suorin sisääntulokohta.

Serge: Jos kehitämme tämän infrastruktuurin ongelmien havaitsemiseen, kuten monia teknologioita, sitä voidaan käyttää hyvään tai huonoon.Siksi, toisin kuin monet kaupalliset tekoälyt,Pyrimme kehittämään avoimia, läpinäkyviä ja tarkastettavia johtamisjärjestelmiä . Siksi meillä on täysin läpinäkyvä tietokanta, ja käyttäjät näkevät tietojen muokkaushistorian, mukaan lukien sen, milloin tiedot sisällytettiin ja mitkä kommentaattorit ne ovat kommentoineet.

Neiti A:Kuinka varmistaa tietojen tarkkuus ja objektiivisuus?

Serge:Yksinkertainen vastaus on,emme voi taata

Mutta parasta, mitä voimme tehdä, on luoda järjestelmä, joka houkuttelee kymmeniä tuhansia eri keskustelualueista kiinnostuneita ihmisiä kommentoimaan järjestelmää. Mahdollisimman monta annotaattoria voi auttaa meitä tuomaan tilastollisen objektiivisuuden. Wikipediassa on myös avoimuuteen ja vastuullisuuteen suunniteltuja mekanismeja, ja me teemme samoin.

Neiti A:Miten tämä tutkimus vaikuttaa poliittisiin päättäjiin, kouluttajiin ja teknologeihin?

Serge: Ajattele, mitä teemme, täydentämään loogista tai tosiasiallista päättelyä.

Oletetaan, että yritys haluaa parantaa monimuotoisuuttaan, tasapuolisuuttaan ja osallisuuttaan. Joten heidän johtokuntansa piti kokouksen keskustellakseen naisten tai vähemmistöjen lisäämisestä. Tällainen keskustelu on yleistä monissa yrityksissä, ja esimerkiksi yhdessä yliopistossa ei ehkä ole paljon naisia ​​opiskelemassa sähköinsinööriä, ja laitoksella halutaan tehdä muutoksia tähän. Näissä tapaamisissa voi käydä paljon keskustelua, jota ei tue tieto tai tieto.

Jotkut ihmiset ilmaisevat puolueellisia mielipiteitä siitä, että naiset eivät ole hyviä matematiikassa. Tarvitaan järjestelmä, joka voi auttaa laitoksen puheenjohtajaa, toimitusjohtajaa tai opettajaa, jonka täytyy johtaa näitä keskusteluja, ja he voivat poimia järjestelmästä joukon kertomuksia keskustelun jäsentämiseksi. Lisäksi kun järjestelmä alkaa toimia, se indeksoi ja jäsentää lausunnot jo olemassa oleviksi kertomuksiksi. Näin toimitusjohtaja, opettaja tai kokousedustaja voi välttää huonolaatuisia tai hämmentäviä keskusteluja, omaa tehokkaan rakenteen ja luokittelujärjestelmän, ohjata keskusteluja ja estää turhat keskustelut.

Neiti A:Mitkä ovat mielestäsi mahdolliset teknologisen kehityksen tutkimussuunnat tulevaisuuden sosiaalisen median narratiivia ja ongelma-analyysiä varten?

Serge: Eri aloilla on omat ainutlaatuiset haasteensa. Jotkut niistä ovat klassisia ongelmia, kuten suurten tietomäärien käsittely ja niiden merkitseminen, harhan vähentäminen jne. Mutta meillä on myös suuria haasteita visualisoinnin suhteen.

Mainitsimme vain eri kielten ja kulttuurien kohtaamat erot. Jokaisella tietyllä aiheella on monia eri näkökulmia, ja erilaiset merkinnät tekevät erilaisia ​​huomautuksia omien harhojensa vuoksi. Tietoteorian näkökulmasta näiden erilaisten tilien tiivistäminen voi johtaa tietojen katoamiseen tai turmeltumiseen. Tämän tyyppisiä kysymyksiä tulee esiin koko projektin ajan, ja kohtaamme niitä usein.

Neiti A: Millä visuaalisen teknologian viimeisimmällä kehityksellä on mielestäsi syvällinen vaikutus tulevaisuuteen?

Serge: Nyt yhä useammat tutkijat ovat alkaneet kiinnittää huomiota multimodaaliseen dataan, jossa käsitellään useita tietotyyppejä, kuten kuvia, tekstiä ja ääntä samaan aikaan. Tämä menetelmä käyttää yleensä malliarkkitehtuuria, kuten Transformer, monimutkaisten käytännön ongelmien ratkaisemiseen . Uskon tämän trendin jatkuvan, ja tuleville tekoälyn alan tulokkaille on luontevampaa hallita useita ammatillisia taitoja samanaikaisesti kuin syventyä yhteen osa-alueeseen, kuten luonnollisen kielen käsittelyyn tai tietokonenäköön.

Henkilökohtaisesti olen sitä mieltä, että vaikka jotkut väittävät tekoälyn korvaavan lääkärit kokonaan, tämä väite on liioiteltu. Mutta olen vakuuttunut siitä, että sellaisilla aloilla kuin radiologia, dermatologia ja histopatologia, tekoälyavusteisista järjestelmistä tulee laajalle leviäviä ja niistä on hyötyä kaikille.

Mitä tulee itseohjautuviin autoihin, vaikka aiemmin on ennustettu, että näköteknologian ja tekoälyn kehitys mahdollistaa itseohjautuvien autojen laajan käyttöönoton, en usko, että näin tapahtuu. Ellei hallitus ryhdy toimiin rajoittaakseen perinteisten autojen käyttöä tietyillä kaistalla tai kieltää niitä kokonaan, on erittäin epätodennäköistä, että itsestään ajavista autoista tulee normi Yhdysvalloissa.

Neiti A : Pidän paperistasi. Ajatukseni ovat samanlaisia.Teknologinen kehitys avaa samalla uusia kognitiivisia ulottuvuuksia. Arvokkain metodologia on sellainen, jolla on minimalistinen lähtökohta, mutta joka voi säteillä kokonaistilannetta.

Serge:Mistä metodologiasta olet eniten kiinnostunut?

Neiti A:Anna pieni esimerkki.Väärennettävyyden polulla tiede lähtee iteratiiviselle negatiivisen kieltämisen polulle... palaten tieteellisen vallankumouksen rakenteeseen, jonka me kaikki tunnemme.

*Hang Zhou osallistui myös tähän artikkeliin.

Koska tämä artikkeli sisältää akateemisia keskusteluja, tässä on lyhyt johdatus kirjoittajalle:

  • Zhang Yijia, Jiazi Guangnianin perustaja, valmistui Pekingin yliopiston matemaattisten tieteiden korkeakoulusta vuonna 2013 ja sai kaksoistutkinnon kansallisesta kehitysinstituutista, hän voitti kultamitalin Kiinan matemaattisissa olympialaisissa hänen tutkimusalueensa ovat talousmatematiikka ja peliteoria, ja hän toimii samanaikaisesti Pekingin yliopiston Mathematical Sciences -koulun johtajana.

  • Zhou Hang, Jiazi Brainista vastaava henkilö, valmistui Pekingin yliopiston matemaattisten tieteiden korkeakoulusta vuonna 2019, hänen tutkimussuuntansa on harva optimointi ja ei-kupera optimointi.


*Referenssit
  • Etsitään rakennetta väärentämättömistä väitteistä.pdf

  • 978-3-319-10602-1_48.pdf "Microsoft COCO: Common Objects in Context" MSCOCO-tietojoukko: Sergen siteeratuin paperi.

  • Thomas Samuel Kuhn "Tieteellisten vallankumousten rakenne"


Seuraa julkista tiliä "Jiazi Guangnian" ja vastaa "voidaan väärentää" taustalla saadaksesi artikkelissa mainitut tiedot"Etsi rakennetta väärentämättömistä väitteistä"jaMSCOCO-tietojoukkoKaksi paperia.

|Neiti ADialogue-sarjan arvostelu|