xiao yangin tallenteen takomisen tekoälyn salaisuuden paljastaminen: ei kustannuksia, vain kolme sekuntia

xiao yangin tallenteen takomisen tekoälyn salaisuuden paljastaminen: ei kustannuksia ja kestää vain kolme sekuntia

2024-09-30

xiao yangin tapauksesta paljastunut "lu wenqing-tallenne" aiheutti ensin julkista kohua sisällön laajuuden vuoksi, ja sitten todettiin, että se oli kaiken tekoälyn väärennetty.

ajan myötä tekoälytekniikka on jälleen noussut etualalle.

kuva/virallinen vastaus yanyu technologylta

riippumatta siitä, onko tekniikka hyvää vai huonoa, tekoälyn syntetisoitu tallennus voidaan pohjimmiltaan ymmärtää eräänlaisena deepfakena, joka käyttää syväoppimisalgoritmeja äänen ja videon simulointiin ja väärentämiseen, eli tekoälyteknologian syväoppimismallin kautta. , ihmisten äänet, ilmeet ja kehon liikkeet yhdistetään hyvin realistiseksi väärennetyksi sisällöksi.

teknisestä näkökulmasta se on neutraali äänisimulaation lisäksi vastaaviin menetelmiin kuuluu myös tekoälyn vaihtaminen, kasvojen synteesi, videoiden luominen jne., joita kutsutaan yhteisesti syvälle väärennökseksi.

neutraali tekniikka ei kuitenkaan voi estää käyttäjiä etsimästä pahoja aikeita.

lan mediahui konsultoi lin hongxiangia, fengping intelligencen, johtavan kotimaisen digitaalisen ihmisyrityksen, perustajaa ja toimitusjohtajaa. tällaisista tapauksista lin hongxiang sanoi suoraan, että tekoälyn tuoma tuotannon tehostaminen on kattavaa, mutta laajentumisen keskellä. "soveltamisesta" , jos rikkomukset halutaan eristää kokonaan, voidaan vaatia järjestelmällisiä määräyksiä ja tehokasta täytäntöönpanoa.

alan nykyisen teknisen tason mukaan käyttäjien tarvitsee vain löytää muutama minuutti hajallaan olevaa materiaalia tekoälyn oppimisnäytteinä voidakseen kloonata nopeasti täydellisen tekoäly-ihmisäänen. osa äänitteen puhetaukoista, tunteista ja intonaatioista voidaan lisätä, vähentää ja säätää teknisin keinoin.

lisäksi, mitä tulee käytännön sovelluksiin, ai-ihmisäänien kopiointikustannukset eivät ole nyt korkeat. monet markkinoilla olevat sovellukset tarjoavat ilmaisia sisäänpääsyjä puheen kloonauspalvelu, ammattimaisempi versio vaatii lisämaksun.

internetistä siepattu osa boss lu:n suorasta lähetyksestä muutettiin ääneksi ja tuotiin muutamassa sekunnissa boss lu:n tekoälyn ääni kloonattiin.

sitten jäljittelimme alkuperäisen tapauksen nauhoitetta, jossa oli erittäin törkeitä tunteita ja tekstiä, ja käytimme sitä käsikirjoituksen tuontimallina luodaksemme tallenteen lu wenqingruista kommentoimassa muskia, ja olimme valmis.

"xiao ma ja muut ovat poissa, eikö? sanon teille, kuka tahansa haluan olla suosittu, voi olla suosittu, ymmärrä. tunnen monia toimitusjohtajia, enkä kehu ketään kehujani. älä mainitse. musk minulle, se ei toimi, se ei toimi, vaikka juomme, kuka hän on ilman kolmea lammasta, ymmärrätkö tämän? ”

suoraan sanottuna, jos olet kuunnellut tällaisia tekoälyhuijaussoittoja liian monta kertaa tai olet herkkä ihmisäänille, voit itse asiassa sanoa, että tekoälyäänessä on "konetuntumaa" - intonaatio on liian vakaa alusta alkaen loppu, ja se ei koskaan kuulosta, kun ihmiset ovat emotionaalisesti innoissaan. mutta tämä on vain yksinkertaisin normaaliversiomalli ja välitön kloonaustoiminto. jos korpuksia on riittävästi ja ammattimainen kloonaustoiminto valitaan, vaikutus on "todellisempi".

onko siis mahdollista, että tekoälyn syntetisoima ääni ja video ovat yhtä intuitiivisia kuin valheenpaljastin, joka erottaa aitouden datasta?

teknisellä tasolla se on mahdollista. lin hongxiang sanoi, että käyttäjän itsensä valtuutuksen lisäksi tekoälyn digitaalisessa ihmisteollisuudessa on todellakin rakenteilla asiaankuuluvia standardeja, jotka edellyttävät, että kaikenlaiseen tekoälyn luomaan sisältöön on lisättävä erityisiä tunnistettavia "ominaisuusmerkkejä".

tämä etiketti ei ole vain "generated by xx ai" -vesileiman lisääminen nurkkaan. tekoälyn syntetisoitu ääni esimerkiksi lisää kohinataajuuskaistoja ihmisen puheäänten taajuuskaistan ulkopuolelle, jopa näkyvien äänien alueelle. lisää tiettyjä ominaistaajuuskaistoja.

kone voi tunnistaa tämän ominaistaajuuden, jos tunnistusta tarvitaan, laite voi poimia nämä taajuuskaistat ja teoriassa aitous voidaan määrittää.

mutta tällä hetkellä ei ole paljon yrityksiä, jotka ovat halukkaita popularisoimaan tätä toimintoa. rajoittava tekijä on yhden toimenpiteen hinta koulutusvaiheessa ja seuraavan sukupolven ääni- ja videomallin kehittämisestä aiheutuneet kustannukset vaiheittaisen lähdön jälkeen painostivat tekoälyyrityksiä vielä tässä vaiheessa.

tällä hetkellä tekoäly-audio- ja videoteollisuus on vielä alkuvaiheessa, kuinka hankkia asiakkaita samalla kun katetaan kulut promootiovaiheessa, on aihe, jota toimijat eivät voi välttää.

mutta nämä eivät tietenkään ole asioita, joita pahoja aikomuksia omaavat rikolliset harkitsevat, onko ruutia käytetty.

yli puoli vuotta sitten hongkongin poliisi paljasti petostapauksen, jonka kokonaissumma oli 200 miljoonaa hongkongin dollaria. tapauksessa monikansallisen yrityksen hongkongin sivuliikkeen työntekijät saivat pääkonttorin talousjohtajalta ilmoituksen, jossa kerrottiin, että pääkonttori suunnittelee "salaista kauppaa" ja hänen oli siirrettävä yrityksen varoja useille paikallisille tileille hongkongissa myöhempää käyttöä varten. käyttää.

tämän jälkeen työntekijät kutsuttiin osallistumaan päämajan käynnistämään "monen hengen videoneuvotteluun", ja kokousvaatimusten mukaisesti 200 miljoonaa hongkongin dollaria siirrettiin 15 kertaa 5 pankkitilille.

lähde/cctv-uutiset

itse asiassa tässä usean hengen videoneuvottelussa sivuliikkeen työntekijöitä lukuun ottamatta muut "ihmiset" olivat tekoälykuvia, jotka huijarit olivat syntetisoineet käyttämällä julkisia ääni- ja videoleikkeitä ja käyttivät sitten videoneuvottelupuhelua kasvojen ja äänien vaihtamiseen. petostiimi suoraan siitä tulee johtoryhmä, joka kutsuu laukauksia.

hongkongin tapauksessa rikolliset vastaavat tekoälyn kasvojen vaihtamisen + ai-äänenvaihtajan käyttämistä paikalle. xiao yangin tekoälyn väärennetty äänitys kuitenkin syntetisoitiin tällä kertaa kokonaan suurella mallilla sen jälkeen, kun oli oppinut lu asiaankuuluvat äänimateriaalit. three sheep companyn wenqingin tunteet ovat lähellä todellisen henkilön koko ääntä. prosessi on juuri niin yksinkertainen - tekoälyn syntetisoitu ääni ja video on jo kypsää tekniikkaa, ja niihin liittyvät tuotteet ovat myös kehittyneet täydelliseksi toimialaksi.

tekoälyn syntetisoidun äänen ja videon valtavirta ei kuitenkaan todellakaan ole väärennös. the wandering earth part 2:n juonissa andy laun esittämä tu hengyu herätti yayan henkiin digitaalisen elämän muodossa juonen ulkopuolella myös edesmennyt kuuluisa elokuvatähti ng meng-tat ilmestyi näytölle tekoälyn kautta.

siksi, jos tulevaisuudessa tapahtuu toinen tapaus, kuten xiao yangin tallennustapaus, ennen kuin keskustellaan siitä, onko tekniikka syyllinen vai syytön, meidän pitäisi ensin yrittää hallita ihmisiä.

pidä huolta ihmiskunnasta ja pelasta tekoäly.

uutiset

xiao yangin tallenteen takomisen tekoälyn salaisuuden paljastaminen: ei kustannuksia ja kestää vain kolme sekuntia

johdanto

yhteystietoni