mengungkap rahasia ai yang memalsukan rekaman xiao yang: tanpa biaya dan hanya membutuhkan waktu tiga detik

2024-09-30

"rekaman lu wenqing" yang terungkap dalam insiden xiao yang pertama kali menimbulkan kemarahan publik karena skala kontennya, dan kemudian diketahui bahwa semuanya dipalsukan oleh ai.

seiring waktu, teknologi ai sekali lagi menjadi yang terdepan.

gambar/balasan resmi dari yanyu technology

terlepas dari baik atau buruknya teknologi tersebut, pada hakikatnya rekaman yang disintesis ai dapat dipahami sebagai semacam deepfake, yang menggunakan algoritma pembelajaran mendalam untuk mensimulasikan dan memalsukan audio dan video, yaitu melalui model pembelajaran mendalam dalam teknologi kecerdasan buatan. , suara orang, ekspresi wajah, dan gerakan tubuh dirangkai menjadi konten palsu yang sangat realistis.

dari sudut pandang teknis, ini netral. selain simulasi suara, metode serupa juga mencakup perubahan wajah ai, sintesis wajah, pembuatan video, dll., yang secara kolektif disebut sebagai pemalsuan mendalam.

namun, teknologi netral tidak bisa mencegah penggunanya melakukan niat jahat.

lan mediahui berkonsultasi dengan lin hongxiang, pendiri dan ceo fengping intelligence, perusahaan manusia digital ai terkemuka di dalam negeri. mengenai insiden semacam ini, lin hongxiang mengatakan dengan terus terang bahwa peningkatan efisiensi produksi yang dibawa oleh ai bersifat komprehensif, tetapi di tengah-tengah ekspansi. dari "penerapan", jika pelanggaran ingin diisolasi sepenuhnya, peraturan yang sistematis dan implementasi yang efektif mungkin diperlukan.

menurut tingkat teknis industri saat ini, pengguna hanya perlu menemukan beberapa menit materi yang tersebar sebagai sampel pembelajaran ai untuk dengan cepat mengkloning suara manusia ai yang lengkap. beberapa jeda bicara, emosi dan intonasi dalam rekaman dapat ditambahkan, dikurangi dan disesuaikan melalui cara teknis.

selain itu, dalam hal aplikasi praktis, biaya menyalin sekumpulan suara manusia ai "sekarang tidak mahal". banyak aplikasi di pasar akan menyediakan beberapa pintu masuk gratis. dengan mengambil model yang terlibat sebagai contoh, model reecho menyediakan suara gratis layanan kloning, versi yang lebih profesional memerlukan biaya tambahan.

bagian dari siaran langsung boss lu yang disadap dari internet diubah menjadi audio dan diimpor. hanya dalam beberapa detik, suara ai boss lu dikloning.

kemudian kami meniru rekaman kejadian aslinya dengan emosi dan teks yang keterlaluan, dan menggunakannya sebagai model impor skrip untuk membuat rekaman lu wenqingrui yang mengomentari musk, dan kami selesai.

"xiao ma dan yang lainnya sudah pergi, kan? sudah kubilang, siapa pun yang aku ingin menjadi populer bisa menjadi populer, mengerti. aku kenal banyak ceo, dan aku tidak memuji siapa pun yang aku puji. jangan sebutkan musk bagi saya, itu tidak berhasil, anda tahu, itu tidak berhasil, dan tidak berhasil ketika kita minum. siapa dia? tanpa tiga domba, siapa yang akan menjual barang kepadanya, apakah kamu mengerti ini? ”

sejujurnya, jika anda terlalu sering mendengarkan panggilan penipuan ai semacam itu, atau sensitif terhadap suara manusia, anda sebenarnya dapat mengetahui bahwa audio ai memiliki "nuansa mesin" - intonasinya terlalu stabil dari awal hingga berakhir, dan itu tidak akan pernah terdengar ketika orang sedang bersemangat secara emosional. ini akan menjadi seperti ini. tapi ini hanyalah model versi normal paling dasar dan fungsi kloning instan. jika korpus lebih mencukupi dan fungsi kloning profesional dipilih, efeknya akan lebih "nyata".

jadi, mungkinkah audio dan video yang disintesis oleh ai menjadi seintuitif pendeteksi kebohongan untuk membedakan keaslian melalui data?

secara teknis, hal ini bisa dilakukan. lin hongxiang mengatakan bahwa selain otorisasi dari pengguna itu sendiri, memang ada standar relevan yang sedang dibangun dalam industri manusia digital ai, yang mengharuskan semua jenis konten yang dihasilkan ai ditambahkan dengan "tanda fitur" khusus yang dapat diidentifikasi.

label ini tidak hanya menambahkan tanda air "dihasilkan oleh xx ai" di sudutnya. dengan mengambil contoh suara yang disintesis ai, label ini akan menambahkan pita frekuensi kebisingan tambahan di luar pita frekuensi suara yang diucapkan manusia, bahkan dalam jangkauan suara yang terlihat. tambahkan pita frekuensi karakteristik tertentu.

frekuensi karakteristik ini dapat diidentifikasi oleh mesin. jika diperlukan identifikasi, perangkat dapat mengekstraksi pita frekuensi ini, dan secara teoritis keasliannya dapat ditentukan.

namun saat ini, tidak banyak perusahaan yang mau mempopulerkan fungsi ini. faktor pembatasnya adalah biaya satu prosedur lagi. meskipun biaya model sekali pakai tidak tinggi, setiap model audio dan video sudah terpasang dalam tahap pelatihan dan biaya yang dikeluarkan untuk mengembangkan model audio dan video generasi berikutnya setelah keluaran bertahap masih memberikan tekanan besar pada perusahaan ai pada tahap ini.

saat ini, industri audio dan video ai masih dalam tahap awal. bagaimana cara mendapatkan pelanggan sekaligus menutupi biaya selama tahap promosi merupakan topik yang tidak dapat dihindari oleh para praktisi.

tapi ini jelas bukan hal yang akan dipertimbangkan oleh penjahat dengan niat jahat. apakah kembang api atau bom bergantung pada bagaimana bubuk mesiu digunakan.

lebih dari setengah tahun yang lalu, polisi hong kong mengungkap kasus penipuan yang melibatkan jumlah total hk$200 juta. dalam kasus tersebut, karyawan perusahaan multinasional cabang hong kong menerima pemberitahuan dari cfo kantor pusat, mengatakan bahwa kantor pusat merencanakan "transaksi rahasia" dan perlu mentransfer dana perusahaan ke beberapa rekening lokal di hong kong untuk nanti. menggunakan.

kemudian, para karyawan diundang untuk berpartisipasi dalam "konferensi video multi-orang" yang diprakarsai oleh kantor pusat, dan sesuai dengan persyaratan pertemuan, hk$200 juta ditransfer sebanyak 15 kali ke 5 rekening bank.

sumber/berita cctv

faktanya, dalam konferensi video multi-orang ini, kecuali karyawan cabang, "orang" lainnya adalah gambar ai yang disintesis oleh penipu menggunakan potongan audio dan video publik, dan kemudian menggunakan panggilan konferensi video untuk mengubah wajah dan suara. tim penipuan secara langsung menjadi tim eksekutif yang mengambil keputusan.

dalam kasus hong kong, para penjahat setara dengan menggunakan ai pengubah wajah + pengubah suara ai untuk muncul di tempat kejadian. namun, rekaman palsu ai xiao yang kali ini sepenuhnya disintesis oleh model besar setelah mempelajari materi audio yang relevan dari lu wenqing dari three sheep company. , emosinya mirip dengan keseluruhan audio orang sungguhan. prosesnya sesederhana itu - audio dan video yang disintesis ai sudah menjadi teknologi yang matang, dan produk terkait juga telah berkembang menjadi industri yang lengkap.

namun, arus utama audio dan video yang disintesis ai jelas tidak palsu. dalam plot the wandering earth part 2, tu hengyu yang diperankan oleh andy lau menghidupkan kembali yaya dalam wujud kehidupan digital. di luar plot, mendiang bintang film ternama ng meng-tat juga muncul di layar melalui ai.

oleh karena itu, jika di kemudian hari ada kejadian lain seperti kejadian rekaman xiao yang, sebelum membahas apakah teknologi tersebut bersalah atau tidak, sebaiknya kita berusaha mengendalikan masyarakatnya terlebih dahulu.

jaga kemanusiaan dan selamatkan ai.

berita

mengungkap rahasia ai yang memalsukan rekaman xiao yang: tanpa biaya dan hanya membutuhkan waktu tiga detik

perkenalan

informasi kontak saya