ai가 샤오양의 녹음을 위조하는 비결을 공개하다: 비용은 0, 단 3초

ai가 샤오양의 녹음을 위조하는 비밀을 공개하다: 비용이 0이고 3초밖에 걸리지 않는다

2024-09-30

샤오양 사건에서 폭로된 '루원칭 녹음'은 내용의 규모로 인해 처음에는 대중의 분노를 불러일으켰고, 이후 모두 ai가 위조한 것으로 밝혀졌다.

시간이 지나면서 ai 기술은 다시 한번 선두로 밀려났습니다.

사진/yanyu technology의 공식 답변

기술이 좋든 나쁘든 본질적으로 ai 합성녹음은 딥러닝 알고리즘을 사용해 오디오와 비디오를 시뮬레이션하고 위조하는, 즉 인공지능 기술의 딥러닝 모델을 통해 일종의 딥페이크(deepfake)로 이해될 수 있다. , 사람들의 목소리, 얼굴 표정, 신체 움직임이 엮어져 매우 사실적인 가짜 콘텐츠로 만들어졌습니다.

기술적 관점에서는 중립적입니다. 음성 시뮬레이션 외에도 유사한 방법에는 ai 얼굴 변경, 얼굴 합성, 비디오 생성 등이 포함되며, 이를 통칭하여 심층 위조라고 합니다.

그러나 중립적인 기술은 사용자가 악의적인 의도를 추구하는 것을 막을 수 없습니다.

lan mediahui는 이러한 유형의 사건에 대해 국내 굴지의 ai 디지털 휴먼 회사인 fengping intelligence의 창립자이자 ceo인 lin hongxiang에게 자문을 구했습니다. lin hongxiang은 ai가 가져온 생산 효율성 향상이 포괄적이지만 확장 중에 있다고 솔직하게 말했습니다. '적용'의 경우, 위반사항을 완전히 격리하려면 체계적인 규제와 효과적인 시행이 필요할 수 있습니다.

업계의 현재 기술 수준에 따르면 사용자는 ai 학습 샘플로 흩어져 있는 몇 분의 자료만 찾아 완전한 ai 인간 음성을 신속하게 복제하면 됩니다. 녹음된 음성의 일시 중지, 감정, 억양 중 일부는 기술적인 수단을 통해 추가, 제거 및 조정될 수 있습니다.

더욱이 실제 응용 분야에서는 ai 인간 음성 세트를 복사하는 데 드는 비용이 "현재 높지 않습니다." 시중에 나와 있는 많은 응용 프로그램은 관련 모델을 예로 들면 무료로 제공됩니다. 음성 복제 서비스, 보다 전문적인 버전에는 추가 비용이 필요합니다.

인터넷에서 가로채는 루 보스의 라이브 방송 일부가 오디오로 변환되어 가져오기되었으며 단 몇 초 만에 루 보스의 ai 음성이 복제되었습니다.

그런 다음 매우 터무니없는 감정과 텍스트가 포함된 원본 사건의 녹음을 모방하고 이를 스크립트 가져오기 모델로 사용하여 lu wenqingrui가 머스크에 대해 논평하는 녹음을 만들면 완료되었습니다.

"샤오마 외 다른 사람들은 없어졌죠? 내가 인기를 얻고 싶은 사람은 누구나 인기를 얻을 수 있다는 겁니다. 이해하세요. 저는 ceo들을 많이 알고 있고, 제가 칭찬하는 사람을 칭찬하지 않습니다. 언급하지 마세요." 나한테 사향, 안 돼, 안 돼, 술 마셔도 안 돼, 양 세 마리 없으면 누가 그 사람한테 물건을 팔아줄 건데, 알겠어? ”

솔직히 말해서 이런 종류의 ai 사기 전화를 너무 많이 들어봤거나 사람의 목소리에 민감하다면 실제로 ai 오디오에는 "기계 느낌"이 있다고 알 수 있습니다. 억양이 처음부터 너무 안정적입니다. 끝나고 사람들이 감정적으로 흥분하면 절대 소리가 나지 않을 것입니다. 그러나 이것은 가장 기본적인 일반 버전 모델이자 즉시 복제 기능일 뿐입니다. 코퍼스가 더 충분하고 전문적인 복제 기능을 선택하면 효과가 더욱 "현실적"이 됩니다.

그렇다면 ai가 합성한 오디오와 비디오가 거짓말 탐지기만큼 직관적으로 데이터를 통해 진위 여부를 판별하는 것이 가능할까?

기술적인 수준에서는 가능합니다. lin hongxiang은 사용자 자신의 승인 외에도 실제로 ai 디지털 휴먼 산업에서 구축 중인 관련 표준이 있으며, 모든 종류의 ai 생성 콘텐츠에 특수 식별 가능한 '특징 표시'를 추가해야 한다고 말했습니다.

이 라벨은 단순히 ai 합성 사운드를 예로 들어 'generated by xx ai' 워터마크를 추가하는 것이 아니라, 눈에 보이는 소리 범위 내에서도 사람이 말하는 소리의 주파수 대역을 벗어나는 노이즈 주파수 대역을 추가합니다. 특정 특성 주파수 대역을 추가합니다.

이 특징적인 주파수는 기계에 의해 식별될 수 있으며, 식별이 필요한 경우 장치는 이러한 주파수 대역을 추출할 수 있으며 이론적으로 진위 여부를 결정할 수 있습니다.

그러나 현재 이 기능을 대중화하려는 기업은 많지 않습니다. 단일 사용 모델의 비용이 높지는 않지만 각 오디오 및 비디오 모델이 사전 설치되어 있다는 제한 요인이 있습니다. 훈련 단계와 단계적 출력 이후 차세대 오디오 및 비디오 모델을 개발하는 데 발생하는 비용은 이 단계에서 여전히 ai 기업에 큰 부담을 안겨주고 있습니다.

현재 ai 오디오·비디오 산업은 아직 초기 단계다. 프로모션 단계에서 비용을 충당하면서 어떻게 고객을 확보할 것인가는 실무자들이 피할 수 없는 화두다.

그러나 이것은 분명히 사악한 의도를 가진 범죄자가 고려할 사항이 아닙니다. 폭죽이냐 폭탄이냐는 화약을 어떻게 사용하느냐에 달려 있습니다.

반년여 전, 홍콩 경찰은 총 2억 홍콩달러 규모의 사기 사건을 공개했습니다. 이 사건의 경우, 다국적 기업의 홍콩 지점 직원은 본사 cfo로부터 본사가 '비밀 거래'를 계획하고 있으며 나중에 회사 자금을 홍콩의 여러 현지 계좌로 이체해야 한다는 통지를 받았습니다. 사용.

이어 본사가 주최하는 '다인 화상회의'에 직원들을 초대해 회의 요건에 따라 2억 홍콩달러를 5개 은행계좌로 15차례 이체했다.

출처/cctv뉴스

실제로 이번 다자간 화상회의에서 지점 직원을 제외한 다른 '사람'들은 사기꾼들이 공개 오디오와 영상 슬라이스를 이용해 합성한 인공지능 영상이었고, 이후 화상회의 통화를 이용해 얼굴과 목소리를 바꿨다. . 사기팀이 직접 지휘하는 경영진이 됩니다.

홍콩의 경우, 범인은 ai 얼굴 변경 + ai 음성 체인저를 사용하여 현장에 등장하는 것과 동일합니다. 그러나 이번에 xiao yang의 ai 위조 녹음은 lu의 관련 오디오 자료를 학습한 후 대형 모델에 의해 완전히 합성되었습니다. three sheep company의 wenqing은 감정이 실제 사람의 전체 오디오에 가깝습니다. 프로세스는 매우 간단합니다. ai 합성 오디오 및 비디오는 이미 성숙한 기술이며 관련 제품도 완전한 산업으로 발전했습니다.

그러나 ai가 합성한 오디오와 비디오의 주류는 확실히 가짜가 아니다. 유랑지구 2부 줄거리에서 앤디 라우(andy lau)가 연기한 투헝위(tu hengyu)는 야야(yaya)를 디지털 생명체의 형태로 부활시켰습니다. 줄거리 밖에서도 유명 영화배우 응멍탓(ng meng-tat)이 ai를 통해 스크린에 등장했습니다.

따라서 향후 샤오양의 녹화 사건과 같은 사건이 또 발생한다면 기술의 유무죄를 논하기 전에 국민을 먼저 통제해야 할 것입니다.

인류를 돌보고 ai를 구하세요.

소식

ai가 샤오양의 녹음을 위조하는 비밀을 공개하다: 비용이 0이고 3초밖에 걸리지 않는다

소개

내 연락처 정보