소식

대형 모델은 심각한 위조의 토대를 제공하며 업계에서는 위조 기술을 근절하기 위해 학제간 공동 노력을 요구합니다.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·위조품 식별 기술 개발에는 학제간 협력이 필요합니다. 현재의 위조품 식별 기술은 주로 소프트웨어 알고리즘을 기반으로 하고 있으며, 앞으로는 소프트웨어와 하드웨어의 통합으로 나아갈 것입니다.


대형 모델의 등장으로 심층 위조의 기반이 마련되었고, 업계에서는 위조 기술 근절을 위해 학제간 공동 노력이 요구되고 있습니다.

대형 모델 시대에는 인공지능이 합성한 음성과 실제 음성의 경계가 점점 모호해지고 있어 매칭 인식 기술 개선이 시급하다. 7월 23일, 심층 음성 탐지 및 위조를 주제로 한 제9회 Xinye Technology Cup 글로벌 인공 지능 알고리즘 대회 결승전이 상하이에서 열렸습니다. 이 대회에서는 참가자들이 딥 러닝과 인공 지능 대책을 활용하여 다음과 같은 알고리즘을 개발할 수 있도록 독려했습니다. 거짓 목소리 모델을 정확하게 식별합니다.

딥페이크(Deepfake)는 딥러닝과 인공지능 기술을 활용해 매우 사실적인 가짜 콘텐츠를 생성하는 방법이다. 대형 모델의 등장으로 심층 위조의 기반이 마련됐다. 프롬프트 단어만 입력하면 AI 시스템이 사진, 영상, 오디오를 출력해 진짜와 거짓을 구별하기 어렵게 된다.

허위 음성을 예로 들면, 대형 모델은 다양한 허위 음성을 생성할 수 있습니다. 이러한 허위 음성은 보다 현실적이고 의인화되었으며 대화가 원활하여 허위 음성 인식에 더 큰 어려움을 가져옵니다. Xinye Technology의 부사장이자 빅데이터 및 AI 책임자인 Chen Lei는 "일부 고가치 시나리오에서는 AI로 인한 음성 사기가 자주 발생합니다. 그러나 현재의 음성 식별 기술 개발은 음성 합성 기술보다 뒤떨어져 있습니다."라고 말했습니다.

결승전에서 참가자들은 대형 모델 기반 인식 기술과 전통적인 엔드투엔드 인식 기술을 포함해 다양한 알고리즘 모델과 훈련 아이디어를 사용해 허위 음성을 식별했습니다. 엔드투엔드 인식 기술은 매개변수 수가 적고 수직적 문제에 더 중점을 둡니다. 대형 모델은 매개변수 수가 많고 데이터 요구 사항이 높으며 생성된 가짜 음성 데이터의 인식률이 높습니다. 대형 모델에 의해 크게 개선되었습니다.

Xinye Technology의 알고리즘 과학자 Lu Qiang에 따르면, 예선 대회를 위한 음성 데이터 세트는 주로 식별하기 어려운 전통적인 종단 간 TTS(텍스트 음성 변환)에서 생성된 가짜 음성으로 구성되어 있습니다. 처음으로 준결승 데이터 세트는 최신 대형 모델을 기반으로 생성된 가짜 음성을 추가하고, 영어, 프랑스어, 스페인어를 포함한 5개 이상의 언어를 포함하는 실제 언어와 가짜 언어를 결합한 가짜 음성과 샘플을 기록합니다. 등으로 경쟁의 난이도가 높아집니다. "준결승에서 대형 모델이 생성한 가짜 음성이 추가되면서 경쟁이 더욱 어려워졌고, 이는 최신 대형 모델의 '가짜를 진짜로 위장하는' 능력이 더욱 강해졌음을 보여주는데, 이에 상응하는 딥페이크 인식 기술이 필요합니다." 따라가려고."

"우리는 실제 음성을 여러 번 녹음한 후 생성된 데이터인 가짜 음성 추출과 같은 몇 가지 새로운 장면 데이터를 대회에 의도적으로 추가했습니다. 우리는 이것이 가짜 음성이라고 생각합니다."라고 Lu Qiang은 말했습니다. 가짜 음성 슬라이싱 및 믹싱을 통해 인공적인 음성 청취를 방지하고 경쟁을 방해하는 라벨링을 수행합니다. "한 조각이 가짜 음성인 한 전체 슬라이스는 가짜 음성입니다. 이것이 실제 장면에 더 가깝지만, 리핑 문제와 진위와 허위의 대결이 해결될 수 있다면 학문적 가치가 있을 것”이라고 Lv Qiang은 또한 텍스트 및 비디오와 같은 다중 모드 정보가 음성 위조 탐지에 도움이 될 것이라고 말했습니다. , 대형 모델과 다중 양식이 음성 위조 탐지의 중요한 개발 방향이 될 것입니다.

위조 기술과 위조 탐지 기술의 '경쟁', 그리고 이 둘의 발전이 나선형으로 진행되고 있습니다. Chen Lei는 대규모 음성 모델에 대한 연구가 학문적 문제를 해결한 후에는 응용 문제를 추상화하고 구체화하여 특정 비즈니스 시나리오의 실제 요구 사항을 해결하도록 설계해야 한다고 말했습니다. 위조 방지 기술을 개발하려면 학제 간 협력이 필요합니다. 현재의 위조 방지 기술은 주로 소프트웨어 알고리즘을 기반으로 하며, 향후에는 하드웨어 추적성 사운드 수집을 통해 위조를 방지하고 제어할 수 있습니다. 하드웨어 수준의 음성 위험.

"위조 탐지에는 종점이 없습니다. 생성 경로가 끝나지 않는 한 위조 탐지는 계속해서 줄어들 것입니다." Chen Lei는 경기가 끝난 후 Xinye Technology가 더 넓은 학문을 위해 오픈 소스 데이터를 사용할 것이라고 말했습니다. 참가자의 자료를 조사하고 둔감하게 합니다. 게시물 공유 학습. 동시에 비즈니스 시나리오의 최첨단 모델 아이디어를 흡수하고 AIGC 위조 플랫폼을 구축합니다. 그는 생성적 AI가 거버넌스 규칙을 준수해야 한다고 믿습니다. 인공지능 거버넌스는 이를 표준화하고 안내하기 위해 규제 기관의 최고 수준 설계가 필요합니다. 그는 또한 시스템적 위험을 방지하기 위해 생태학적 공동 구축과 산업 공동 창조를 요구합니다.