인공지능 음성복제 업체가 양 세 마리의 녹음 기술을 이용해 '자살 마케팅'을 했다고?

2024-09-29

양 세 마리 사건은 큰 파문을 불러일으켰는데, 의외로 피해자가 ai인 것으로 드러났다.

허페이 경찰은 전날 밤 '삼양그룹 창립자 루원칭의 녹음 사건'에 대한 공고문을 발행해 널리 유포된 음성은 ai에 의해 생성된 것이며 피의자는 규정에 따라 형사 강압 조치를 받았다고 밝혔다. 법.

결론적으로 이번 공지는 공식적인 입장을 내렸을 뿐만 아니라, 며칠 전 인터넷에 떠도는 '국산 ai 1인자'의 판단을 결국 깎아내린 셈이다. " 당시에는 "ai 음성 복제 기술이 아직 그렇게 매끄럽지 않다"였습니다.

그런데 더욱 놀라운 것은 어제 해당 음성 내용이 피의자가 자체 개발한 ai 더빙 대형 모델을 통해 제작됐다고 ai 업체가 '성명 발표'에 나섰다는 점이다.

네티즌들도 충격을 받았습니다. 그럼에도 불구하고 그들은 ai가 롤의 왕입니까? 성명서에 언급된 회사를 추적해 해당 성명의 웨이보에서 관련 내용을 찾았습니다. 하지만 해당 계정은 공식적으로 인증된 계정이 아니기 때문에 최종 결론을 내릴 수 없습니다.

하지만 이 발언을 두고 네티즌들은 이를 '자살 마케팅'이라고 부르기도 하고, 일부 호기심 많은 누리꾼들은 "이런 걸 써본 사람이 있느냐"고 ai 회사의 음성복제 제품이 정말 강력한지 묻기도 했다. .”

한번 시도해 보세요... 관련 회사 및 제품 이름을 숨긴 상태에서 제품에 대해 몇 가지 실제 테스트를 수행했습니다. 다음 테스트는 대중 과학 목적으로만 사용됩니다. 도구는 사용자가 도구를 사용하는 방식에 달려 있으므로 ai를 사용하여 법의 경계를 테스트하는 사람은 절대 지원하지 않습니다.

동시에 이러한 ai 복제 음성 침해 사건에 대한 선례가 있는지, 신기술을 사용하거나 홍보할 때 창작자와 플랫폼이 주의해야 할 법적 문제는 무엇인지 알아보기 위해 관련 변호사와 상담도 진행했습니다. .

ai가 사람의 목소리를 복제하고,

단 몇 초의 사운드 샘플

텍스트를 입력하고, 역할을 할당하고, 텍스트 문장을 문장별로 자동으로 분할하고, 한 번의 클릭으로 생성합니다.

제품 페이지에 들어간 후 위의 단계를 거쳐 jiang wen이 "let the bullets fly"에서 liu zi의 대사를 읽게 하는 데 1분밖에 걸리지 않았습니다.

아빠, 다 찾아보았으나 돈도 없고 물건도 없고 은도 없습니다. 이제 두 사람만 남았는데, 그들을 죽여야 할까요, 말아야 할까요?

이런 억양과 어조로 인해 liu zi의 역할을 jiang wen이 연기했다고 생각했는지 모르겠습니다. 실제로 liu zi는 영화에서 아들을 연기했고 jiang wen은 liu zi의 아버지 역할을 했습니다.

이 오디오는 제품의 음성 캐릭터 "jiang wen"을 사용하여 생성되었습니다.

현재 이 제품에는 "손샤오촨", "딩젠" 등 인터넷 유명 연예인은 물론 "코비 브라이언트", "주걸음" 등 문화 및 스포츠계 슈퍼스타 등 다양한 성우가 등장합니다. .

이 음성 캐릭터는 모두 커뮤니티 사용자가 업로드한 것입니다. 플랫폼에서 공식 캐릭터를 클릭하면 "곧 출시 예정입니다. 계속 지켜봐 주시기 바랍니다."라는 메시지가 표시됩니다.

커뮤니티 사용자가 업로드한 음성 캐릭터를 사용하는 것 외에도 플랫폼에서 유명인의 음성을 복제하는 것도 쉽습니다.

여기에 ai 머스크가 해외에서 큰 인기를 끌고 있는 칭글리쉬 표현인 "너 백조야, 저 개구리야! (두꺼비가 백조고기를 먹고 싶어한다)"라고 "직접" 말한 머스크의 실제 인터뷰 녹취록을 올렸습니다.

플랫폼에서는 샘플 음성이 2초 이상만 필요하며 길이보다 샘플의 품질이 더 중요하므로 음성 복제를 수행할 때 가장 시간이 많이 걸리는 단계는 musk의 명확한 녹음을 찾는 것입니다.

관계자에 따르면 이번 녹음은 목소리, 감정, 말하는 속도, 억양, 리듬 등 캐릭터의 기본 보컬 퍼포먼스를 정의하는 데 사용될 예정이다. 동일한 캐릭터에 대해 다양한 음성 스타일을 원하는 경우 음성 캐릭터의 다양한 스타일 샘플을 추가할 수도 있습니다.

현재 이 버전에서는 오디오 파일만 업로드했으며 유료 전문 복제 모드 대신 플랫폼의 빠른 복제 모드를 계속 사용하고 있습니다(공식적으로 해당 모드의 음색 및 감성 복원 정도는 99.9%에 달한다고 합니다). 짧은 문장의 성능이 벌써 머스크 본인의 목소리와 6~7점 정도 비슷하네요.

콘텐츠 형태의 관점에서 볼 때 생성적 ai는 텍스트, 오디오, 비디오, 심지어 3d 콘텐츠까지 '침략'했습니다. 그 중에서 오디오는 기술 적용을 위한 보다 성숙한 트랙 중 하나라고 할 수 있습니다.

ai 사운드 복제는 ai 오디오 생성의 하위 부분일 뿐입니다. 다른 응용 프로그램에는 ai 생성 음악 및 ai 생성 사운드 효과가 포함됩니다.

생성 ai가 출현하기 오래 전에 ai 음성 복제가 실제로 존재했습니다. 당시 저는 전통적인 tts(text-to-speech, text-to-speech) 기술을 기반으로 하는 음성을 복제하고 싶었습니다. 이를 위해서는 ai 음성 라이브러리를 구축하고 수많은 인간 음성 표본을 수집해야 했습니다. 나중에는 수동 디버깅을 통해 시뮬레이션해야 했습니다.

또는 bert vits와 같은 오픈 소스 프로젝트를 기반으로 최신 딥 러닝 음성 합성 기술을 사용하여 텍스트를 음성으로 직접 변환하여 음색을 복원할 수 있지만 장비 및 기술 요구 사항이 상대적으로 높습니다.

이미지 출처: 스테이션 b의 up 마스터 “henji weizi”의 gpt-sovits 튜토리얼

요즘 aigc의 물결 속에서 "롤링된" ai 도구는 사운드를 정확하게 재현하는 데 10초 이하의 사운드 샘플만 필요합니다.

앞서 우리는 생방송에서 ai 음성 복제 기술의 원리를 소개했는데, 이는 일반적으로 음성 수집, 특징 추출, 모델 훈련 및 음성 합성과 같은 단계로 구분됩니다. 관련 제품 도구에는 fish audio, cosyvoice, elevenlabs, cutting 등이 있습니다. ., 허용 음성 복제 작업에 대한 임계값이 낮아졌습니다. (관련 생방송 다시보기는 'ai new list' 영상 계정을 팔로우하시거나 아래 이미지의 qr코드를 스캔하시면 보실 수 있습니다)

따라서 '세양 녹음 게이트'를 ai가 제작하는 것은 기술적으로 가능하다. 특히 "주의 깊은 사람들"의 손에서는 ai 생성 외에도 수동 디버깅, 사후 편집 및 기타 방법을 사용하여 가짜 및 실제 효과를 얻을 수도 있습니다.

유포되는 녹음에는 복잡한 환경 소음과 화자의 '술 취한 상태' 설정이 많이 포함되어 있어 녹음의 진위 여부를 식별하기가 훨씬 더 어렵다는 점은 말할 것도 없습니다. 많은 네티즌들이 ai가 단지 '임시 직원' 역할을 하고 모든 것에 저항할 수 있다고 추측하는 것은 놀라운 일이 아닙니다.

실제로 이는 ai 기술의 급속한 반복으로 인해 ai가 무엇을 할 수 있는지, 어느 정도까지 할 수 있는지에 대한 우리 일반인과 최전선 실무자 사이에 정보 격차가 있다는 측면에서도 반영됩니다.

또한, '세양 녹음 대문' 사건은 플랫폼 감독의 부재, 창작자의 부적절한 활용 등 법적 문제도 노출시켰다.

콘텐츠 플랫폼 ai 음성 침해 논의

사실 ai 위조를 통한 오디오 침해 사례는 이번이 처음은 아니다.

올해 4월 베이징 인터넷 법원은 국내 최초로 'ai 음성 침해 사건'을 심리했다.

원고 yin moumou는 더빙 아티스트이며 많은 오디오 작품을 녹음했습니다. 그는 우연히 자신의 목소리가 ai로 변환되어 '매직 사운드 워크숍'이라는 앱에서 판매되고 있다는 사실을 발견했습니다. 법원은 최종적으로 피고가 원고의 허락 없이 원고의 목소리를 사용한 것은 침해에 해당한다고 판결하고, 원고에게 각종 손실에 대해 25만 위안을 배상했다.

중화인민공화국 민법 제1023조에 따르면 자연인의 목소리는 법률의 보호를 받으며, 그 보호방법은 초상권과 유사하다. 이는 ai가 생성한 소리가 식별 가능하고 대중이 특정 자연인과 연관시킬 수 있는 경우 해당 자연인의 허가 없이 소리를 사용하는 것은 침해가 될 수 있음을 의미합니다.

중국 최초의 ai 그림 저작권 소송의 원고이자 베이징 tianyuan 법률 사무소의 파트너인 li yunkai는 "ai new list"에서 다음과 같이 말했습니다.

현재로서는 우리 법률을 개정할 필요가 없습니다. ai 기술은 아직 개발 중이기 때문에 2년 안에 새로운 기술이 반복될 수 있는데, 이에 대한 법률이 제정된다면 약 3~5년 정도 걸릴 것으로 보인다. 법은 실제로 종이 한장이 되었습니다.

현행법은 이미 기본 틀을 마련해 놓고 있는데, 조정이 필요한 것은 이러한 법률을 어떻게 해석하고, 전형적인 사례를 통해 관련 사법적 태도를 어떻게 형성할 것인가이다. 기술이 진정으로 성숙한 경우에만 사법 관행에 확립된 규칙을 명확히 하는 입법을 추진해야 합니다.

사법 실무에서의 침해 사건 외에도 콘텐츠 플랫폼에서의 ai 음성 침해 사건은 더 광범위하고 은밀합니다.

현재 ai 도구의 끊임없는 등장으로 창작의 문턱이 크게 낮아졌으며, aigc는 pgc, ugc에 이어 인기 있는 콘텐츠 제작 방식으로 자리 잡았다.

ai 음성 복제 기술을 활용해 대중음악을 재창조하거나, 애니메이션과 게임 캐릭터가 ai 커버를 하게 하거나, 사망한 유명인의 연설 등을 국내외 콘텐츠 플랫폼에서 하는 것은 매우 흔한 일이다.

진부한 팬 창작에 비해 ai를 2차 창작에 활용하는 것은 더 넓은 개념이다. 팬 작품은 일반적으로 팬 그룹 내의 창작물로 제한되는 반면, 2차 창작물은 일반 ai 기술 애호가로부터 나올 수도 있으며, ai 기술의 축복으로 적응과 혁신을 위한 상상력의 여지가 더 커집니다.

높은 품질과 양을 갖춘 ai 사운드 2세대 작품은 원작 ip나 연예인 본인의 인기를 활용해 팬층에 다가갈 수 있을 뿐만 아니라 순환 고리를 돌파할 수 있는 잠재력도 가지고 있습니다.

물론 콘텐츠 플랫폼은 콘텐츠 혁신을 장려하는 동시에 해당 검토, 라벨링 및 감독 메커니즘도 개선해야 합니다.

2024년 9월 14일, 중국 사이버 공간 관리국은 "인공 지능에 의해 생성된 합성 콘텐츠 라벨링 방법(의견 초안)"을 발표하여 aigc 콘텐츠 라벨 추가에 대한 구체적인 요구 사항을 더욱 명확히 했습니다.

합성된 사람의 목소리, 모방된 음성 등 음성을 생성하거나 개인 신원 특성을 크게 변경하는 편집 서비스를 제공하는 경우 오디오의 시작, 끝 또는 중간에 음성 프롬프트 또는 오디오 리듬 프롬프트 및 기타 기호를 적절한 위치에 추가하거나 추가해야 합니다. 대화형 장면 인터페이스에 눈에 띄는 경고 표시가 있습니다.

예를 들어 ai를 활용해 고인의 목소리와 미소를 따뜻함과 추모로 가장해 '부활'시키는 것도 고인에 대한 무례하고 과도한 소비로 간주된다.

저자 츠키야마 타치바나 이시제

편집자 | 장지에

소식

인공지능 음성복제 업체가 양 세 마리의 녹음 기술을 이용해 '자살 마케팅'을 했다고?

소개

내 연락처 정보