notícias

Grandes modelos trazem terreno para falsificações profundas, e a indústria exige esforços conjuntos interdisciplinares para combater a falsificação de tecnologia

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·O desenvolvimento da tecnologia de identificação de falsificação requer cooperação interdisciplinar. A atual tecnologia de identificação de falsificação baseia-se principalmente em algoritmos de software e, no futuro, avançará para a integração de software e hardware.


A ascensão de grandes modelos criou as bases para a falsificação profunda e a indústria apelou a esforços conjuntos interdisciplinares para combater a falsificação de tecnologia.

Na era dos grandes modelos, as fronteiras entre a fala sintetizada pela inteligência artificial e a fala real estão a tornar-se cada vez mais confusas, e é urgente melhorar a tecnologia de reconhecimento de correspondência. Em 23 de julho, as finais da 9ª Competição Global de Algoritmos de Inteligência Artificial da Xinye Technology Cup, com o tema detecção profunda de voz e falsificação, foram realizadas em Xangai. A competição incentivou os participantes a usar contramedidas de aprendizagem profunda e inteligência artificial para desenvolver algoritmos que possam. identificar com precisão o modelo de vozes falsas.

Deepfake é um método que usa tecnologia de aprendizado profundo e inteligência artificial para gerar conteúdo falso altamente realista. A ascensão de modelos grandes criou a base para falsificações profundas. Basta digitar uma palavra imediata e o sistema de IA produzirá imagens, vídeos e áudios, tornando difícil distinguir o verdadeiro do falso.

Tomando como exemplo vozes falsas, modelos grandes podem gerar uma variedade de vozes falsas. Essas vozes falsas são mais realistas, antropomórficas e têm conversas suaves, o que traz maiores desafios ao reconhecimento de vozes falsas. "Em alguns cenários de alto valor, muitas vezes ocorrem fraudes de voz geradas por IA. No entanto, o desenvolvimento atual da tecnologia de identificação de voz está atrasado em relação à tecnologia de síntese de fala", disse Chen Lei, vice-presidente de Tecnologia Xinye e chefe de big data e IA.

Nas finais, os competidores usaram diferentes modelos de algoritmos e ideias de treinamento para identificar discursos falsos, incluindo tecnologia de reconhecimento baseada em grandes modelos e tecnologia de reconhecimento tradicional de ponta a ponta. A tecnologia de reconhecimento ponta a ponta possui um número menor de parâmetros e se concentra em problemas mais verticais; o modelo grande possui um número maior de parâmetros, possui requisitos de dados mais elevados e possui forte capacidade de generalização. pelo modelo grande foi significativamente melhorado.

De acordo com Lu Qiang, cientista de algoritmos da Xinye Technology, o conjunto de dados de fala para a competição preliminar consiste principalmente em fala falsa gerada por TTS (texto para fala) tradicional de ponta a ponta, que é menos difícil de identificar. pela primeira vez, o conjunto de dados das semifinais adiciona fala falsa gerada com base no grande modelo mais recente, transcreve vozes falsas e amostras unidas de idiomas reais e falsos, cobrindo mais de cinco idiomas, incluindo inglês, francês, espanhol. , etc., e a dificuldade da competição aumenta. "A adição de vozes falsas geradas por grandes modelos nas semifinais tornou a competição mais difícil, o que também mostra que a capacidade dos grandes modelos mais recentes de 'disfarçar falsificações como reais' tornou-se mais forte, o que requer tecnologia de reconhecimento de deepfake correspondente para continuar."

“Adicionamos deliberadamente alguns novos dados de cena à competição, como a extração de vozes falsas, que são dados gerados após múltiplas gravações de vozes reais. Achamos que se trata de vozes falsas, disse Lu Qiang, para este cenário, a competição usa vozes reais e falsas.” fatiamento e mixagem de fala falsa para construir dados adversários para evitar a escuta artificial da fala e a rotulagem para interferir na competição "Enquanto uma fatia for fala falsa, então a fatia inteira é fala falsa. Isso está mais próximo da cena real, mas. o reconhecimento O desafio é enorme. Se o problema da extração e o confronto entre autenticidade e falsidade puderem ser resolvidos, será de valor acadêmico "Lv Qiang também disse que informações multimodais, como texto e vídeo, ajudarão na detecção de falsificações de fala. , e grandes modelos e multimodalidade serão a chave para a detecção de falsificação de fala, uma importante direção de desenvolvimento.

A tecnologia de falsificação e a tecnologia de detecção de falsificação "correm", e o desenvolvimento das duas está em espiral. Chen Lei disse que a pesquisa sobre grandes modelos de fala deve abstrair e refinar os problemas de aplicação em problemas acadêmicos. Depois de resolver os problemas acadêmicos, eles devem ser projetados para resolver as necessidades reais de cenários de negócios específicos. O desenvolvimento de tecnologia antifalsificação requer cooperação interdisciplinar. A atual tecnologia antifalsificação é baseada principalmente em algoritmos de software. No futuro, ela integrará software e hardware. Com a ajuda da coleta de som de rastreabilidade de hardware, ela poderá prevenir e controlar a falsificação. riscos de voz no nível do hardware.

"Não há ponto final para a detecção de falsificações. Enquanto o caminho generativo não chegar ao fim, a detecção de falsificações continuará a diminuir." pesquisar e dessensibilizar os materiais dos concorrentes. Ao mesmo tempo, absorve ideias de modelos de ponta em cenários de negócios e constrói uma plataforma de falsificação AIGC. Ele acredita que a IA generativa deve cumprir as regras de governação A governação da inteligência artificial exige uma concepção de alto nível por parte dos reguladores para a padronizar e orientar. Ele também apela à co-construção ecológica e à co-criação da indústria para evitar riscos sistémicos.