Nachricht

Große Modelle bieten den Boden für tiefgreifende Fälschungen, und die Branche fordert interdisziplinäre gemeinsame Anstrengungen zur Bekämpfung von Fälschungstechnologie

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·Die Entwicklung der Technologie zur Identifizierung von Fälschungen erfordert eine interdisziplinäre Zusammenarbeit. Die aktuelle Technologie zur Identifizierung von Fälschungen basiert hauptsächlich auf Softwarealgorithmen und wird in Zukunft in Richtung der Integration von Software und Hardware gehen.


Der Aufstieg großer Modelle hat den Grundstein für Deep Fake gelegt, und die Branche hat interdisziplinäre gemeinsame Anstrengungen zur Bekämpfung von Fälschungstechnologie gefordert.

Im Zeitalter großer Modelle verschwimmen die Grenzen zwischen durch künstliche Intelligenz synthetisierter Sprache und realer Sprache zunehmend und es ist dringend erforderlich, die Matching-Erkennungstechnologie zu verbessern. Am 23. Juli fand in Shanghai das Finale des 9. Xinye Technology Cup Global Artificial Intelligence Algorithm Competition mit dem Thema „Deep Speech Forgery Recognition“ statt. Die Teilnehmer wurden ermutigt, Deep Learning und Gegenmaßnahmen der künstlichen Intelligenz zu nutzen, um Algorithmen zu entwickeln, die eine genaue Identifizierung ermöglichen falsche Stimmen.

Deepfake ist eine Methode, die Deep-Learning- und künstliche Intelligenz-Technologie nutzt, um äußerst realistische gefälschte Inhalte zu generieren. Der Aufstieg großer Modelle hat den Boden für tiefe Fälschungen bereitet. Geben Sie einfach ein schnelles Wort ein, und das KI-System gibt Bilder, Videos und Audios aus, was es schwierig macht, zwischen wahr und falsch zu unterscheiden.

Am Beispiel falscher Stimmen können große Modelle eine Vielzahl falscher Stimmen erzeugen. Diese falschen Stimmen sind realistischer, anthropomorpher und führen zu reibungslosen Gesprächen, was die Erkennung falscher Stimmen vor größere Herausforderungen stellt. „In einigen hochwertigen Szenarien kommt es häufig zu KI-generiertem Sprachbetrug. Die aktuelle Entwicklung der Sprachidentifizierungstechnologie hinkt jedoch der Sprachsynthesetechnologie hinterher“, sagte Chen Lei, Vizepräsident von Xinye Technology und Leiter von Big Data und KI.

Im Finale verwendeten die Teilnehmer verschiedene Algorithmusmodelle und Trainingsideen, um falsche Sprache zu identifizieren, darunter großmodellbasierte Erkennungstechnologie und traditionelle End-to-End-Erkennungstechnologie. Die End-to-End-Erkennungstechnologie verfügt über eine geringere Anzahl von Parametern und konzentriert sich auf mehr vertikale Probleme. Das große Modell verfügt über eine größere Anzahl von Parametern, höhere Datenanforderungen und eine starke Generalisierungsfähigkeit durch das große Modell wurde deutlich verbessert.

Laut Lu Qiang, einem Algorithmenwissenschaftler bei Xinye Technology, besteht der Sprachdatensatz für den Vorrundenwettbewerb hauptsächlich aus gefälschter Sprache, die durch traditionelles End-to-End-TTS (Text-to-Speech) generiert wird und weniger schwer zu identifizieren ist Zum ersten Mal fügt der Halbfinal-Datensatz gefälschte Sprache hinzu, die auf der Grundlage des neuesten großen Modells generiert wurde, und transkribiert gefälschte Stimmen sowie Samples, die aus echten und gefälschten Sprachen zusammengefügt wurden und mehr als fünf Sprachen wie Englisch, Französisch und Englisch abdecken. und Spanisch, und der Schwierigkeitsgrad des Wettbewerbs steigt. „Die Hinzufügung gefälschter Stimmen großer Models im Halbfinale hat den Wettbewerb schwieriger gemacht, was auch zeigt, dass die Fähigkeit der neuesten großen Models, ‚Fälschungen als echt zu tarnen‘, stärker geworden ist, was eine entsprechende Deepfake-Erkennungstechnologie erfordert.“ aufbewahren."

„Wir haben dem Wettbewerb bewusst einige neue Szenendaten hinzugefügt, wie z. B. das Rippen gefälschter Stimmen, bei denen es sich um Daten handelt, die nach mehreren Aufnahmen echter Stimmen generiert wurden. Wir glauben, dass es sich dabei um gefälschte Stimmen handelt, die der Wettbewerb für dieses Szenario verwendet.“ „Fake-Speech-Slice und -Mischung, um gegnerische Daten zu konstruieren, um künstliches Abhören von Sprache und Etikettierung zu vermeiden, um die Konkurrenz zu stören.“ „Die Herausforderung ist riesig.“ Große Modelle und Multimodalität werden der Schlüssel zur Erkennung von Sprachfälschungen sein.

Fälschungstechnologie und Fälschungsidentifikationstechnologie bilden einen „Wettlauf“, und die Entwicklung beider schreitet rasant voran. Chen Lei sagte, dass die Forschung zu großen Sprachmodellen Anwendungsprobleme abstrahieren und zu akademischen Problemen verfeinern sollte. Nach der Lösung der akademischen Probleme sollten sie so gestaltet werden, dass sie die tatsächlichen Anforderungen spezifischer Geschäftsszenarien lösen. Die Entwicklung der Anti-Fälschungstechnologie erfordert eine interdisziplinäre Zusammenarbeit. Die aktuelle Anti-Fälschungstechnologie basiert in Zukunft hauptsächlich auf Software- und Hardware-Tracking-Sound-Erfassung, um Fälschungen zu verhindern und zu kontrollieren Sprachrisiken auf Hardwareebene.

„Es gibt keinen Endpunkt für die Fälschungserkennung. Solange der generative Weg nicht zu Ende ist, wird die Fälschungserkennung weiter zurückgehen.“ umfassendere akademische Forschung, um die Materialien der Teilnehmer zu desensibilisieren. Gleichzeitig werden innovative Modellideen in Geschäftsszenarien integriert und eine AIGC-Fälschungsplattform aufgebaut. Er ist davon überzeugt, dass die generative KI den Governance-Regeln entsprechen muss, um von den Regulierungsbehörden ein Design auf höchster Ebene zu gewährleisten. Er fordert außerdem eine ökologische Co-Konstruktion und eine Mitgestaltung der Industrie, um systemische Risiken zu verhindern.