Νέα

Τα μεγάλα μοντέλα φέρνουν έδαφος για βαθιά παραχάραξη και η βιομηχανία ζητά διεπιστημονικές κοινές προσπάθειες για την αντιμετώπιση της τεχνολογίας απομίμησης

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·Η ανάπτυξη της τεχνολογίας αναγνώρισης παραποίησης/απομίμησης απαιτεί διεπιστημονική συνεργασία Η τρέχουσα τεχνολογία αναγνώρισης παραποίησης/απομίμησης βασίζεται κυρίως σε αλγόριθμους λογισμικού και στο μέλλον θα κινηθεί προς την ενοποίηση λογισμικού και υλικού.


Η άνοδος των μεγάλων μοντέλων έχει δημιουργήσει τα θεμέλια για βαθιά πλαστογραφία και η βιομηχανία ζήτησε από κοινού διεπιστημονικές προσπάθειες για την αντιμετώπιση της τεχνολογίας παραποίησης/απομίμησης.

Στην εποχή των μεγάλων μοντέλων, τα όρια μεταξύ της ομιλίας που συντίθεται με τεχνητή νοημοσύνη και της πραγματικής ομιλίας γίνονται όλο και πιο ασαφή και είναι επείγον να βελτιωθεί η τεχνολογία αναγνώρισης αντιστοίχισης. Στις 23 Ιουλίου, διεξήχθησαν στη Σαγκάη οι τελικοί του 9ου Παγκόσμιου Διαγωνισμού Τεχνητής Νοημοσύνης Xinye Technology Cup, με θέμα Deep Speech Forgery Recognition. ψεύτικες φωνές.

Το Deepfake είναι μια μέθοδος που χρησιμοποιεί τεχνολογία βαθιάς μάθησης και τεχνητής νοημοσύνης για να δημιουργήσει εξαιρετικά ρεαλιστικό ψεύτικο περιεχόμενο. Η άνοδος των μεγάλων μοντέλων έφερε το έδαφος για βαθιά πλαστογραφία. Απλώς εισάγετε μια προτροπή και το σύστημα AI θα παράγει εικόνες, βίντεο και ήχους, καθιστώντας δύσκολη τη διάκριση του αληθινού από το ψευδές.

Λαμβάνοντας ως παράδειγμα τις ψεύτικες φωνές, τα μεγάλα μοντέλα μπορούν να δημιουργήσουν μια ποικιλία από ψεύτικες φωνές. "Σε ορισμένα σενάρια υψηλής αξίας, εμφανίζεται συχνά φωνητική απάτη που δημιουργείται από την τεχνητή νοημοσύνη. Ωστόσο, η τρέχουσα ανάπτυξη της τεχνολογίας αναγνώρισης φωνής υστερεί σε σχέση με την τεχνολογία σύνθεσης ομιλίας", δήλωσε ο Chen Lei, αντιπρόεδρος της Xinye Technology και επικεφαλής των μεγάλων δεδομένων και AI.

Στους τελικούς, οι διαγωνιζόμενοι χρησιμοποίησαν διαφορετικά μοντέλα αλγορίθμων και ιδέες εκπαίδευσης για τον εντοπισμό ψευδούς ομιλίας, συμπεριλαμβανομένης της μεγάλης τεχνολογίας αναγνώρισης βάσει μοντέλου και της παραδοσιακής τεχνολογίας αναγνώρισης από άκρο σε άκρο. Η τεχνολογία αναγνώρισης από άκρο σε άκρο έχει μικρότερο αριθμό παραμέτρων και εστιάζει σε περισσότερα κατακόρυφα προβλήματα, το μεγάλο μοντέλο έχει μεγαλύτερο αριθμό παραμέτρων, έχει υψηλότερες απαιτήσεις δεδομένων και έχει ισχυρή ικανότητα γενίκευσης από το μεγάλο μοντέλο έχει βελτιωθεί σημαντικά.

Σύμφωνα με τον Lu Qiang, έναν επιστήμονα αλγορίθμων στην Xinye Technology, το σύνολο δεδομένων ομιλίας για τον προκαταρκτικό διαγωνισμό αποτελείται κυρίως από ψεύτικη ομιλία που δημιουργείται από παραδοσιακό TTS (κείμενο σε ομιλία), το οποίο είναι λιγότερο δύσκολο να αναγνωριστεί την πρώτη φορά, το σετ δεδομένων των ημιτελικών προσθέτει ψεύτικη ομιλία που δημιουργήθηκε με βάση το πιο πρόσφατο μεγάλο μοντέλο, μεταγράφει ψεύτικες φωνές και δείγματα ενωμένα από πραγματικές και ψεύτικες γλώσσες, καλύπτοντας περισσότερες από πέντε γλώσσες, όπως αγγλικά, γαλλικά, και Ισπανικά, και η δυσκολία του ανταγωνισμού αυξάνεται. «Η προσθήκη ψεύτικων φωνών που δημιουργούνται από μεγάλα μοντέλα στους ημιτελικούς έχει κάνει τον ανταγωνισμό πιο δύσκολο, γεγονός που δείχνει επίσης ότι η ικανότητα των πιο πρόσφατων μεγάλων μοντέλων να «μετακρύπτουν τα ψεύτικα ως αληθινά» έχει γίνει ισχυρότερη, κάτι που απαιτεί αντίστοιχη τεχνολογία αναγνώρισης βαθιάς ψεύτικης να συμβαδίσει».

"Προσθέσαμε σκόπιμα κάποια νέα δεδομένα σκηνής στον διαγωνισμό, όπως η αντιγραφή ψεύτικων φωνών, τα οποία είναι δεδομένα που παράγονται μετά από πολλαπλές ηχογραφήσεις πραγματικών φωνών. Πιστεύουμε ότι πρόκειται για ψεύτικη φωνή, είπε ο Lu Qiang, για αυτό το σενάριο, ο διαγωνισμός χρησιμοποιεί πραγματικές φωνές." τεμαχισμός ψεύτικης ομιλίας και ανάμειξη για τη δημιουργία αντίθετων δεδομένων για την αποφυγή τεχνητής ακρόασης ομιλίας και επισήμανση για παρέμβαση στον ανταγωνισμό "Εφόσον ένα κομμάτι είναι ψεύτικο λόγο, τότε ολόκληρο το κομμάτι είναι ψεύτικο. Αυτό είναι πιο κοντά στην πραγματική σκηνή, αλλά. Η αναγνώριση Η πρόκληση είναι τεράστια , και τα μεγάλα μοντέλα και η πολυτροπικότητα θα είναι το κλειδί για την ανίχνευση πλαστογραφίας ομιλίας.

Η τεχνολογία παραποίησης/απομίμησης και η τεχνολογία αναγνώρισης της παραχάραξης «αγωνίζονται», και η ανάπτυξη των δύο είναι σπειροειδής. Ο Chen Lei είπε ότι η έρευνα για μεγάλα μοντέλα ομιλίας θα πρέπει να αφαιρέσει και να βελτιώσει τα προβλήματα εφαρμογής σε ακαδημαϊκά προβλήματα. Η ανάπτυξη της τεχνολογίας κατά της παραχάραξης απαιτεί διεπιστημονική συνεργασία. Η τρέχουσα τεχνολογία κατά της παραχάραξης βασίζεται κυρίως σε αλγόριθμους λογισμικού φωνητικούς κινδύνους από επίπεδο υλικού.

"Δεν υπάρχει τελικό σημείο για την ανίχνευση παραποίησης/απομίμησης. Όσο ο δρόμος παραγωγής δεν έχει τελειώσει, η ανίχνευση πλαστογραφίας θα συνεχίσει να μειώνεται." ευρύτερη ακαδημαϊκή έρευνα για την απευαισθητοποίηση του υλικού των διαγωνιζομένων. Ταυτόχρονα, απορροφά ιδέες μοντέλων αιχμής σε επιχειρηματικά σενάρια και δημιουργεί μια πλατφόρμα παραποίησης/απομίμησης AIGC. Πιστεύει ότι η τεχνητή νοημοσύνη πρέπει να συμμορφώνεται με τους κανόνες διακυβέρνησης.