μια εταιρεία κλωνοποίησης φωνής ai χρησιμοποίησε την τεχνολογία εγγραφής της three sheep για να συμμετάσχει σε «αυτοκτονικό μάρκετινγκ»;

2024-09-29

το περιστατικό με τα τρία πρόβατα προκάλεσε μεγάλη αναταραχή, αλλά δεν περίμενα ότι το θύμα αποδείχθηκε ότι ήταν ai.

προχθές το βράδυ, η αστυνομία του χεφέι εξέδωσε ανακοίνωση για το «καταγραφή του περιστατικού του lu wenqing, ιδρυτή της ομάδας three sheep», λέγοντας ότι ο ήχος που κυκλοφόρησε ευρέως δημιουργήθηκε από ai και ότι ο ύποπτος είχε υποβληθεί σε ποινικά μέτρα καταναγκασμού. σύμφωνα με το νόμο.

με μια τελευταία λέξη, αυτή η ειδοποίηση όχι μόνο έδωσε επίσημη θέση, αλλά χαστούκισε και τον «πρώτο πρόσωπο στην εγχώρια τεχνητή νοημοσύνη» που φημολογήθηκε στο διαδίκτυο πριν από λίγες μέρες άτομο στην εγχώρια τεχνητή νοημοσύνη» ήταν «η τεχνολογία κλωνοποίησης φωνής ai δεν είναι ακόμα τόσο μεταξένια ομαλή».

αλλά αυτό που είναι ακόμα πιο απροσδόκητο είναι ότι μια εταιρεία τεχνητής νοημοσύνης πετάχτηκε για να "εκδώσει δήλωση" χθες, λέγοντας ότι το ηχητικό περιεχόμενο παρήχθη από τον ύποπτο μέσω ενός μεγάλου μοντέλου μεταγλώττισης ai που αναπτύχθηκε από αυτήν.

οι χρήστες του διαδικτύου ήταν επίσης σοκαρισμένοι, μετά από όλα αυτά, δεν ξέχασαν να διαφημίσουν. ακολουθήσαμε την εταιρεία που αναφέρεται στη δήλωση για να βρούμε την πηγή της δήλωσης και βρήκαμε σχετικό περιεχόμενο σε έναν λογαριασμό weibo με το ίδιο όνομα, ωστόσο, ο λογαριασμός δεν έχει πιστοποιηθεί επίσημα, επομένως δεν μπορούμε να βγάλουμε οριστικό συμπέρασμα.

ωστόσο, η συζήτηση γύρω από αυτή τη δήλωση εξακολουθεί να αυξάνεται την ιστοσελίδα."

απλά δοκιμάστε το... με βάση την απόκρυψη των ονομάτων των σχετικών εταιρειών και προϊόντων, πραγματοποιήσαμε ορισμένες πραγματικές δοκιμές για το προϊόν το εργαλείο έγκειται στον τρόπο με τον οποίο το χρησιμοποιούν οι χρήστες, δεν θα υποστηρίξουμε ποτέ κανέναν που χρησιμοποιεί τεχνητή νοημοσύνη για να δοκιμάσει τα όρια του νόμου.

ταυτόχρονα, συμβουλευτήκαμε επίσης σχετικούς δικηγόρους για να γνωρίζουμε εάν υπάρχουν προηγούμενα για αυτού του είδους τις υποθέσεις παραβίασης φωνής κλωνοποίησης ai και ποια νομικά ζητήματα πρέπει να προσέχουν οι δημιουργοί και οι πλατφόρμες κατά τη χρήση ή την προώθηση νέων τεχνολογιών, για αναφορά σας .

η τεχνητή νοημοσύνη κλωνοποιεί τη φωνή ενός ατόμου,

μόλις λίγα δευτερόλεπτα δείγμα ήχου

εισαγάγετε κείμενο, εκχωρήστε ρόλους, τμηματοποιήστε αυτόματα το κείμενο πρόταση προς πρόταση και δημιουργήστε το με ένα κλικ.

αφού μπήκαμε στη σελίδα του προϊόντος, περάσαμε από τα παραπάνω βήματα και χρειάστηκε μόνο 1 λεπτό για να διαβάσει ο jiang wen τις γραμμές του liu zi στο "let the bullets fly".

μπαμπά, έχω ψάξει τα πάντα, αλλά δεν υπάρχουν χρήματα, ούτε αγαθά, ούτε ασήμι. μόνο δύο άνθρωποι έχουν μείνει ζωντανοί, να τους σκοτώσουμε;

με αυτόν τον ρυθμό και τον τόνο, δεν ξέρω αν πίστευα ότι τον ρόλο του liu zi έπαιξε ο jiang wen στην πραγματικότητα, ο liu zi έπαιξε τον γιο στην ταινία και ο jiang wen έπαιξε το ρόλο του πατέρα του liu zi.

αυτός ο ήχος δημιουργήθηκε χρησιμοποιώντας τον φωνητικό χαρακτήρα "jiang wen" στο προϊόν.

επί του παρόντος, υπάρχουν πολλοί φωνητικοί χαρακτήρες σε αυτό το προϊόν, συμπεριλαμβανομένων γνωστών διασημοτήτων του διαδικτύου όπως ο "sun xiaochuan" και ο "ding zhen", καθώς και σούπερ σταρ στους πολιτιστικούς και αθλητικούς κύκλους όπως ο "kobe bryant" και ο "jay chou" .

αυτοί οι χαρακτήρες φωνής ανεβαίνουν όλοι από χρήστες της κοινότητας κάνοντας κλικ στους επίσημους χαρακτήρες στην πλατφόρμα θα εμφανιστεί η ένδειξη "σύντομα, οπότε μείνετε συντονισμένοι".

εκτός από τη χρήση φωνητικών χαρακτήρων που ανεβαίνουν από χρήστες της κοινότητας, είναι επίσης εύκολο να κλωνοποιήσετε τη φωνή μιας διασημότητας στην πλατφόρμα.

εδώ έχουμε ανεβάσει μια πραγματική ηχογράφηση συνέντευξης του μασκ, στην οποία ο ai μάσκ «προσωπικά» είπε «εσύ κύκνο, αυτός βάτραχος! (ο φρύνος θέλει να φάει το κρέας του κύκνου)», μια φράση στα τσίνγκλις που έχει γίνει δημοφιλής στο εξωτερικό.

η πλατφόρμα απαιτεί η δειγματοληπτική φωνή να είναι μεγαλύτερη από 2 δευτερόλεπτα. η ποιότητα του δείγματος είναι πιο σημαντική από τη διάρκεια, επομένως όταν εκτελείτε κλωνοποίηση φωνής, το πιο χρονοβόρο βήμα είναι να βρείτε την καθαρή εγγραφή του μασκ.

σύμφωνα με αξιωματούχους, αυτή η ηχογράφηση θα χρησιμοποιηθεί για τον καθορισμό της προεπιλεγμένης φωνητικής απόδοσης του χαρακτήρα, συμπεριλαμβανομένης της φωνής, του συναισθήματος, της ταχύτητας ομιλίας, του τονισμού, του ρυθμού κ.λπ. εάν θέλετε διαφορετικά στυλ φωνής για τον ίδιο χαρακτήρα, μπορείτε επίσης να προσθέσετε διαφορετικά δείγματα στυλ του χαρακτήρα φωνής.

προς το παρόν, έχουμε ανεβάσει μόνο ένα ηχητικό κομμάτι σε αυτήν την έκδοση και εξακολουθούμε να χρησιμοποιούμε τη λειτουργία γρήγορης κλωνοποίησης της πλατφόρμας αντί για τη λειτουργία πληρωμένης επαγγελματικής κλωνοποίησης (επίσημα λέγεται ότι ο βαθμός ηχοχρώματος και συναισθηματικής αποκατάστασης της λειτουργίας είναι τόσο υψηλός όσο 99,9%). η απόδοση των σύντομων προτάσεων είναι ήδη 6 με 7 πόντους παρόμοια με τη φωνή του ίδιου του μασκ.

από την άποψη της μορφής περιεχομένου, η γενετική τεχνητή νοημοσύνη έχει «εισβάλει» σε κείμενο, ήχο, βίντεο και ακόμη και σε περιεχόμενο 3d μεταξύ αυτών, ο ήχος μπορεί να ειπωθεί ότι είναι ένα από τα πιο ώριμα κομμάτια για εφαρμογή τεχνολογίας.

η κλωνοποίηση ήχου με τεχνητή νοημοσύνη είναι μόνο μια υποδιαίρεση της παραγωγής ήχου με τεχνητή νοημοσύνη.

πολύ πριν από την εμφάνιση της γενετικής τεχνητής νοημοσύνης, υπήρχε στην πραγματικότητα η κλωνοποίηση φωνής με ai. εκείνη την εποχή, ήθελα να κλωνοποιήσω φωνές, η οποία βασιζόταν στην παραδοσιακή τεχνολογία tts (text-to-speech, text to speech) που απαιτούσε τη δημιουργία μιας φωνητικής βιβλιοθήκης ai και τη συλλογή ενός μεγάλου αριθμού δειγμάτων ανθρώπινης φωνής για τη δημιουργία μιας βάσης δεδομένων. αργότερα, έπρεπε να προσομοιωθεί μέσω χειροκίνητου εντοπισμού σφαλμάτων.

ή με βάση έργα ανοιχτού κώδικα όπως το bert vits, η πιο πρόσφατη τεχνολογία σύνθεσης ομιλίας βαθιάς μάθησης μπορεί να χρησιμοποιηθεί για την άμεση μετατροπή κειμένου σε ομιλία για την αποκατάσταση της χροιάς, αλλά ο εξοπλισμός και οι τεχνικές απαιτήσεις είναι σχετικά υψηλές.

πηγή εικόνας: gpt-sovits tutorial του station b's up master "henji weizi"

σήμερα, κάτω από το κύμα του aigc, τα εργαλεία ai απαιτούν μόνο 10 δευτερόλεπτα ή λιγότερα δείγματα ήχου για την ακριβή αναπαραγωγή του ήχου.

νωρίτερα, εισαγάγαμε την αρχή της τεχνολογίας κλωνοποίησης φωνής ai σε μια ζωντανή μετάδοση, η οποία γενικά χωρίζεται σε βήματα όπως συλλογή φωνής, εξαγωγή χαρακτηριστικών, εκπαίδευση μοντέλων και σύνθεση ομιλίας τα σχετικά εργαλεία προϊόντων περιλαμβάνουν fish audio, cosyvoice, elevenlabs, cutting κ.λπ ., επιτρέποντας το όριο για τις λειτουργίες φωνητικής κλωνοποίησης έχει μειωθεί. (για σχετικές επαναλήψεις ζωντανής μετάδοσης, μπορείτε να ακολουθήσετε τον λογαριασμό βίντεο "ai new list" ή να σαρώσετε τον κωδικό qr της παρακάτω εικόνας για προβολή)

ως εκ τούτου, είναι τεχνικά εφικτό για την «πύλη εγγραφής τριών προβάτων» να παραχθεί από ai. ειδικά στα χέρια των «προσεκτικών ανθρώπων», εκτός από τη δημιουργία τεχνητής νοημοσύνης, μπορεί επίσης να χρησιμοποιηθεί χειροκίνητος εντοπισμός σφαλμάτων, μετα-επεξεργασία και άλλες μέθοδοι για την επίτευξη ψεύτικων και πραγματικών εφέ.

για να μην αναφέρουμε ότι υπάρχουν πολλοί περίπλοκοι περιβαλλοντικοί θόρυβοι και οι ρυθμίσεις "μέθης" του ηχείου στις εγγραφές που κυκλοφορούν, οι οποίες αυξάνουν σημαντικά τη δυσκολία αναγνώρισης της αυθεντικότητας των εγγραφών. δεν αποτελεί έκπληξη το γεγονός ότι πολλοί χρήστες του διαδικτύου θα εικάσουν ότι η τεχνητή νοημοσύνη λειτουργεί μόνο ως «προσωρινός εργαζόμενος» και μπορεί να αντισταθεί σε όλα.

στην πραγματικότητα, αυτό αντικατοπτρίζει επίσης από την πλευρά ότι με την ταχεία επανάληψη της τεχνολογίας ai, υπάρχει ένα χάσμα πληροφοριών μεταξύ των απλών ανθρώπων και των επαγγελματιών πρώτης γραμμής σχετικά με το τι μπορεί να κάνει η τεχνητή νοημοσύνη και σε ποιο βαθμό μπορεί να το κάνει.

επιπλέον, το περιστατικό "three sheep recording gate" εξέθεσε επίσης νομικά ζητήματα όπως η έλλειψη εποπτείας της πλατφόρμας και η ακατάλληλη χρήση από τους δημιουργούς.

συζήτηση για παραβίαση φωνής ai σε πλατφόρμες περιεχομένου

στην πραγματικότητα, αυτή δεν είναι η πρώτη περίπτωση παραβίασης ήχου μέσω πλαστογραφίας ai.

τον απρίλιο του τρέχοντος έτους, το δικαστήριο διαδικτύου του πεκίνου εξέτασε την πρώτη «υπόθεση παραβίασης φωνής ai» της χώρας.

η ενάγουσα yin moumou είναι καλλιτέχνης μεταγλώττισης και έχει ηχογραφήσει πολλά ηχητικά έργα. ανακάλυψε κατά λάθος ότι η φωνή του είχε ενισχυθεί με ai και πωλήθηκε σε μια εφαρμογή που ονομάζεται "magic sound workshop". το δικαστήριο έκρινε τελικά ότι η χρήση της φωνής του ενάγοντα από τον εναγόμενο χωρίς την άδεια του ενάγοντα συνιστούσε παράβαση και αποζημίωσε τον ενάγοντα 250.000 γιουάν για διάφορες απώλειες.

σύμφωνα με το άρθρο 1023 του αστικού κώδικα της λαϊκής δημοκρατίας της κίνας, η φωνή ενός φυσικού προσώπου προστατεύεται από το νόμο και η μέθοδος προστασίας της είναι παρόμοια με το δικαίωμα του πορτρέτου. αυτό σημαίνει ότι εάν ο ήχος που δημιουργείται από την τεχνητή νοημοσύνη είναι αναγνωρίσιμος και μπορεί να συσχετιστεί από το κοινό με ένα συγκεκριμένο φυσικό πρόσωπο, τότε η χρήση του ήχου χωρίς την άδεια αυτού του φυσικού προσώπου μπορεί να συνιστά παράβαση.

ο li yunkai, ο ενάγων στην πρώτη υπόθεση πνευματικών δικαιωμάτων ζωγραφικής τεχνητής νοημοσύνης της κίνας και συνεργάτης στο beijing tianyuan law firm, είπε στη «νέα λίστα ai»:

προς το παρόν, οι νόμοι μας δεν χρειάζονται αναθεώρηση. επειδή η τεχνολογία τεχνητής νοημοσύνης βρίσκεται ακόμη σε διαδικασία ανάπτυξης, οι νέες τεχνολογίες ενδέχεται να επαναληφθούν σε δύο χρόνια, εάν ο νόμος μας πρόκειται να νομοθετήσει για αυτό, η νομοθεσία θα διαρκέσει περίπου 3 έως 5 χρόνια, τότε αυτός ο νόμος είναι στην πραγματικότητα έγινε ένα κομμάτι χαρτί.

οι ισχύοντες νόμοι μας έχουν ήδη προβλέψει το βασικό πλαίσιο. μόνο όταν η τεχνολογία είναι πραγματικά ώριμη θα πρέπει να προωθήσουμε νομοθεσία για την αποσαφήνιση των κανόνων που έχουν θεσπιστεί στη δικαστική πρακτική.

εκτός από τις υποθέσεις παραβίασης στη δικαστική πρακτική, η παραβίαση φωνής ai σε πλατφόρμες περιεχομένου είναι πιο εκτεταμένη και μυστική.

προς το παρόν, η ατελείωτη εμφάνιση εργαλείων ai έχει μειώσει σημαντικά το κατώφλι για δημιουργία και η aigc έχει γίνει μια δημοφιλής μέθοδος παραγωγής περιεχομένου μετά την pgc και την ugc.

είναι πολύ συνηθισμένο να χρησιμοποιείτε τεχνολογία κλωνοποίησης φωνής ai για να δημιουργήσετε εκ νέου δημοφιλή μουσική, να αφήσετε χαρακτήρες anime και παιχνιδιών να εκτελούν διασκευές τεχνητής νοημοσύνης ή να αφήσετε νεκρούς διασημότητες να μιλήσουν κ.λπ. σε εγχώριες και ξένες πλατφόρμες περιεχομένου.

σε σύγκριση με τη δημιουργία κλισέ θαυμαστών, η χρήση τεχνητής νοημοσύνης για δευτερεύουσα δημιουργία είναι μια ευρύτερη έννοια. τα έργα θαυμαστών συνήθως περιορίζονται σε δημιουργίες εντός ομάδων θαυμαστών, ενώ οι δευτερεύουσες δημιουργίες μπορεί να προέρχονται από απλούς λάτρεις της τεχνολογίας ai, και με την ευλογία της τεχνολογίας ai, υπάρχει μεγαλύτερος χώρος για φαντασία για προσαρμογή και καινοτομία.

τα έργα δεύτερης γενιάς ήχου ai με υψηλή ποιότητα και ποσότητα μπορούν όχι μόνο να προσεγγίσουν τη βάση των θαυμαστών αξιοποιώντας τη δημοτικότητα της αρχικής ip ή των ίδιων των διασημοτήτων, αλλά έχουν επίσης τη δυνατότητα να ξεπεράσουν τον κύκλο.

σε γενικές γραμμές, λαμβάνοντας υπόψη την τρέχουσα ποσότητα και επιρροή του περιεχομένου δεύτερης γενιάς και την οικολογία των πλατφορμών περιεχομένου, η προστασία των πνευματικών δικαιωμάτων βασίζεται κυρίως στη συνείδηση των δημιουργών, των κατόχων πνευματικών δικαιωμάτων και της δημόσιας εποπτείας.

εάν το πρωτότυπο έργο και ο κάτοχος των πνευματικών δικαιωμάτων δεν επιδιώξουν αξιώσεις κατά του έργου δεύτερης γενιάς, γενικά δεν θα υπάρχουν νομικά ζητήματα.

οι περισσότερες πλατφόρμες περιεχομένου επιλέγουν επίσης να επιτρέπουν σε αυτά τα περιεχόμενα να αναπτύσσονται ελεύθερα, επιβάλλοντας ταυτόχρονα ορισμένους περιορισμούς. εξάλλου, η υπερβολικά αυστηρή επίβλεψη πνευματικών δικαιωμάτων αναπόφευκτα θα μειώσει τον ενθουσιασμό των δημιουργών και θα εμποδίσει τη διάδοση του περιεχομένου, κάτι που θα είναι επίσης τεράστια απώλεια για τις πλατφόρμες περιεχομένου.

φυσικά, ενώ ενθαρρύνουν την καινοτομία περιεχομένου, οι πλατφόρμες περιεχομένου πρέπει επίσης να βελτιώσουν τους αντίστοιχους μηχανισμούς ελέγχου, επισήμανσης και εποπτείας.

στις 14 σεπτεμβρίου 2024, η διοίκηση κυβερνοχώρου της κίνας κυκλοφόρησε τα "μέτρα για την επισήμανση συνθετικού περιεχομένου που δημιουργείται από τεχνητή νοημοσύνη (σχέδιο για σχόλια)", το οποίο διευκρίνισε περαιτέρω τις ειδικές απαιτήσεις για την προσθήκη ετικετών περιεχομένου aigc.

όσοι παρέχουν υπηρεσίες επεξεργασίας που παράγουν ομιλία, όπως συνθετικές ανθρώπινες φωνές ή μιμούμενες φωνές ή αλλάζουν σημαντικά χαρακτηριστικά προσωπικής ταυτότητας, θα πρέπει να προσθέσουν φωνητικές προτροπές ή προτροπές ρυθμού ήχου και άλλα σημάδια στην αρχή, στο τέλος ή στη μέση του ήχου σε κατάλληλες θέσεις ή να τα προσθέσουν στη διαδραστική διεπαφή σκηνής.

εκτός από το διφορούμενο και δύσκολο να προσδιοριστεί ζήτημα της ιδιοκτησίας των πνευματικών δικαιωμάτων, μια άλλη διαμάχη προέρχεται από ρεαλιστικές ηθικές και ηθικές συγκρούσεις.

για παράδειγμα, η χρήση τεχνητής νοημοσύνης για να «αναστήσει» τις φωνές και τα χαμόγελα των αποθανόντων διασημοτήτων, υπό το πρόσχημα της ζεστασιάς και της ανάμνησης, θεωρείται επίσης ως ασέβεια και υπερβολική κατανάλωση του αποθανόντος.

είτε πρόκειται για τα έργα φωνής τεχνητής νοημοσύνης δεύτερης γενιάς της πλατφόρμας περιεχομένου είτε για το εγκληματικό περιστατικό μεταγλώττισης τεχνητής νοημοσύνης από την three sheep, εξακολουθούν να υπάρχουν πολλά δικαιώματα πνευματικής ιδιοκτησίας, ηθική, απόρρητο δεδομένων, παράνομα και εγκληματικά ζητήματα σχετικά με την τεχνολογία κλωνοποίησης φωνής ai που χρειάζονται περαιτέρω συζητήθηκε.

συγγραφέας |. tsukiyama tachibana ishize

συντάκτης |

νέα

μια εταιρεία κλωνοποίησης φωνής ai χρησιμοποίησε την τεχνολογία εγγραφής της three sheep για να συμμετάσχει σε «αυτοκτονικό μάρκετινγκ»;

εισαγωγή

τα στοιχεία επικοινωνίας μου