2024-09-30
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
die im xiao-yang-vorfall aufgedeckte „lu wenqing-aufnahme“ löste aufgrund des ausmaßes des inhalts zunächst einen öffentlichen aufschrei aus, und dann stellte sich heraus, dass alles von ki gefälscht war.
im laufe der zeit ist die ki-technologie erneut in den vordergrund gerückt.
bild/offizielle antwort von yanyu technology
unabhängig davon, ob die technologie gut oder schlecht ist, kann die synthetisierte ki-aufzeichnung im wesentlichen als eine art deepfake verstanden werden, der deep-learning-algorithmen verwendet, um audio und video zu simulieren und zu fälschen, also durch das deep-learning-modell in der technologie der künstlichen intelligenz , stimmen, gesichtsausdrücke und körperbewegungen der menschen werden zu sehr realistischen fake-inhalten zusammengefügt.
aus technischer sicht ist es neutral. ähnliche methoden umfassen neben der sprachsimulation auch die gesichtsveränderung durch ki, die gesichtssynthese, die videogenerierung usw., die zusammenfassend als deep forgery bezeichnet werden.
neutrale technologie kann benutzer jedoch nicht davon abhalten, böse absichten zu verfolgen.
lan mediahui befragte lin hongxiang, gründer und ceo von fengping intelligence, einem führenden inländischen ki-unternehmen für digitale menschen. zu dieser art von vorfällen sagte lin hongxiang offen, dass die verbesserung der produktionseffizienz durch ki umfassend sei, sich jedoch mitten in der expansion befinde sollen verstöße vollständig isoliert werden, sind unter dem gesichtspunkt der „anwendung“ möglicherweise systematische regelungen und eine wirksame umsetzung erforderlich.
nach dem aktuellen technischen stand der branche müssen benutzer nur wenige minuten verstreutes material als ki-lernbeispiele finden, um schnell eine vollständige ki-menschliche stimme zu klonen. einige der sprechpausen, emotionen und intonationen in der aufnahme können mit technischen mitteln hinzugefügt, entfernt und angepasst werden.
wenn es um praktische anwendungen geht, sind die kosten für das kopieren einer reihe menschlicher ki-stimmen „jetzt nicht hoch“. viele anwendungen auf dem markt bieten einige kostenlose zugänge. nehmen wir das modell von reecho als beispiel voice-cloning-dienst, professionellere version erfordert eine zusätzliche gebühr.
ein aus dem internet abgefangener abschnitt der live-übertragung von boss lu wurde in audio umgewandelt und importiert. in nur wenigen sekunden wurde die ki-stimme von boss lu geklont.
dann haben wir eine aufnahme des ursprünglichen vorfalls nachgeahmt, die sehr empörende emotionen und texte enthielt, und sie als skriptimportmodell verwendet, um eine aufnahme zu erstellen, in der lu wenqingrui musk kommentierte, und fertig.
„xiao ma und die anderen sind weg, oder? ich sage ihnen, wer auch immer ich beliebt sein möchte, kann beliebt sein, verstehen sie. ich kenne viele ceos und ich lobe niemanden, den ich lobe. nicht erwähnen für mich funktioniert es nicht, weißt du, es funktioniert nicht, selbst wenn wir trinken, wer ist er ohne drei schafe, wer wird ihm waren verkaufen, verstehst du das? ”
ehrlich gesagt, wenn sie solche betrügerischen ki-anrufe zu oft gehört haben oder empfindlich auf menschliche stimmen reagieren, können sie tatsächlich feststellen, dass sich der ki-ton „maschinenmäßig“ anfühlt – die intonation ist von anfang an zu stabil ende, und es wird niemals so klingen, wenn die leute emotional aufgeregt sind. dies ist jedoch nur das grundlegendste normale versionsmodell und die funktion zum sofortigen klonen. wenn mehr korpus vorhanden ist und die professionelle klonfunktion ausgewählt ist, wird der effekt „realer“ sein.
ist es also möglich, dass von ki synthetisiertes audio und video so intuitiv wie ein lügendetektor ist, um authentizität anhand von daten zu unterscheiden?
auf technischer ebene ist es machbar. lin hongxiang sagte, dass zusätzlich zur autorisierung des benutzers selbst tatsächlich relevante standards in der ki-digital-human-industrie entwickelt werden, die verlangen, dass alle arten von ki-generierten inhalten mit speziellen identifizierbaren „merkmalszeichen“ versehen werden.
mit dieser bezeichnung wird nicht einfach ein „generated by xx ai“-wasserzeichen in der ecke hinzugefügt. am beispiel von ki-synthetiktönen werden zusätzliche geräuschfrequenzbänder außerhalb des frequenzbands menschlicher sprechgeräusche hinzugefügt, sogar innerhalb des bereichs sichtbarer geräusche. fügen sie bestimmte charakteristische frequenzbänder hinzu.
diese charakteristische frequenz kann von der maschine identifiziert werden, wenn eine identifizierung erforderlich ist, kann das gerät diese frequenzbänder extrahieren und theoretisch die echtheit bestimmen.
derzeit sind jedoch nicht viele unternehmen bereit, diese funktion bekannt zu machen. der limitierende faktor sind die kosten für ein einzelnutzungsmodell. die investition ist jedoch für jedes einzelne audio- und videomodell erforderlich in der trainingsphase und die kosten, die bei der entwicklung des audio- und videomodells der nächsten generation nach der schrittweisen ausgabe anfallen, setzen ki-unternehmen in dieser phase immer noch stark unter druck.
derzeit steckt die ki-audio- und videobranche noch in den kinderschuhen. wie man in der werbephase kunden akquiriert und gleichzeitig die kosten deckt, ist für praktiker ein thema, an dem man nicht vorbeikommt.
aber das sind offensichtlich keine dinge, die kriminelle mit bösen absichten in betracht ziehen würden. ob feuerwerk oder bomben, hängt davon ab, wie das schießpulver verwendet wird.
vor mehr als einem halben jahr deckte die hongkonger polizei einen betrugsfall mit einem gesamtbetrag von 200 millionen hk$ auf. in diesem fall erhielten mitarbeiter der hongkonger niederlassung eines multinationalen unternehmens eine mitteilung vom cfo der zentrale, in der es hieß, dass die zentrale eine „geheime transaktion“ plane und unternehmensgelder für später auf mehrere lokale konten in hongkong überweisen müsse verwenden.
anschließend wurden die mitarbeiter zur teilnahme an einer von der zentrale initiierten „mehrpersonen-videokonferenz“ eingeladen, und gemäß den sitzungsanforderungen wurden 200 millionen hk$ 15 mal auf fünf bankkonten überwiesen.
quelle/cctv-nachrichten
tatsächlich handelte es sich bei dieser mehrpersonen-videokonferenz, mit ausnahme der mitarbeiter der filiale, bei den anderen „personen“ um bilder künstlicher intelligenz, die von betrügern mithilfe öffentlicher audio- und videoausschnitte synthetisiert wurden, und nutzten dann die videokonferenz, um gesichter und stimmen zu ändern . das betrugsteam wird direkt zum führungsteam, das das sagen hat.
im fall hongkong sind die kriminellen gleichbedeutend mit der verwendung von ki-gesichtsveränderung + ki-sprachveränderung, um am tatort aufzutauchen. allerdings wurde xiao yangs gefälschte ki-aufnahme dieses mal von einem großen modell vollständig synthetisiert, nachdem er die relevanten audiomaterialien von lu gelernt hatte wenqing von three sheep company, die emotionen kommen dem gesamten ton einer realen person nahe. der prozess ist ganz einfach: ki-synthetisiertes audio und video ist bereits eine ausgereifte technologie, und verwandte produkte haben sich ebenfalls zu einer vollständigen industrie entwickelt.
der mainstream von ki-synthetisiertem audio und video ist jedoch definitiv keine fälschung. in der handlung von the wandering earth teil 2 ließ tu hengyu, gespielt von andy lau, yaya in form eines digitalen lebens wieder auferstehen. außerhalb der handlung erschien auch der verstorbene berühmte filmstar ng meng-tat durch ki auf der leinwand.
wenn es in zukunft zu einem weiteren vorfall wie dem aufzeichnungsvorfall von xiao yang kommt, sollten wir daher zunächst versuchen, die menschen zu kontrollieren, bevor wir diskutieren, ob die technologie schuldig oder unschuldig ist.
kümmere dich um die menschheit und rette die ki.