ki-fotobewertung sorgt für kontroversen: mickey mouse raucht, trump küsst, spongebob trägt nazi-uniform

2024-09-04

zhidixi (öffentliches konto: zhidxcom)

zusammengestellt |. xu yu

herausgeber |. mo ying

einem bericht des wall street journal vom 2. september zufolge wurden kürzlich auf der social-media-plattform einige scherzhafte und politisch irreführende ki-bilder verbreitet: „mickey hält eine waffe“ usw. der inhalt des bildes führt bei den benutzern zu verwirrung und unbehagen.

diese ki-bilder werden von großen ki-modellen wie grok-2 und gemini generiert. grok-2 wurde von xai entwickelt, dem von musk gegründeten amerikanischen ki-großmodell-einhorn, und gemini stammte vom amerikanischen technologieriesen google.

kürzlich hat google seinen überprüfungsmechanismus für ki-bildgenerierte inhalte verbessert, um ki-ausgaben zu vermeiden, die voreingenommen, mehrdeutig, falsch, rassistisch und im widerspruch zu historischen fakten sind.

als reaktion auf ähnliche probleme hat openai, ein großes amerikanisches ki-modell-einhorn, die verwendung von ki zur generierung eindeutig gerichteter zeichen verboten, um die inhaltsüberprüfung der ki-bildgenerierung zu stärken.

1. das großmodell grok-2 der neuen generation von xai erlaubt stillschweigend, politischen persönlichkeiten streiche zu spielen

öffnen sie die social-media-plattform kamala harris kisses.

diese rätselhaften, unbequemen bilder wurden mit xai und den neuen generativen ki-modellen oder software von google generiert.

▲auf dem mit ki-technologie erstellten bild „umarmt“ trump harris mit einem deutlichen porträt (quelle: „wall street journal“)

am 14. august brachte xai das große sprachmodell grok-2 der nächsten generation auf den markt. wenige tage nach der veröffentlichung des modells wurde die x-plattform mit bildern überschwemmt, die angeblich mit grok-2 erstellt wurden. in diesen szenen sind die „rivalen“ trump und harris intim, während mickey in der märchenwelt eine waffe in der hand hält und raucht. diese mit generativer ki-technologie erstellten bilder schädigen nicht nur das image politischer persönlichkeiten, sondern veranlassen auch urheberrechtlich geschützte charaktere zu beleidigenden handlungen. „wenn disney es sehen würde, würden sie wahrscheinlich nicht lachen.“

das große sprachmodell grok-2 wird von black forest labs, einem deutschen startup zur erstellung von ki-bildern und -videos, betrieben und ist derzeit nur für zahlende abonnenten der x-plattform verfügbar.

gemäß den richtlinien der plattform später am tag der veröffentlichung von grok-2 konnten zwar einige illegale ki-bilder nicht mehr auf der x-plattform abgerufen werden, benutzer konnten grok-2 jedoch weiterhin verwenden, um neue werke voller „schlechtem geschmack“ zu generieren.

allerdings scheint musk, der eigentliche kontrolleur der x-plattform, nichts gegen solche politischen parodien zu haben. im juli twitterte er ein gefälschtes deepfake-video von harris, in dem er sich selbst als „die ultimative diversity-mitarbeiterin“ bezeichnete.

experten für inhaltsmoderation sagten, dass ähnliche generative ki-tools während des us-wahlzyklus falsche informationen generieren und sich sogar in der gesellschaft verbreiten könnten.

am 19. august, einen tag vor der eröffnung des democratic national convention 2024, veröffentlichte trump ein bild, bei dem der verdacht bestand, dass es von ki erzeugt wurde. da der derzeitige us-präsident biden damals nach innerparteilicher abstimmung auf eine wiederwahl verzichtet hatte, hatte sich harris, der protagonist dieses ki-bildes, die nominierung zum demokratischen präsidenten im voraus gesichert.

das bild zeigt die szene, in der „harris eine rede in chicago hält“, mit einer roten fahne mit einem sichel-hammer-muster im hintergrund, was anzudeuten scheint, dass harris kommunist ist, und löste damit politische kontroversen aus.

2. das große gemini-modell von google ist mehrfach gekippt und unterscheidet bei sensiblen elementen nicht zwischen schwarz und weiß.

der gemini-chatbot von google, der auf dem gleichnamigen großen sprachmodell gemini basiert.

bevor google im februar dieses jahres die neue version des gemini-chatbots auf den markt brachte, hat google das gemini-modell debuggt, damit es auf vielfältigere zeichen mit mehrdeutigen attributen reagieren kann, wenn es auf anweisungen zur zeichengenerierung trifft.

wenn beispielsweise bilder von ärzten erstellt werden, tendiert die ki normalerweise dazu, bilder von weißen männern zu liefern. google hofft, durch „diversifizierung“ die „voreingenommenheit“ der ki-bilderzeugungsmodelle zu verringern.

doch innerhalb eines monats machte das gemini-modell einen großen fehler. als dieses modell „rassisch vielfältige“ bilder erzeugte, passte es nicht zu religion, rasse, geschlecht usw., was zu mehreren bildern von menschen führte, die nicht den historischen fakten entsprachen. nachdem google von zahlreichen internetnutzern kritik erhalten hatte, beschloss google, die bildgenerierungsfunktion des gemini-modells auszusetzen und damit die potenziellen risiken der ki-bildgenerierung „plötzlich zu bremsen“.

sissie hsiao, vizepräsidentin von google und leiterin des gemini-chatbots, sagte kürzlich in einem interview, dass die sicherstellung, dass das ki-modell den anweisungen des benutzers gehorcht, ein prinzip ist, an das sich google hält. „dies ist der zwilling des benutzers, und wir dienen dem benutzer.“

dennoch widersprechen einige der mit dem gemini-chatbot generierten bilder immer noch historischen fakten. viele nutzer der x-plattform machten screenshots, in denen sie die inhaltsmoderationsfähigkeiten des google-modells in frage stellten.

in bezug auf das gemini-modell, das anstößige und rassistisch voreingenommene inhalte herausgibt, antwortete sundar pichai, ceo von google, dass „das inakzeptabel ist“ und das unternehmen „dieses problem umfassend angehen“ werde.

allerdings verärgerte google die nutzer zuletzt erneut wegen des laxen inhalts der mithilfe von ki-technologie generierten bilder.

mitte august kam googles neueste smartphone-generation, die pixel-9-serie, auf den markt. die pixel-9-serie führt ein ki-fotobearbeitungstool namens „reimagine“ ein, mit dem benutzer ki aufrufen können, um den inhalt von fotos durch eingabe von textaufforderungen zu ändern.

einige benutzer stellten jedoch fest, dass reimagine es benutzern ermöglicht, einige illegale elemente hinzuzufügen, beispielsweise das „tragen“ von nazi-symbolen für spongebob. diese sicherheitslücke im inhalt löste bei den nutzern abscheu aus.

ein google-sprecher sagte, das unternehmen verstärke und verbessere kontinuierlich die vorhandenen sicherheitsmaßnahmen für ki-modelle.

google gab ende august dieses jahres bekannt, dass sein ki-chatbot gemini die funktion zur charakterbildgenerierung neu starten wird. diese funktion wird zunächst nur für englische nutzer mit kostenpflichtigen abonnements verfügbar sein. gleichzeitig habe google „erhebliche fortschritte“ bei der generierung und überprüfung von ki-bildern gemacht, es sei jedoch „unmöglich, dass jedes von gemini generierte bild korrekt ist“.

3. die ethischen und rechtlichen grenzen ki-generierter bilder müssen als branchenmaßstäbe festgelegt werden

derzeit testet software zur ki-bilderzeugung weiterhin das endergebnis der richtlinien für social-media-plattformen. dieses phänomen hat debatten und überlegungen ausgelöst, etwa ob technologieunternehmen die inhaltsausgabe modernster ki-bilderzeugungssoftware kontrollieren und wie sie prüfen sollten?

bevor die generative ki-technologie den internetnutzern zur kostenlosen erstellung zugänglich gemacht wird, wird die ki-bilderzeugungssoftware mit wirksamen sicherheitsschutzmaßnahmen ausgestattet, um sicherzustellen, dass die durch ki erzeugten werke nicht gegen vorschriften oder ethische grundsätze verstoßen. dies ist der druck, dem technologieunternehmen bei der moderation von ki-inhalten ausgesetzt sind.

neben ethischen dilemmata stehen entwickler hinter ki-modellen und -software auch vielen potenziellen rechtlichen verpflichtungen gegenüber. dies liegt daran, dass die trainingsdaten, die sie beim training von ki-modellen und software verwenden, geistige eigentumsrechte und andere rechte verletzen.

aufgrund angeblicher verstöße reichten künstler im jahr 2023 eine sammelklage gegen die ki-bild-startups stability ai und midjourney ein. die sammelklage richtet sich auch gegen eine reihe von unternehmen mit ki-bildgenerierungsmodellen wie deviantart und runway.

darüber hinaus sieht sich stability ai neben der sammelklage der künstler auch mit einer klage des amerikanischen visuellen medienunternehmens getty images konfrontiert. letzterer warf stability ai vor, seine rechte zum trainieren von modellen verletzt zu haben. als reaktion darauf sagte ein sprecher von getty images, dass das unternehmen nun ein eigenes ki-modell zur bilderzeugung auf den markt gebracht habe.

openai brachte 2022 das ki-bilderzeugungsmodell dall-e auf den markt. nachdem openai letztes jahr eine sammelklage von künstlern erhalten hatte, fügte es der dall-e-modellschnittstelle eine neue option hinzu, die es erstellern ermöglicht, die option zum persönlichen hochladen von bildern zu prüfen, die nicht für das training des dall-e-modells der nächsten generation verwendet werden sollen.

news corp, die muttergesellschaft des wall street journal, hat eine inhaltslizenzvereinbarung mit openai unterzeichnet. dadurch kann openai innerhalb bestimmter grenzen frei auf die vorhandenen medienressourcen von news corp zugreifen und diese sammeln.

„wir werden das irgendwann herausfinden.“ der anwalt für den schutz geistigen eigentums, geoffrey lottenberg, sagte, dass diese art von rechtsstreitigkeiten im zusammenhang mit urheberrechten an geistigem eigentum von ki einen präzedenzfall für die rechtlichen grenzen von ki darstellen könnten. dann verfügen andere ki-unternehmen über einen referenzstandard dafür, welche bilder, videos und anderen daten beim training ihrer modelle und chat-roboter verwendet werden können.

fazit: google und openai korrigieren aktiv fehler, während xai das gegenteil tut.

die fähigkeit von ki-bilderzeugungssoftware, bilder von bestimmten, bekannten persönlichkeiten zu erzeugen, ist einer der hauptkonfliktpunkte in dieser kontroverse um die überprüfung von ki-inhalten.

viele technologieunternehmen, darunter google und openai, haben die verwendung von ki-bilderzeugungssoftware zur erstellung von ki-werken verboten, die bestimmte charaktere enthalten und deren charaktere leicht identifizierbar sind.

aufgrund des beharrens von xai-gründer musk auf meinungsfreiheit entschied sich das große grok-2-modell von xai dafür, die bilderzeugungsfunktion bestimmter personen und rollen beizubehalten. der schritt führte jedoch dazu, dass xai von aufsichtsbehörden der technologiebranche kritisiert wurde.

professorin sarah t. roberts von der university of california, los angeles, widmet sich der forschung zur inhaltsmoderation. sie glaubt, dass benutzer modernste ki-technologie nutzen werden, um videos, töne, fotos usw. zu fälschen und so falsche informationen zu verbreiten.

roberts fügte hinzu, dass alle probleme, die in den traditionellen sozialen medien bestehen, immer noch von der generativen ki angegangen werden müssen und dass diese schwieriger zu erkennen sei. insbesondere visuelle inhalte wie bilder, die mit ki-technologie generiert wurden, sind manchmal überzeugender.

pinar yildirim, professorin an der university of pennsylvania, sagte, dass plattformen versuchen, einige regeln festzulegen, beispielsweise das verbot von schlüsselwörtern, um den missbrauch von ki-technologie zu verhindern. gleichzeitig können benutzer aber auch sicherheitslücken finden und diese regeln umgehen, um an die gewünschten inhalte zu gelangen. „benutzer werden schlauer und können schließlich lücken ausnutzen, um illegale inhalte zu erstellen“, sagte yildirim.

quelle: „wall street journal“

nachricht