Die Tsinghua-Universität übernimmt die Führung bei der Veröffentlichung der multimodalen Bewertung MultiTrust: Wie zuverlässig ist GPT-4?

2024-07-24

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Diese Arbeit wurde vom Innovationsteam für Grundlagentheorie unter der Leitung von Professor Zhu Jun von der Tsinghua-Universität initiiert. Das Team beschäftigt sich seit langem mit den aktuellen Engpassproblemen in der Entwicklung künstlicher Intelligenz, erforscht ursprüngliche Theorien und Schlüsseltechnologien der künstlichen Intelligenz und ist international führend in der Forschung zu kontradiktorischen Sicherheitstheorien und Methoden intelligenter Algorithmen. Es wurden auch eingehende Untersuchungen zur kontradiktorischen Robustheit und Wirksamkeit von Deep Learning durchgeführt. Grundlegende häufige Probleme wie die Effizienz der Datennutzung. Relevante Arbeiten gewannen den ersten Preis des Wu Wenjun Artificial Intelligence Natural Science Award, veröffentlichten mehr als 100 CCF-Klasse-A-Artikel und entwickelten die Open-Source-Plattform für Gegenangriffsangriffe und Verteidigungsalgorithmen ARES (https://github.com/thu-ml/ares). , und realisierte einige patentierte Produkte. Wandeln Sie Lernen und Forschung in praktische Anwendungen um.

Die durch GPT-4o repräsentierten multimodalen Large Language Models (MLLMs) haben aufgrund ihrer hervorragenden Leistung in mehreren Modalitäten wie Sprache und Bildern große Aufmerksamkeit erregt. Sie sind nicht nur zu den rechten Assistenten des Anwenders bei der täglichen Arbeit geworden, sondern sind auch nach und nach in wichtige Anwendungsbereiche wie autonomes Fahren und medizinische Diagnose vorgedrungen und haben eine technologische Revolution ausgelöst.

Sind multimodale Großmodelle jedoch sicher und zuverlässig?

Abbildung 1 Beispiel eines gegnerischen Angriffs GPT-4o

Wie in Abbildung 1 dargestellt, identifizierte GPT-4o durch die Änderung der Bildpixel durch gegnerische Angriffe die Merlion-Statue in Singapur fälschlicherweise als Eiffelturm in Paris oder Big Ben in London. Der Inhalt solcher Fehlerziele kann beliebig angepasst werden, auch über die sicheren Grenzen der Modellanwendung hinaus.

Abbildung 2 Beispiel für einen Claude3-Jailbreak

Obwohl Claude im Jailbreak-Angriffsszenario die böswillige Anfrage in Textform erfolgreich ablehnte, gab das Modell falsche Nachrichten entsprechend der Anfrage des Benutzers aus, wenn der Benutzer ein zusätzliches einfarbiges, nicht zusammenhängendes Bild eingab. Das bedeutet, dass große multimodale Modelle mehr Risiken und Herausforderungen bergen als große Sprachmodelle.

Zusätzlich zu diesen beiden Beispielen weisen multimodale große Modelle auch verschiedene Sicherheitsbedrohungen oder soziale Risiken wie Illusionen, Vorurteile und Datenschutzlecks auf, die ihre Zuverlässigkeit und Glaubwürdigkeit in praktischen Anwendungen erheblich beeinträchtigen. Treten diese Sicherheitslücken zufällig auf oder sind sie weit verbreitet? Welche Unterschiede gibt es in der Glaubwürdigkeit verschiedener multimodaler Großmodelle und woher kommen sie?

Kürzlich haben Forscher der Tsinghua-Universität, der Beihang-Universität, der Shanghai Jiao Tong-Universität und Ruilai Intelligence gemeinsam einen hundertseitigen Artikel geschrieben und einen umfassenden Benchmark namens MultiTrust veröffentlicht, der zum ersten Mal die Vertrauenswürdigkeit gängiger multimodaler Großmodelle aus mehreren Ländern umfassend bewertet Dimensionen und Perspektiven, die vielfältige potenzielle Sicherheitsrisiken aufzeigen und die nächste Entwicklung multimodaler Großmodelle inspirieren.

Titel des Papiers: Benchmarking der Vertrauenswürdigkeit multimodaler großer Sprachmodelle: Eine umfassende Studie

Link zum Papier: https://arxiv.org/pdf/2406.07057

Projekthomepage: https://multi-trust.github.io/

Code-Repository: https://github.com/thu-ml/MMTrustEval

MultiTrust Benchmark Framework

Aus der bestehenden Bewertungsarbeit für große Modelle hat MultiTrust fünf Glaubwürdigkeitsbewertungsdimensionen extrahiert (Wahrhaftigkeit, Sicherheit, Robustheit, Fairness und Datenschutz), führt eine Sekundärklassifizierung durch und erstellt zielgerichtet Aufgaben, Indikatoren und Datensätze eine umfassende Auswertung.

Abbildung 4MultiTrust-Framework-Diagramm

MultiTrust konzentriert sich auf 10 vertrauenswürdige Bewertungsunterdimensionen und hat 32 verschiedene Aufgabenszenarien erstellt, die Diskriminierungs- und Generierungsaufgaben abdecken und reine Textaufgaben bis hin zu multimodalen Aufgaben umfassen. Die den Aufgaben entsprechenden Datensätze werden nicht nur auf der Grundlage öffentlicher Text- oder Bilddatensätze transformiert und angepasst, sondern es werden auch einige komplexere und anspruchsvollere Daten durch manuelle Sammlung oder Algorithmussynthese erstellt.

Abbildung 5 MultiTrust-Aufgabenliste

Anders als bei der glaubwürdigen Bewertung großer Sprachmodelle (LLMs) bringen die multimodalen Funktionen von MLLM vielfältigere und komplexere Risikoszenarien und -möglichkeiten mit sich. Um eine systematische Bewertung besser durchführen zu können, geht der MultiTrust-Benchmark nicht nur von der traditionellen Dimension der Verhaltensbewertung aus, sondern führt auch auf innovative Weise die beiden Bewertungsperspektiven des multimodalen Risikos und der modalübergreifenden Auswirkungen ein und deckt so umfassend die neuen Probleme ab, die die neuen Modalitäten mit sich bringen . neue Herausforderung.

Abbildung 6 Risikodiagramm multimodaler Risiken und verkehrsträgerübergreifender Auswirkungen

Insbesondere beziehen sich multimodale Risiken auf neue Risiken, die in multimodalen Szenarien entstehen, wie etwa mögliche falsche Antworten, wenn Modelle visuell irreführende Informationen verarbeiten, und Fehleinschätzungen beim multimodalen Denken im Zusammenhang mit Sicherheitsproblemen. Obwohl das Modell den Alkohol auf dem Bild korrekt identifizieren kann, sind sich einige Modelle darüber hinaus nicht des potenziellen Risikos bewusst, das mit der gemeinsamen Nutzung von Alkohol mit Cephalosporin-Medikamenten verbunden ist.

Abbildung 7 Das Modell macht Fehleinschätzungen bei der Argumentation im Zusammenhang mit Sicherheitsproblemen

Unter modalübergreifender Auswirkung versteht man die Auswirkung des Hinzufügens neuer Modalitäten auf die Glaubwürdigkeit der ursprünglichen Modalität. Beispielsweise kann die Eingabe irrelevanter Bilder das glaubwürdige Verhalten des Backbone-Netzwerks des großen Sprachmodells in Klartextszenen verändern und zu mehr führen Unvorhersehbarkeit Sicherheitsrisiken. Bei Jailbreaking-Angriffen und kontextbezogenen Datenschutzverletzungsaufgaben, die üblicherweise zur Glaubwürdigkeitsbewertung großer Sprachmodelle verwendet werden, kann das ursprüngliche Sicherheitsverhalten zerstört werden, wenn das Modell mit einem Bild versehen wird, das nichts mit dem Text zu tun hat (Abbildung 2).

Ergebnisanalyse und wichtige Schlussfolgerungen

Abbildung 8: In Echtzeit aktualisierte Glaubwürdigkeitsliste (Teil)

Die Forscher führen eine regelmäßig aktualisierte multimodale Glaubwürdigkeitsliste für große Modelle und haben die neuesten Modelle wie GPT-4o und Claude3.5 hinzugefügt. Insgesamt sind geschlossene kommerzielle Modelle sicherer als gängige Open-Source-Modelle. Unter ihnen rangierten GPT-4 von OpenAI und Claude von Anthropic am höchsten in Bezug auf die Glaubwürdigkeit, während Microsoft Phi-3, das Sicherheitsausrichtung hinzufügte, unter den Open-Source-Modellen am höchsten rangierte, aber es gibt immer noch eine gewisse Lücke zum Closed-Source-Modell.

Kommerzielle Modelle wie GPT-4, Claude und Gemini haben viele Verstärkungstechnologien für Sicherheit und Vertrauenswürdigkeit implementiert, es bestehen jedoch immer noch einige Sicherheits- und Vertrauenswürdigkeitsrisiken. Beispielsweise sind sie immer noch anfällig für gegnerische Angriffe, multimodale Jailbreak-Angriffe usw., was die Benutzererfahrung und das Vertrauen erheblich beeinträchtigt.

Abbildung 9 Gemini gibt bei multimodalen Jailbreak-Angriffen riskante Inhalte aus

Obwohl die Ergebnisse vieler Open-Source-Modelle auf allgemeinen Mainstream-Listen GPT-4 entsprechen oder sogar besser sind, weisen diese Modelle in Tests auf Vertrauensebene immer noch Schwächen und Schwachstellen in verschiedenen Aspekten auf. Beispielsweise führt die Betonung allgemeiner Funktionen (z. B. OCR) während der Trainingsphase dazu, dass die Einbettung von Text mit Jailbreak und vertraulichen Informationen in die Bildeingabe zu einer bedrohlicheren Risikoquelle wird.

Basierend auf experimentellen Ergebnissen zu modalübergreifenden Effekten stellten die Autoren fest, dass multimodales Training und Inferenz den sicheren Ausrichtungsmechanismus großer Sprachmodelle schwächen. Viele multimodale große Modelle verwenden ausgerichtete große Sprachmodelle als Backbone-Netzwerk und führen während des multimodalen Trainingsprozesses eine Feinabstimmung durch. Die Ergebnisse zeigen, dass diese Modelle immer noch große Sicherheitslücken und glaubwürdige Risiken aufweisen. Gleichzeitig hat die Einführung von Bildern während der Argumentation bei mehreren reinen Text-Vertrauenswürdigkeitsbewertungsaufgaben auch Auswirkungen und Störungen auf das vertrauenswürdige Verhalten des Modells.

Abbildung 10 Nach der Einführung von Bildern neigt das Modell eher dazu, private Inhalte im Text preiszugeben

Experimentelle Ergebnisse zeigen, dass eine gewisse Korrelation zwischen der Glaubwürdigkeit multimodaler großer Modelle und ihren allgemeinen Fähigkeiten besteht, es jedoch immer noch Unterschiede in der Modellleistung in verschiedenen Dimensionen der Glaubwürdigkeitsbewertung gibt. Derzeit gängige multimodale, große modellbezogene Algorithmen, wie z. B. die Feinabstimmung von Datensätzen, die mit Hilfe von GPT-4V, RLHF für Halluzinationen usw. generiert wurden, reichen nicht aus, um die Glaubwürdigkeit des Modells vollständig zu verbessern. Die vorliegenden Schlussfolgerungen zeigen auch, dass multimodale große Modelle einzigartige Herausforderungen haben, die sich von großen Sprachmodellen unterscheiden, und dass für weitere Verbesserungen innovative und effiziente Algorithmen erforderlich sind.

Detaillierte Ergebnisse und Analysen finden Sie im Papier.

zukünftige Ausrichtung

Die Ergebnisse zeigen, dass die Verbesserung der Glaubwürdigkeit großer multimodaler Modelle besondere Aufmerksamkeit von Forschern erfordert. Durch die Nutzung umfangreicher Sprachmodellausrichtungslösungen, diversifizierter Trainingsdaten und -szenarien sowie Paradigmen wie Retrieval Enhanced Generation (RAG) und Constitutional AI (Constitutional AI) können bis zu einem gewissen Grad Verbesserungen erzielt werden. Die Glaubwürdigkeitsverbesserung multimodaler Großmodelle geht jedoch darüber hinaus. Auch die Abstimmung zwischen den Modalitäten und die Robustheit visueller Encoder sind wichtige Einflussfaktoren. Darüber hinaus ist die Verbesserung der Leistung von Modellen in praktischen Anwendungen durch kontinuierliche Bewertung und Optimierung in dynamischen Umgebungen auch eine wichtige Richtung für die Zukunft.

Zusammen mit der Veröffentlichung des MultiTrust-Benchmarks veröffentlichte das Forschungsteam auch das Toolkit zur Bewertung der Vertrauenswürdigkeit multimodaler großer Modelle MMTrustEval. Seine Modellintegrations- und Bewertungsmodularitätsmerkmale stellen ein wichtiges Werkzeug für die Glaubwürdigkeitsforschung multimodaler großer Modelle dar. Basierend auf dieser Arbeit und diesem Toolkit organisierte das Team einen multimodalen Wettbewerb für sicherheitsrelevante Daten und Algorithmen für große Modelle [1,2], um vertrauenswürdige Forschung an großen Modellen zu fördern. Mit der kontinuierlichen Weiterentwicklung der Technologie werden multimodale Großmodelle in Zukunft ihr Potenzial in mehr Bereichen zeigen, aber die Frage ihrer Glaubwürdigkeit erfordert weiterhin kontinuierliche Aufmerksamkeit und eingehende Forschung.

[1] CCDM2024 Multimodal Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main

[2] Der 3. Pazhou-Algorithmuswettbewerb – Multimodale Sicherheitsverstärkungstechnologie für große Modellalgorithmen https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

Nachricht

Die Tsinghua-Universität übernimmt die Führung bei der Veröffentlichung der multimodalen Bewertung MultiTrust: Wie zuverlässig ist GPT-4?

Einführung

meine Kontaktdaten