Nachricht

Sehen Sie sich einen 2-stündigen Film in 4 Sekunden an! Alibaba veröffentlicht das universelle multimodale Großmodell mPLUG-Owl3 |

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Nachdem man einen zweistündigen Film in 4 Sekunden gesehen hatte, wurden die neuen Errungenschaften des Alibaba-Teams offiziell enthüllt –

ausrollenUniverselles multimodales Großmodell mPLUG-Owl3, speziell zum Verstehen mehrerer Bilder und langer Videos verwendet.



Konkret wird LLaVA-Next-Interleave als Benchmark verwendet, mPLUG-Owl3Die Latenz des ersten Tokens ist um das Sechsfache geschrumpft, und die Anzahl der Bilder, die von einem einzelnen A100 modelliert werden können, hat sich um das Achtfache erhöht und erreicht400 BilderLaut aktuellem Test können Sie einen 2-stündigen Film in 4 Sekunden ansehen.

Mit anderen Worten: Die Argumentationseffizienz des Modells wurde erheblich verbessert.

UndOhne Einbußen bei der Modellgenauigkeit

mPLUG-Owl3 erreichte auch viele Benchmarks in verschiedenen Szenarien, die an multimodalen großen Modellen beteiligt waren, darunter Einzelbild-, Mehrbild- und Videofelder.SOTA



Der Autor des Artikels stammt ausAlibaba mPLUG-TeamSie waren intensiv an multimodalen großen Modellbasen beteiligt und schlugen zuvor auch Folgendes vor:

  • Effiziente multimodale Basis-mPLUG-Serie
  • Modulare multimodale Modellbasis für große Sprachen mPLUG-Owl-Serie
  • Dokumentverständnisbasis mPLUG-DocOwl-Serie

Werfen wir einen Blick darauf, welche schwarze Technologie diese Version von mPLUG-Owl3 mit sich bringt.

Gameplay freigeschaltet

Das Team demonstrierte mehrere häufige Einsatzmöglichkeiten von mPLUG-Owl3.

Verbesserung des multimodalen Abrufs

Im Allgemeinen ist es üblich, das Wissen, das das Modell nicht gelernt hat, durch das Abrufsystem zu ergänzen. Dies erfordert, dass das Modell das eingehende multimodale Wissen genau versteht und zur Beantwortung von Fragen verwendet.

Im folgenden Beispiel kann mPLUG-Owl3 anhand des abgerufenen Wissens nicht nur richtig antworten, sondern dieses auch weitergebenAuf welcher Erkenntnis basiert das Urteil?und liefern eine detaillierte Beurteilungsgrundlage. Dies ist für das nachgelagerte F&E-Personal für Entwicklung und Fehlerbehebung sehr hilfreich.

Teil durchsuchen: Nachfolgend finden Sie mehrere multimodale Informationen, die Sie zur Entscheidungsfindung abrufen können.

Eine Frage stellen: Können Sie den Hund in Bild 5 anhand Ihrer Beobachtungen der vier Hundefotos oben einordnen? Geben Sie Gründe an.

Antwort: Aufgrund der Beobachtungen der vier Hundefotos kann der Hund in Bild 5 als Irish Terrier klassifiziert werden. Der Hund in Bild 1 wird als Irish Terrier beschrieben und der Hund in Bild 5 hat ähnliche körperliche Merkmale wie der Hund in Bild 1 …



Argumentation mit mehreren Diagrammen

Situationen wie diese kommen im Leben oft vor——

Viele Benutzer unterhalten sich nicht nur über ein Bild, sondern der Benutzer verfügt möglicherweise über mehrere Materialien, und das Modell muss in der Lage sein, die Beziehung zwischen den Inhalten in verschiedenen Materialien richtig zu verstehen.

Im folgenden Beispiel kann mPLUG-Owl3 das gesunde Menschenverstandswissen des Sprachmodells durch das, was es in zwei Bildern sieht, und die Vernunft rund um die beiden Bilder aktivieren.

Eine Frage stellen: Kann das Tier links in der Umgebung rechts überleben? Antworten und Erklärungen sind erforderlich.

Antwort(Die richtige Antwort ist grün markiert): Die allgemeine Idee ist, dass es nicht überleben kann, weil die Umgebung zu kalt ist.



In einem anderen Beispiel kann mPLUG-Owl3 nicht nur den Stilunterschied zwischen zwei Bildern erkennen, sondern auch erkennen, dass die Charaktere in den beiden Bildern zwar unterschiedliche Stile haben, es sich aber tatsächlich um denselben Charakter handelt.

Frage zum ersten Mal: Welche Kunststile sind im Bild dargestellt und wie unterscheiden sie sich?

Antwort: Das erste Bild ist im Pixelstil, das zweite Bild ist im Cartoon-Stil... (Begründe angeben)

zweite Frage: Wer erscheint in beiden Gemälden? Was sind ihre Merkmale?

Antwort: Auf beiden Gemälden erscheint ein Mann mit Cowboyhut, der in zwei verschiedenen Stilen dargestellt wird.



Langes Videoverständnis

Das Ansehen sehr langer Videos ist eine Aufgabe, die die meisten aktuellen Modelle nicht durchgängig bewältigen können. Wenn sie auf dem Agent-Framework basiert, ist es schwierig, die Reaktionsgeschwindigkeit zu garantieren.

mPLUG-Owl3 kann einen 2-stündigen Film ansehen undBeginnen Sie in 4 Sekunden mit der Beantwortung von Benutzerfragen

Unabhängig davon, ob der Benutzer am Anfang, in der Mitte oder am Ende des Films Fragen zu sehr detaillierten Clips stellt, kann mPLUG-Owl3 diese flüssig beantworten.



Wie hast du es gemacht?

Im Gegensatz zu herkömmlichen Modellen bietet mPLUG-Owl3Es ist nicht erforderlich, die visuelle Sequenz vorab in die Textsequenz des Sprachmodells einzubinden

Mit anderen Worten: Unabhängig davon, was eingegeben wird (Dutzende Bilder oder Stunden Video), belegt es nicht die Sequenzkapazität des Sprachmodells, wodurch der enorme Rechenaufwand und die Videospeichernutzung vermieden werden, die durch lange visuelle Sequenzen verursacht werden.

Jemand könnte fragen: Wie werden visuelle Informationen in das Sprachmodell integriert?



Um dies zu erreichen, schlug das Team aLeichtes Hyper-Attention-Modul, das einen vorhandenen Transformer-Block, der nur Text modellieren kann, in ein neues Modul erweitern kann, das sowohl Grafik- als auch Textfunktionsinteraktionen und Textmodellierung durchführen kann.



Durch sparsame Verbreitung im gesamten Sprachmodell4Der Transformatorblock mPLUG-Owl3 kann LLM zu sehr geringen Kosten auf multimodales LLM aufrüsten.

Nachdem die visuellen Merkmale aus dem visuellen Encoder extrahiert wurden, werden die Dimensionen durch eine einfache lineare Zuordnung an die Dimensionen des Sprachmodells angepasst.

Anschließend interagieren die visuellen Funktionen nur mit dem Text in diesen vier Ebenen des Transformer Blocks. Da das visuelle Token keiner Komprimierung unterzogen wurde, können feinkörnige Informationen erhalten bleiben.

Werfen Sie einen Blick untenWie ist Hyper Attention konzipiert?

Damit das Sprachmodell visuelle Merkmale wahrnehmen kann, führt Hyper Attention Folgendes ein:Gegenseitige AufmerksamkeitBei der Operation werden die visuellen Merkmale als Schlüssel und Wert verwendet, und der verborgene Zustand des Sprachmodells wird als Abfrage zum Extrahieren der visuellen Merkmale verwendet.

In den letzten Jahren haben andere Forschungsarbeiten die Verwendung von Cross-Attention für die multimodale Fusion in Betracht gezogen, beispielsweise Flamingo und IDEFICS, aber diese Arbeiten konnten keine gute Leistung erzielen.

In einem technischen Bericht zu mPLUG-Owl3 berichtet das TeamVergleich des Flamingo-Designs, um Hyperaufmerksamkeit näher zu erklärenWichtige technische Punkte



Erstens übernimmt Hyper Attention nicht das Design der Cross-Attention- und Self-Attention-Kaskade, sondern ist in den Self-Attention-Block eingebettet.

Sein Vorteil besteht darin, dass die Anzahl der zusätzlich eingeführten neuen Parameter erheblich reduziert wird, wodurch das Modell einfacher zu trainieren ist und die Trainings- und Inferenzeffizienz weiter verbessert werden kann.

Zweitens: Hyper-Attention-AuswahlLayerNorm für gemeinsame Sprachmodelle, da die von LayerNorm ausgegebene Verteilung die stabile Verteilung ist, die von der Aufmerksamkeitsschicht trainiert wurde. Die gemeinsame Nutzung dieser Schicht ist entscheidend für das stabile Lernen der neu eingeführten Cross-Attention.

Tatsächlich verfolgt Hyper Attention eine parallele Cross-Attention- und Self-Attention-Strategie, indem es eine gemeinsame Abfrage verwendet, um mit visuellen Funktionen zu interagieren, und die beiden Funktionen über ein Adaptive Gate integriert.

Dies ermöglicht es Query, relevante visuelle Merkmale basierend auf seiner eigenen Semantik selektiv auszuwählen.

Team Discovery, Bildrelative Position zum Text im OriginalkontextFür das Modell ist es sehr wichtig, die multimodale Eingabe besser zu verstehen.

Um diese Eigenschaft zu modellieren, führten sie ein multimodales, verschachteltes Rotationspositionskodierungssystem MI-Rope ein, um Positionsinformationen für den visuellen Schlüssel zu modellieren.

Insbesondere haben sie die Positionsinformationen jedes Bildes im Originaltext vorab aufgezeichnet und anhand dieser Position die entsprechende Rope-Einbettung berechnet, und jeder Patch desselben Bildes würde diese Einbettung teilen.

Darüber hinaus machen sie auch Cross-AttentionAufmerksamkeitsmaske wird eingeführt, sodass der Text vor dem Bild im ursprünglichen Kontext die den nachfolgenden Bildern entsprechenden Merkmale nicht erkennen kann.

Zusammenfassend lässt sich sagen, dass diese Designpunkte von Hyper Attention zu weiteren Effizienzsteigerungen bei mPLUG-Owl3 geführt haben und dafür gesorgt haben, dass es weiterhin über erstklassige multimodale Fähigkeiten verfügen kann.



Experimentelle Ergebnisse

Durch die Durchführung von Experimenten mit einer Vielzahl von Datensätzen konnte mPLUG-Owl3Die meisten multimodalen Einzelbild-BenchmarksAlle können SOTA-Ergebnisse erzielen, und viele Tests können sogar Modelle mit größeren Modellgrößen übertreffen.



gleichzeitig,In der MehrbildauswertungmPLUG-Owl3 übertraf auch LLAVA-Next-Interleave und Mantis, die speziell für Mehrbildszenen optimiert sind.



Darüber hinaus verfügt LongVideoBench (52,1 Punkte) über ein spezielles BewertungsmodellLange Videos verstehenEs übertrifft die vorhandenen Modelle auf der Liste.



Das Forschungs- und Entwicklungsteam hat auch einen interessanten Vorschlag gemachtMethode zur Bewertung langer visueller Sequenzen

Wie wir alle wissen, werden in realen Mensch-Computer-Interaktionsszenarien nicht alle Bilder mit multimodalen Inhalten gefüllt, die für das Problem irrelevant sind. Je länger die Sequenz ist, desto schwerwiegender ist dieses Phänomen.

Um die Leistung des Modells bei langen visuellen Sequenzeingaben zu bewertenAnti-Interferenz-Fähigkeit, sie haben eines basierend auf MMBench-dev gebautNeuer Auswertungsdatensatz

Durch die Einführung irrelevanter Bilder für jedes MMBench-Zyklus-Bewertungsbeispiel und die Unterbrechung der Reihenfolge der Bilder werden dann Fragen zu den Originalbildern gestellt, um zu sehen, ob das Modell korrekt und stabil reagieren kann. (Für dieselbe Frage werden vier Stichproben mit unterschiedlicher Reihenfolge der Optionen und Interferenzbilder erstellt, und nur eine richtige Antwort wird aufgezeichnet, wenn alle richtig beantwortet werden.)

Das Experiment ist entsprechend der Anzahl der Eingabebilder in mehrere Ebenen unterteilt.

Es ist ersichtlich, dass Modelle ohne Multi-Graph-Training wie Qwen-VL und mPLUG-Owl2 schnell scheiterten.



LLAVA-Next-Interleave und Mantis, die mit mehreren Bildern trainiert wurden, können zu Beginn eine ähnliche Dämpfungskurve wie mPLUG-Owl3 beibehalten, jedoch mit zunehmender Anzahl von Bildern50Bei dieser Größenordnung können diese Modelle nicht mehr richtig antworten.

Und mPLUG-Owl3 blieb bestehen400 BilderKann immer noch beibehalten werden40 % Genauigkeit

Es gibt jedoch eine Sache zu sagen: Obwohl mPLUG-Owl3 bestehende Modelle übertrifft, erreicht seine Genauigkeit bei weitem nicht ein hervorragendes Niveau. Man kann nur sagen, dass diese Bewertungsmethode die Anti-Interferenz-Fähigkeit aller Modelle bei langen Sequenzen offenbart in Zukunft noch weiter verbessert werden.

Weitere Einzelheiten finden Sie im Dokument und im Code.