Nachricht

Meta veröffentlicht das visuelle Modell von Sapiens, das es der KI ermöglicht, menschliche Handlungen in Bildern und Videos zu analysieren und zu verstehen

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House berichtete am 24. August, dass Meta Reality Lab kürzlich ein KI-Vision-Modell namens Sapiens auf den Markt gebracht hat, das für vier grundlegende menschenzentrierte Methoden geeignet ist: zweidimensionale Posenschätzung, Körperteilsegmentierung, Tiefenschätzung und Oberflächennormalvorhersage.

Die Anzahl der Parameter in diesen Modellen variiert zwischen 300 Millionen und 2 Milliarden. Sie verwenden eine visuelle Transformatorarchitektur, bei der Aufgaben denselben Encoder verwenden, während jede Aufgabe über einen anderen Decoderkopf verfügt.

2D-Posenschätzung:Bei dieser Aufgabe geht es darum, Schlüsselpunkte des menschlichen Körpers in 2D-Bildern zu erkennen und zu lokalisieren. Diese Schlüsselpunkte entsprechen typischerweise Gelenken wie Ellenbogen, Knien und Schultern und sind hilfreich für das Verständnis der menschlichen Haltung und Bewegung.

Segmentierung von Körperteilen:Diese Aufgabe segmentiert Bilder in verschiedene Körperteile wie Kopf, Rumpf, Arme und Beine. Jedes Pixel im Bild wird als zu einem bestimmten Körperteil gehörend klassifiziert, was für Anwendungen wie virtuelle Anproben und medizinische Bildgebung nützlich ist.

Tiefenschätzung:Die Aufgabe besteht darin, den Abstand jedes Pixels im Bild von der Kamera abzuschätzen und so aus einem zweidimensionalen Bild effektiv ein dreidimensionales Bild zu erzeugen. Dies ist von entscheidender Bedeutung für Anwendungen wie Augmented Reality und autonomes Fahren, bei denen es wichtig ist, die räumliche Anordnung zu verstehen.

Vorhersage der Oberflächennormalen:Die Aufgabe besteht darin, die Ausrichtung von Oberflächen in einem Bild vorherzusagen. Jedem Pixel wird ein Normalenvektor zugewiesen, der die Richtung darstellt, in die die Oberfläche zeigt. Diese Informationen sind wertvoll für die 3D-Rekonstruktion und das Verständnis der Geometrie von Objekten in der Szene.

Laut Meta kann das Modell nativ hochauflösende 1K-Inferenz unterstützen und lässt sich sehr einfach an individuelle Aufgaben anpassen, indem das Modell vorab anhand von mehr als 300 Millionen Bildern wilder Menschen trainiert wird.

Selbst wenn gekennzeichnete Daten knapp oder vollständig synthetisch sind, können die generierten Modelle hervorragende Verallgemeinerungsfähigkeiten für wilde Daten aufweisen.