2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
소라 출시 이후 AI 영상 생성 분야는 더욱 '바빠졌다'. 지난 몇 달 동안 우리는 Jimeng, Runway Gen-3, Luma AI 및 Kuaishou Keling이 차례로 폭발하는 것을 목격했습니다.
모델이 AI에 의해 생성된 것임을 한눈에 알 수 있었던 과거와 달리, 이번 대규모 비디오 모델 배치는 우리가 본 것 중 "최고"일 수 있습니다.
그러나 비디오 LLM(대형 언어 모델)의 놀라운 성능은 매우 높은 비용이 필요한 크고 세밀하게 주석이 달린 비디오 데이터 세트와 분리될 수 없습니다. 최근 연구 분야에서는 추가 훈련이 필요하지 않은 혁신적인 방법이 많이 등장했습니다. 훈련된 이미지 대형 언어 모델을 사용하여 비디오 작업을 직접 처리함으로써 "비용이 많이 드는" 훈련 과정을 우회하는 것입니다.
또한 대부분의 기존 비디오 LLM에는 두 가지 주요 단점이 있습니다. (1) 제한된 수의 프레임으로 비디오 입력만 처리할 수 있으므로 모델이 비디오의 미묘한 공간적 및 시간적 콘텐츠를 캡처하기 어렵습니다(2). ) 시간적 모델링 설계가 부족하지만 LLM의 모션 모델링 기능에 전적으로 의존하여 비디오 기능을 LLM에 입력하기만 하면 됩니다.
위의 문제에 대한 대응으로,Apple 연구원들은 SlowFast-LLaVA(줄여서 SF-LLaVA)를 제안했습니다. 이 모델은 Byte 팀이 개발한 LLaVA-NeXT 아키텍처를 기반으로 하며 추가적인 미세 조정이 필요하지 않으며 즉시 사용할 수 있습니다.. 동작 인식 분야의 성공적인 2스트림 네트워크에서 영감을 받아 연구팀은 비디오 LLM을 위한 새로운 SlowFast 입력 메커니즘을 설계했습니다.
간단히 말해 SF-LLaVA는 두 가지 다른 보기 속도(느림 및 빠름)를 통해 비디오의 세부 사항과 동작을 이해합니다.
느린 경로: 가능한 많은 공간 세부 정보를 유지하면서 낮은 프레임 속도로 특징을 추출합니다(예: 8프레임마다 24×24 토큰 유지).
빠른 경로: 높은 프레임 속도로 실행되지만 더 큰 공간 풀링 단계로 비디오 해상도를 줄여 더 큰 시간적 맥락을 시뮬레이션하고 동작의 일관성을 이해하는 데 더 집중합니다.
이는 두 개의 "눈"을 가진 모델과 동일합니다. 하나는 천천히 보고 세부 사항에 주의를 기울입니다. 다른 하나는 빠르게 보고 움직임에 주의를 기울입니다. 이는 대부분의 기존 비디오 LLM의 문제점을 해결하고 상세한 공간 의미와 더 긴 시간적 맥락을 모두 캡처할 수 있습니다.
논문 링크: https://arxiv.org/pdf/2407.15841
실험 결과에 따르면 SF-LLaVA는 모든 벤치마크 테스트에서 상당한 이점을 통해 기존의 훈련 없는 방법을 능가하는 것으로 나타났습니다. 신중하게 미세 조정된 SFT 모델과 비교하여 SF-LLaVA는 동일하거나 더 나은 성능을 달성할 수 있습니다.
모델 아키텍처
아래 그림에서 볼 수 있듯이 SF-LLaVA는 교육이 필요 없는 표준 비디오 LLM 프로세스를 따릅니다. 비디오 V와 질문 Q를 입력으로 사용하고 해당 답변 A를 출력합니다.
입력의 경우 I = {I_1, I_2, ..., I_N}인 모든 크기와 길이의 각 비디오에서 N 프레임이 균일하게 샘플링되며 선택한 비디오 프레임의 특별한 조합이나 배열이 필요하지 않습니다. 프레임 단위로 독립적으로 추출된 주파수 특징은 F_v ∈ R^N×H×W이며, 여기서 H와 W는 각각 프레임 특징의 높이와 너비이다.
실험 결과
연구팀은 SF-LLaVA의 포괄적인 성능 평가를 수행하여 여러 비디오 질문 답변 작업에서 현재 SOTA 교육이 필요 없는 모델(예: IG-VLM 및 LLoVi)과 비교했습니다. 또한 이를 비디오 데이터 세트에 대해 SFT(감독 미세 조정)된 VideoLLaVA 및 PLLaVA와 같은 비디오 LLM과 비교했습니다.
동영상 Q&A 열기
아래 표에서 볼 수 있듯이 개방형 비디오 질문 답변 작업에서 SF-LLaVA는 모든 벤치마크에서 기존의 훈련 없는 방법보다 더 나은 성능을 발휘했습니다. 구체적으로 매개변수 크기가 각각 7B 및 34B인 LLM을 장착한 경우 SF-LLaVA는 MSRVTT-QA에서 IGVLM보다 2.1% 및 5.0% 더 높고, TGIF-QA에서 5.7% 및 1.5% 더 높으며, TGIF-QA에서 5.7% 및 1.5% 더 높습니다. ActivityNet은 -2.0%, QA에서는 0.8% 더 높습니다.
미세 조정된 SFT 방법과 비교해도 SF-LLaVA는 대부분의 벤치마크에서 비슷한 성능을 보여 주지만 ActivityNet-QA 벤치마크에서만 PLLaVA 및 LLaVA-NeXT-VideoDPO가 약간 더 좋습니다.
객관식 동영상 Q&A
아래 표에서 볼 수 있듯이 SF-LLaVA는 모든 벤치마크에서 객관식 비디오 질문 답변에 대한 훈련이 필요 없는 다른 방법보다 성능이 뛰어납니다. 복잡한 장기 추론이 필요한 EgoSchema 데이터 세트에서 SF-LLaVA7B와 34B 버전은 IG-VLM 모델에 비해 각각 11.4%, 2.2% 높은 점수를 기록했습니다.
VideoTree가 벤치마크 테스트에서 선두를 달리고 있지만 GPT-4 기반의 독점 모델이기 때문에 오픈 소스 LLM보다 성능이 훨씬 높습니다. SFT 방법과 비교하여 SF-LLaVA 34B 모델은 EgoSchema에서도 더 나은 결과를 얻었으며, 이는 긴 비디오를 처리하는 SlowFast 디자인의 강력한 능력을 확인시켜 줍니다.
텍스트 생성
빈센트 비디오
표 3에서 볼 수 있듯이 SF-LLaVA는 텍스트 생성 비디오 작업에 대한 몇 가지 장점도 보여줍니다. SF-LLaVA-34B는 전체 성능에서 모든 훈련이 필요 없는 벤치마크를 능가했습니다. 세부 방향 측면에서는 SF-LLaVA가 LLaVA-NeXT-Image보다 약간 열등합니다. SlowFast 설계를 기반으로 하는 SF-LLaVA는 더 적은 수의 시각적 토큰으로 더 긴 시간적 맥락을 다룰 수 있으므로 시간적 이해 작업에서 특히 뛰어난 성능을 발휘합니다.
또한 SF-LLaVA-34B는 Vincent 비디오 성능 측면에서도 대부분의 SFT 방법보다 성능이 뛰어납니다.
자세한 내용은 원문을 참고하시기 바랍니다.