소식

AI는 또한 "TikTok을 새로 고칠" 수도 있습니다! 칭화대학교, 짧은 영상 전체 모달 이해를 위한 새로운 모델 공개에 앞장서 |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

Editor: LRST 너무 졸려

[새로운 지혜 소개] 오디오 및 비디오 대형 언어 모델은 비디오 콘텐츠를 처리할 때 음성의 역할을 충분히 활용하지 못하는 경우가 많습니다. video-SALMONN 모델은 오디오 및 비디오 코딩과 시간 정렬, 다중 해상도 인과 Q-Former, 다양성 손실 기능 및 혼합되지 않은 오디오 및 비디오 데이터 교육의 세 부분을 통해 혁신됩니다. 이 모델은 단일 양식 작업에서 잘 수행될 뿐만 아니라 공동 시청각 작업에서도 탁월한 성능을 보여 포괄성과 정확성이 입증되었습니다.

짧은 영상을 이해하려면 시각적인 내용 외에도 영상음악, 음향효과, 음성 내용 등 음성, 오디오 등의 청각적 정보도 짧은 영상을 이해하는 데 핵심적인 역할을 합니다.

AV-LLM(Audio-Visual Large Language Model)은 최근 몇 년 동안 상당한 발전을 이루었지만 비디오에서 인간 언어의 주요 전달자인 음성은 아직 이러한 모델에서 완전히 탐색되지 않았습니다. 음성은 풍부한 언어적, 의미적 정보를 제공할 뿐만 아니라 영상에 담긴 감정과 근본적인 의미를 이해하는 데도 도움이 됩니다.

동시에 음성 신호에는 영상 이해에 없어서는 안 될 요소인 다양한 화자 속성(연령, 성별, 억양, 신원 등)뿐만 아니라 높낮이 및 높낮이와 같은 풍부한 준언어적 정보도 포함되어 있습니다.

그러나 범용 시청각 대형 언어 모델의 음성 기능을 향상시키는 것은 매우 어렵습니다. 시간적으로 미세한 모델링과 거친(예: 비디오 주제) 및 미세한(예: 입술 움직임) 시간 규모 상호 작용 모두에서 다른 양식과의 복잡한 상호 작용이 필요합니다.

최근 ICML 2024에 게재된 논문 "video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models"는 비디오의 모든 오디오 및 비디오 요소(자연 이미지, 텍스트, 음성, 오디오 이벤트, 음악) 모델.


비디오-SALMONN 논문 링크: https://openreview.net/pdf?id=nYsh5GFIqX

SALMONN 논문 링크: https://arxiv.org/abs/2310.13289

Github 페이지:https://github.com/bytedance/SALMONN

다음 예시를 통해 video-SALMONN이 음성-오디오-영상 정보를 통해 영상 콘텐츠를 어떻게 해석하는지 살펴보겠습니다!

먼저 '타이타닉'의 고전 영상입니다.

video-SALMONN이 이 영상이 왜 그렇게 낭만적인지 이야기해 보세요.


질문:

동영상, 오디오, 캐릭터 대화를 결합하여 동영상이 로맨틱한 이유를 설명하세요.

답변:

공개된 영상에는 배를 타고 있는 남자와 여자의 로맨틱한 장면이 담겨 있다. 남자는 여자를 품에 안고 함께 일몰을 바라보았다. 배경음악은 로맨틱한 분위기를 더해주는 곡이다. 여성들은 "나는 날고 있어요", "잭"이라고 말하는데, 이는 그들이 행복하고 그 순간을 즐기고 있음을 나타냅니다. 보트와 일몰을 배경으로 한 아름답고 평화로운 환경은 영상의 로맨틱한 느낌을 더욱 높여줍니다. 남성과 여성의 몸짓과 표정 또한 서로에 대한 사랑과 애정을 전달합니다. 전체적으로 영상은 두 사람의 로맨틱하고 친밀한 순간을 완벽하게 담아냈다.

video-SALMONN은 자신이 본 장면을 묘사하는 것 외에도 자신이 들었던 음악과 등장인물의 대화를 묘사에 통합했습니다.

더욱 놀라운 점은 video-SALMONN도 "나는 날고 있어요"라고 말한 사람이 여자라는 것을 알 수 있다는 것입니다.

게다가 video-SALMONN은 그 남자의 이름이 "Jack"이라는 것도 추론할 수 있습니다.

우리 모두는 이 두 줄의 대화가 이 고전적인 장면을 만들어냈다는 것을 알고 있으며 비디오-SALMONN은 이 장면의 본질을 포착했습니다!

다음은 "Zootopia"의 또 다른 애니메이션 클립입니다.

video-SALMONN이 나무늘보에 대한 재미있는 점을 어떻게 이해하는지 살펴보세요.


질문:

그 장면에는 토끼와 여우, 나무늘보가 등장합니다. 나무늘보는 뭐라고 말했나요? 나무늘보는 왜 흥미로운가요?

답변:

나무늘보는 영상 끝부분에서 "Nick"이라고 말합니다. 나무늘보는 느리게 움직이는 동물이고 영상에서는 매우 게으른 모습을 보여 일을 하는 데 오랜 시간이 걸리기 때문에 재미있습니다. 이는 토끼, 여우 등 다른 동물들의 활동적이고 활발한 성격과 대조되어 나무늘보를 돋보이게 하며 유머를 더해준다. 또한, 영상 속 나무늘보의 슬로우 모션과 표정은 코믹한 효과를 더해준다.

이 예는 소리와 영상의 결합을 통해 나무늘보가 말하는 것을 알 수 없고, 시각만으로는 나무늘보가 무슨 말을 하는지 알 수 없습니다. 조합을 통해 영상을 진정으로 이해할 수 있을까요?

그리고 이 매우 인기 있는 밈은 다음과 같습니다.

video-SALMONN에게 이 영상이 왜 재미있는지 물어보세요:


질문:

이 영상이 왜 재미있는지 설명해주실 수 있나요?

답변:

이 영상은 한 남자가 우스꽝스러운 표정을 짓고 "멋져요"라고 말하는 모습을 보여주기 때문에 재미있습니다. 진지한 표정과 '착하다'는 말의 대비가 유머와 놀라움을 자아낸다. 또한, 남자가 트림을 하는 효과음과 요란한 팝 소리가 영상의 재미를 더해준다.

말을 이해하는 것이 어떻게 도움이 되는지 알아보기 위해 내셔널 지오그래픽 다큐멘터리 클립을 다시 살펴보겠습니다.

비디오-SALMONN 비디오에 나오는 상어가 어떤 종류인지 물어보겠습니다.


질문:

영상에 나온 상어는 어떤 상어인가요?

오디오 입력으로 응답:

영상 속 상어는 고래상어입니다.

오디오 입력 없이 응답:

영상 속 상어는 백상어입니다

영상만 봐도 전문적인 지식 없이는 어떤 상어인지 전혀 알 수 없어 모델이 추측만 할 뿐이라 환각을 일으키기 쉽습니다.


하지만 오디오 설명을 듣고 나면 video-SALMONN은 해당 영상이 고래상어에 관한 것임을 정확하게 알 수 있으므로 추측할 필요가 없습니다.

큰 사람들 사이의 대화를 담은 비디오 클립도 있습니다.

video-SALMONN은 대화 내용을 이해할 뿐만 아니라 화자와 대화 내용을 연결합니다.


질문:

영상과 음성에 따르면 영상 속 피렌체로 날아간 사람은 남자였나요, 아니면 여자였나요?

답변:

피렌체로 날아온 여자였습니다‍‍

이 예는 video-SALMONN의 비디오 음성에 대한 포괄적인 이해를 더욱 보여줍니다.

음성 전사 텍스트를 직접 입력하면 모델이 누가 피렌체로 날아왔는지 알 수 없지만, video-SALMONN은 음성 내용과 화자 정보를 긴밀하게 결합할 수 있습니다.

다음은 실용적인 부분입니다. video-SALMONN이 어떻게 음성-오디오-비디오를 포괄적으로 이해하는지 살펴보겠습니다!

핵심기술


비디오-SALMONN 모델

대규모 오디오 및 비디오 모델의 음성 이해 문제에 직면한 video-SALMONN은 자연스러운 이미지, 시각적 프레임 시퀀스, 음성, 오디오 이벤트 및 음악 요소와 같은 다양한 기본 비디오 요소를 처리할 수 있도록 다음과 같은 세 가지 혁신 부분을 갖추고 있습니다.

1부: 오디오 및 비디오 인코딩과 시간 정렬

video-SALMONN은 Whisper 음성 인코더와 BEATs 오디오 인코더를 사용하여 음성과 오디오의 인코딩 벡터 시퀀스(오디오의 초당 50개 벡터)를 얻고 또한 InstructBLIP 시각적 인코더를 사용하여 비디오 샘플링 속도로 시각적 정보를 얻습니다. 2FPS 인코딩 벡터 시퀀스(비디오 1초당 2프레임, 64개 벡터에 해당).

시간 차원에서는 음성 오디오 시퀀스가 ​​시각적 시퀀스보다 약간 짧기 때문에 비디오 프레임을 기준으로 3개의 시퀀스를 0.5초마다 정렬하고 접합합니다. 짧은 부분.

2부: 다중 해상도 인과 Q-이전

다중 해상도 인과(MRC) Q-Former 구조는 video-SALMONN의 혁신적인 핵심으로, 시간 동기화된 시청각 입력 기능을 여러 다른 시간 규모의 텍스트 표현과 공간적으로 정렬할 뿐만 아니라 다양한 비디오에 의존하는 작업을 만족시킵니다. 요소 요구 사항을 충족하고 연속적인 비디오 프레임 사이의 이벤트의 시간적 인과성을 강화하기 위해 특수 인과 마스크를 갖춘 인과 Self-Attention 구조가 도입되었습니다.


MRC Q-이전 구조

먼저, MRC Q-Former는 입력 시퀀스를 서로 다른 길이의 창으로 나눕니다. 그런 다음 각 창 내에서 Q-Former를 사용하여 접합된 다중 모드 표현을 의미 표현 공간에 매핑합니다. 마지막으로, 각 해상도 레벨에서 각 윈도우 Q-Former가 출력한 벡터는 의미 공간에서 벡터 시퀀스를 형성하기 위해 연결됩니다.

MRC Q-Former는 출력 벡터 수와 창 길이 비율이 일정하도록 보장함으로써 서로 다른 해상도 수준의 출력 시퀀스가 ​​특징 차원에서 직접 접합될 수 있도록 보장합니다. 접합된 벡터는 선형 레이어를 통해 매핑됩니다. 대규모 언어 모델에 대한 입력으로 사용됩니다.

고해상도 Q-Former는 학습을 통해 음성 내용, 음성과 입술 움직임 간의 연결 등 세밀한 정보를 캡처할 수 있으며, 저해상도 Q-Former는 비디오 수준의 정보와 전체 내용을 효과적으로 추출할 수 있습니다. 비디오와 여러 프레임 간의 관계에 대한 더 나은 이해.

(참고: MRC Q-Former 구조는 공간의 다중 해상도에도 적합합니다. 이 논문은 이미지를 입력으로 서로 다른 정밀도의 하위 이미지 시퀀스로 분할할 수 있는 이미지 스포트라이트 방법을 처음으로 제안합니다. 이미지 이해 성능)

3부: 페어링되지 않은 혼합 오디오 및 비디오 데이터에 대한 다양성 손실 함수 및 교육

또한 비디오에서 특정 프레임의 지배를 피하기 위해 video-SALMONN은 모델이 전체 시퀀스의 다른 부분을 탐색하도록 장려하는 교차 엔트로피 기반의 새로운 다양성 손실 기능을 제안하고 사용합니다.

동시에, 쌍을 이루는 오디오 및 비디오 데이터에서 단일 양식의 우세를 방지하기 위해(예를 들어 비디오의 비음성 오디오는 매우 적은 양의 보조 정보만 제공하고 쉽게 무시되는 경우가 많습니다), video-SALMONN unpaired audio와 video를 혼합하는 전략을 사용하여 video-SALMONN이 동시에 두 가지 양식의 정보에 주의를 기울이도록 훈련을 수행합니다.

주요 결과

Video-SALMONN 논문은 테스트를 위한 SAVE(음성-청각-시각 평가) 벤치마크를 제안하고 음성, 비음성 오디오, 이미지 및 비디오 작업에서 뛰어난 성능을 보여줍니다.

SAVE의 테스트 작업에는 음성 인식(ASR), 오디오 설명(AAC), 이미지 설명(IC), 시각적 텍스트 인식(OCR), 그림 질문 및 답변(VQA), 비디오 질문 및 답변(Video QA) 및 기타 시각 및 청각이 포함됩니다. 단일 입력 양식에는 AVSR(시청각 음성 인식), AVQA(오디오 및 비디오 질문 응답), AVSSD(오디오 및 비디오 음원 감지), AVM(오디오 및 비디오 일치), 4개의 오디오 및 비디오 공통 입력도 포함됩니다. 인식 작업.

그 중 AVQA는 새롭게 제안된 테스트 세트이고, AVM은 오디오와 비디오의 일치 여부를 모델이 판단해야 하는 새로 제안된 작업입니다.


우선, video-SALMONN은 단일 모달 입력 작업에서 시각적 또는 청각적 모달 입력만 처리할 수 있는 모델과 동일하거나 더 나은 결과를 얻습니다.

오디오 및 비디오도 처리할 수 있는 대형 모델인 Video-LLaMA와 비교하여 video-SALMONN은 음성 입력을 이해하는 능력을 향상시킬 뿐만 아니라 다양한 단일 모달 작업 성능을 훨씬 능가합니다.


오디오와 비디오의 공동 입력 이해 작업에서 video-SALMONN은 다른 모델보다 훨씬 뛰어난 성능을 보여주었습니다.


음성을 이해하는 능력 덕분에 video-SALMONN은 AVQA에서 유사한 대형 모델 Video-LLaMA를 훨씬 능가합니다.

더 중요한 것은 video-SALMONN이 완전히 훈련되지 않은 두 가지 작업인 AVM 및 AVSSD에 대한 공동 음성-청각-시각 추론을 위한 뛰어난 제로 샘플 출현 기능을 보여줍니다.


이러한 공동 추론 기능이 출현하려면 모델이 입력된 시각 정보와 청각 정보에 동시에 동등한 주의를 기울이고 청각과 시각 사이의 복잡한 연결을 이해할 수 있어야 합니다.


그러나 기존 오픈 소스 모델은 오디오를 완전히 이해할 수 없거나 각 단일 입력 양식을 별도로 설명할 수만 있습니다.

결론

video-SALMONN의 출시는 비디오 이해 기술의 포괄성과 정확성을 향상시키고 비디오 콘텐츠 분석, 감정 인식, 다중 모드 상호 작용 및 기타 분야에 새로운 기회를 제공하는 데 도움이 될 것입니다.


이 모델은 학술 연구에서 큰 의미를 가질 뿐만 아니라 실제 적용을 위한 강력한 기술 지원을 제공합니다.

참고자료:

https://openreview.net/pdf?id=nYsh5GFIqX