안녕하세요

[Paper Review] Meta Movie Gen: A Cast of Media Foundation Models 논문 리뷰 본문

Review

[Paper Review] Meta Movie Gen: A Cast of Media Foundation Models 논문 리뷰

godxxy1229 2024. 10. 5. 03:33

Paper: https://ai.meta.com/static-resource/movie-gen-research-paper
Meta 블로그 포스트: https://ai.meta.com/blog/movie-gen-media-foundation-models-generative-ai-video/

Abstract


 본 연구에서는 Movie Gen이라는 새로운 파운데이션 모델을 제안한다. Movie Gen은 다양한 화면 비율의 고화질(1080p) 영상을 생성하고, 이에 동기화된 오디오를 함께 만들어낸다. 또한 Precise instruction에 기반한 영상 편집사용자 이미지를 활용한 개인화된 영상 생성 등의 추가 기능도 선보인다.

 

 Movie Gen 모델은 텍스트 기반 영상 합성, 영상 개인화(personalization), 영상 편집, 영상 기반 오디오 생성, 텍스트 기반 오디오 생성 등 다양한 태스크에서 최고 성능을 달성했다. 가장 큰 영상 생성 모델은 73K 영 토큰의 최대 컨텍스트 길이로 학습된 300억 개 파라미터의 트랜스포머로, 초당 16프레임의 16초 분량 영상을 생성할 수 있다. 우리는 대규모 미디어 생성 모델 학습을 위해 사전학습 데이터, 모델 크기, 학습 연산량 등을 확장하는 과정에서, 아키텍처와 잠재 공간, 학습 목적과 레시피, 데이터 큐레이션, 평가 프로토콜, 병렬화 기법, 추론 최적화 등 다양한 기술적 혁신과 단순화를 이뤄냈다. 본 논문이 연구 커뮤니티의 미디어 생성 모델 발전과 혁신을 가속화하는 데 도움이 되기를 희망한다.

Introduction


바다를 헤엄치는 푸른색 타조를 상상해보자. 
사람은 그런 허구의 장면을
디테일하게 상상할 수 있는 놀라운 능력을 가지고 있다. 

인간의 상상력에는 세상의 다양한 것들을
조합하고 예측하는 능력이 필요하다. 

단순히 어떤 상황을 상상하는 것조차
동작, 장면, 물리, 기하학, 오디오 등과 같이 

현실적인 속성을 예측하면서
서로 다른 개념들을 조합해야 하는 것이다. 

AI에 이런 생성, 조합, 예측 능력을 부여하는 건
광범위한 응용분야를 가진 핵심 과학적 도전 과제다. 

 

대형 언어 모델(LLM)들이 텍스트 출력 공간에서
이런 능력들을 학습하는 것을 목표로 하지만 

이 논문에서는 이미지, 영상, 오디오와 같은 
미디어를 출력 공간으로 한다. 

 

논문에서 소개하는 Movie Gen은
고화질 이미지, 영상, 오디오를 생성할 수 있고

아래처럼 영상를 편집하고 개인화하는 기능까지 있다!



 

연구에서는 Flow Matching으로 학습한 

간단한 Transformer 기반 모델의 
학습 데이터, 계산(compute), 모델 매개변수(파라미터)를 확장하면 
영상 및 오디오에 대한 고품질 생성 모델이 생성된다는 것을 발견했다. 
모델은 인터넷 수준으로 방대한 
이미지, 영상, 오디오 데이터를 기반으로 사전학습됐다. 

 

가장 큰 텍스트-영상 생성 모델인
Movie Gen Video는 300억 개의 매개변수로 구성되었고, 
가장 큰 영상-오디오 생성 모델인
Movie Gen Audio130억 개의 매개변수로 구성되어 있다.

여기서 Movie Gen Video 모델을 사후학습(post-training)시켜 
개인의 얼굴을 조건으로 개인화된 영상를 생성할 수 있는
Personalized Movie Gen Video를 만들었다.

마지막으로, 영상를 정밀하게 편집할 수 있는
Movie Gen Edit을 생성하기 위한
새로운 사후학습(post-training) 절차를 제시한다.

이런 모델들을 모두 결합하면
최대 16초 길이의 HD 개인 맞춤형 영상(16 FPS)와  
48kHz 오디오를 생성할 수 있고 
영상를 편집할 수 있는 기능도 사용할 수 있다.

Movie Gen 시리즈 기반 모델들은 영상 및 오디오 생성 작업에서 
최첨단 성능(state-of-the-art)을 보여준다.

텍스트-영상 생성에서는
Runway Gen3(RunwayML, 2024),
LumaLabs(LumaLabs, 2024),
OpenAI Sora(OpenAI, 2024)와 같은 상용 시스템을 포함한
이전 최첨단 기술들을 영상 품질 면에서 능가한다.


Table 6 Runway Gen3 LumaLabs OpenAI Sora Kling1.5 σ (표준편차)
전반적 품질
Overall Quality
35.02 60.58 8.23 3.87 ±5.07
일관성
Consistency
33.1 42.14 8.22 13.5 ± 4.08
모션 자연스러움
Motion Naturalness
19.27 29.33 4.43 0.52 ± 3.98
모션 완성도
Motion Completeness
-1.72 23.59 8.86 -10.04 ± 1.68
텍스트 일치도
Text-alignment
10.45 12.23 17.72 -1.99 ± 3.74
현실성
Realness
48.49 61.83 11.62 37.09 ± 2.52
미적 요소
Aesthetics
38.55 48.19 6.45 26.88 ± 4.84

표 6, Movie Gen Video와 기존 작업 비교. 비교는 Movie Gen Video Bench 프롬프트 세트를 사용하여 생성된 영상들로 (Runway Gen3, LumaLabs, Kling1.5), 또는 각 회사 웹페이지에 공개된 영상 프롬프트 (OpenAI Sora)로 이루어졌다. 이전 작업에 대한 자세한 정보는 [표 40]에 요약되어 있다. 순승률(Movie Gen 모델의 승리율 - 패배율)을 측정하며, 이 값의 범위는 [-100%, 100%]이다. 통계적 유의성을 평가하기 위해 주석 분산 분석(부록 C.1)을 수행하였고, 표에서 순승률의 표준 편차(σ)를 제시하였다. 순승률이 2σ 이상일 경우 유의미한 승리/패배(95% 신뢰구간), 1σ~2σ 사이에서는 중간 정도의 승리/패배(68% 신뢰구간), 1σ 이내에서는 성능이 비슷하다고 간주된다.

 

 

표 6의 결과를 살펴보면

Movie Gen 모델의 순승률(net win rate)을 [-100%, 100%] 범위에서 보여준다.

 

전반적 품질 면에서 Movie Gen Video는

Runway Gen3(35.02%)와 LumaLabs를 크게 능가하며 순승률이 2를 초과한다.

OpenAI Sora에 대해서는 중간 정도의 순승률(8.23%)을 기록하며(순승률 1-2 사이),

Kling1.5와는 유사한 성과를 보인다(3.87%).

Runway Gen3, LumaLabs, OpenAI Sora와 비교했을 때,

Movie Gen Video는 모든 품질 세부 항목에서 우수하거나 동등한 성과를 보였으며,

특히 Runway Gen3에 대해 모션 자연스러움(19.27%)과 프레임 일관성(33.1%)에서,

Sora에 대해서는 프레임 일관성(8.22%)과 모션 완성도(8.86%)에서 큰 승률을 보였다.

 

이러한 유의미한 순승률은 Movie Gen Video가 물리법칙을 준수하고

현실적인 동작을 재현하는 영상 생성 능력을 입증한다.

 

Movie Gen Video는 Kling1.5에 비해 프레임 일관성에서 크게 순승률(13.5%)을 기록했으나,

모션 완성도에서는 패배(-10.04%)하였다.

특히 모션 완성도가 높으나 프레임 일관성이 낮은 경우는

Kling1.5가 왜곡된 비정상적으로 큰 모션을 생성하는 경향을 보여준다.

모션 완성도는 영상 내 모션의 크기만을 평가하며

왜곡이나 과도한 속도 또는 비자연스러움은 고려하지 않는다(3.5.1 참고).

 

현실성과 미적 요소에 있어서, Movie Gen Video는

Runway Gen3, LumaLabs, Kling1.5를 두 항목 모두에서 크게 능가하며

각각 48.49%, 61.83%, 37.09%의 순승률을 기록하였다.

OpenAI Sora와 비교했을 때

현실성에서 11.62%의 순승률로 큰 차이를 보였으며,

미적 요소에서는 6.45%의 순승률로

중간 정도의 우위를 보였다(순승률 1-2 사이).

이는 Movie Gen Video가 사실적이고 미적인 콘텐츠를 생성할 수 있음을 보여준다.

 

텍스트 일치도에 있어서 Movie Gen Video는

OpenAI Sora, Runway Gen3, LumaLabs를 능가하며, Kling1.5와는 유사한 성과를 보인다.


 

 

뿐만 아니라
Personalized Movie Gen VideoMovie Gen Edit을 통해
영상 개인화정밀 영상 편집과 같이 새로운 기능을 제공하는데
이 두 가지 기능은 현재 상용 시스템에서는 제공되지 않는다.

 

이 두 작업에서도 표 15, 17를 보면
이전보다 우수한 성능을 보여준다.

 

마지막으로 Movie Gen Audio는 표 29의 사운드 효과 생성,
표 30의 음악 생성, 오디오 확장 등에서
PikaLabs와 ElevenLabs와 같은 상용 시스템을 포함한
이전의 최첨단 기술을 능가한다.