본문 바로가기
AI 트렌드/생성형 인공지능

[Open AI] 비디오 생성 AI Sora의 놀라운 3가지 특징

by Patrick_WI 2024. 2. 18.
728x90

Open AI가 공개한 충격적인 비디오 생성 인공지능

Sora로 만든 동영상

 
이 영상은 Open AI의 Sora로 만든 영상으로, 한 여자가 도쿄의 거리를 걷고 있는 장면을 묘사한 Prompt만 입력하면 이렇게 생생한 비디오를 생성할 수 있다고 하네요. 지금까지의 비디오 생성 AI와는 차원이 다른 퀄리티로 많은 사람들을 충격에 빠뜨렸는데요, 가장 인상 깊은 특징 3가지를 통해 Sora에 대해 알아보도록 하겠습니다.
 

일관성 유지

우선, 가장 큰 특징은 일관성 유지에요. 아래 세 사진은 Sora의 영상에서 캡처한 사진으로 여성이 간판을 지나가는 모습을 볼 수 있습니다. 간판의 글씨가 여성에 의해 가려지지만, 인물이 지나가고 난 후 다시 등장한 간판의 글씨가 그대로 유지되고 있어요. 이는 Sora가 간판과 여성 객체를 정확하게 인식해서 가려졌던 배경을 다시 복원할 수 있기 때문이에요.

인물로 간판을 가리기 전
인물이 간판을 가리는 순간
인물이 간판을 지나간 이후

 
그렇기 때문에 Sora는 카메라가 이동하고 회전하는 역동적인 영상에서도 3D 일관성을 유지할 수 있어요. 기존의 다른 AI 영상 제작은 객체, 배경이 들쑥날쑥 변하거나 노이즈가 생기는 현상을 최대한 억제하기 위해 카메라가 정면으로 고정된 동영상 위주로 생성했다는 점을 고려하면 이런 Sora의 일관성 유지는 대단하다고 볼 수 있습니다.

3D 일관성 유지를 보여주는 영상 시퀀스
Civit.ai에 (정면 view의 AI 생성 동영상 예시)

 
 

높은 사실감

처음 Sora의 영상을 봤을 때는 "실제로 촬영한 영상이네"라고 생각했어요. 선명한 고화질, 사실적이고 복잡한 배경, 그리고 수면이나 유리창에 비치는 모습 등 그 생생한 표현력이 가짜라고는 믿기지 않았는데요. 아래 영상 캡처 화면을 보시면 바로 이해가 될 거예요. 

고화질의 영상
수면에 비친 모습 표현
창문에 비친 모습 표현

 

다재다능함

심지어 Sora는 굉장히 다재다능하기까지 해요. 앞에서 보여드린 영상처럼 text를 기반으로 video를 생성할 수 있는 것은 물론이며 이미지나 비디오를 인풋하여 자연스러운 영상을 만드는 것 또한 가능합니다. 심지어는 이미 생성한 비디오를 연장해서 생성하는 것도 가능하며, 서로 다른 두 비디오를 연결하는 영상 생성 또한 가능합니다. 
 
실사 영상 뿐만 아니라, 디지털 아트와 일러스트, 수채화, 게임 속 디지털 세상까지도 영상으로 표현할 수 있다는 점도 Sora의 놀라운 점이에요. 그리고 Minecraft 영상과 함께 제공된 설명에서 Sora와 같은 비디오 생성 인공지능은 일종의 시뮬레이터로서의 가능성도 존재한다고 시사했어요.

인풋 이미지를 토대로 영상 생성
인풋 비디오를 토대로 영상 생성
좌측의 영상과 우측의 영상을 연결하는 가운데 영상을 생성
화가가 캔버스에 수채화를 그리는 영상 생성
마인크래프트라는 디지털 세계의 영상을 생성

 

Sora의 한계와 시사점

Sora의 영상은 인공지능 생성 비디오라고 믿을 수 없는 퀄리티로 사람들에게 굉장히 충격을 주었지만, 아직 어색한 점도 분명히 존재하고 있어요. 유리의 깨짐 등 기본적인 상호작용을 잘 모델링하지 못하거나, 많은 개체가 등장하는 영상의 경우 부자연스럽게 개체가 등장하는 영상을 생성하기도 합니다.
 
또, 아직은 영상을 생성하기 위해 많은 컴퓨팅 자원을 사용해야 되고 모델을 학습하기 위해도 엄청난 양의 데이터를 복잡한 과정을 통해 학습시켜야 하기 때문에 대중이 활용하기까지는 시간이 걸릴 것으로 보이네요.

모델링하기 어려운 상호작용: 유리의 깨짐

 
하지만 이런 단점들을 고려하더라도 Sora가 AI 영상 생성에 엄청난 성과임은 분명해요. 특히, AI 업계와 다른 사람들에게 Sora가 준 의의는 나아가고 있는 방향에 대해 믿음을 주었다는 점입니다. 지금까지 하던 방식이 틀리지 않았고, AI 영상의 퀄리티가 안 좋았던 이유는 Scale이 부족했기 때문이라는 대답을 Sora가 해줬죠. 아직까지 "Scale is all you need"는 틀리지 않고 있습니다.
 

영상을 AI에게 학습시키는 과정
AI 동영상 생성 과정

 

Sora는 언제쯤 사용할 수 있을까?

아직 Sora의 출시 예정일에 대한 구체적인 정보는 언급되지 않았어요. Open AI 측은 연구 초기 성과와 상황에 대한 공유가 목적으로 내부 피드백을 위해 일부 예술가 등을 대상으로만 제공하고 있다고 밝혔어요. 최근 AI를 이용한 가짜뉴스, 범죄사례, 윤리적 이슈 등이 증가하고 있기 때문에 Sora는 이런 문제에 충분히 대비할 필요가 있다고 판단되네요.
 

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

Video generation models as world simulators

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that oper

openai.com

728x90