[K-VIBE] 이은준의 AI 톺아보기…인공지능 시대의 시네마 문법-②
작성자 정보
- 코난티비 작성
- 작성일
컨텐츠 정보
- 24 조회
- 목록
본문
[※ 편집자 주 = 한국국제교류재단(KF)의 지난해 발표에 따르면 세계 한류 팬은 약 2억2천500만명에 육박한다고 합니다. 또한 시간과 공간의 제약을 초월해 지구 반대편과 동시에 소통하는 '디지털 실크로드' 시대도 열리고 있습니다. 바야흐로 '한류 4.0'의 시대입니다. 연합뉴스 동포·다문화부 K컬처팀은 독자 여러분께 새로운 시선으로 한국 문화를 바라보는 데 도움이 되고자 전문가 칼럼 시리즈를 준비했습니다. 시리즈는 매주 게재하며 영문 한류 뉴스 사이트 K 바이브에서도 영문으로 보실 수 있습니다.]
필자는 지난 칼럼에 이어 인공지능(AI)을 활용한 영화적 영상 제작기법을 공개한다. 오랫동안 전자음악 작업과 미디어아트를 해온 필자에게 인공지능 영상 툴을 활용한 제작은 '신세계'였다.
지난 칼럼에서는 비주얼 개발까지 다뤘다. 이번에는 그다음 단계라 할 수 있는 카메라 모션과 공간 합성을 다뤄보겠다. 업계 용어로 'Spatial Prompting'이라고 한다.
인공지능 영상 모델의 가장 큰 한계는 '공간적 일관성'이다. 장면 간의 위치, 빛의 방향, 인물의 거리감이 자주 뒤틀린다. 이를 해결하기 위해 필자는 카메라 움직임 자체를 텍스트로 설계했다. 실제 적용한 프롬프트의 원문을 살리고자 영문 그대로 인용함을 밝힌다.
예를 들어, "Dolly backward through the glass reflection, focus shifting from her hand to the empty chair." (유리 반사면을 따라 뒤로 이동하며, 초점이 그녀-극 중 여성 캐릭터-의 손에서 빈 의자로 옮겨진다)
이런 식으로 카메라 움직임을 묘사하면, AI는 그 문장을 물리적 궤도로 해석한다.
이때 프롬프트 안의 동사(verb)가 카메라의 움직임을 정의한다.
카메라 좌우 회전(pan) / 카메라 상하 움직임(tilt) / 카메라 본체 이동(dolly) / 카메라 줌렌즈 이동(zoom) 등 카메라 모션을 실험적으로 조합하고, AI 시각 시스템을 하나의 가상 크레인처럼 다룬다.
또한 AI 영상에서 중요한 건 카메라 움직임이 물리적 궤적만이 아니라 정서적 리듬으로 작동하도록 만드는 것이다. 실제 카메라에서는 렌즈 초점, 피사체 거리, 카메라 무게 등이 촬영감독의 몸 감각을 통해 자연스럽게 반영되지만, AI는 그런 감각적 흔적이 없다.
그래서 필자는 '감정 중심의 카메라 움직임'(emotional motion prompting) 라는 개념을 프롬프트에 도입했다.
예를 들어, 인물의 불안함을 표현할 때 '들고 찍기'(handheld)나 '흔들림'(shaky) 같은 단어를 직접 쓰기보다, "The frame drifts unevenly, as if the air itself were trembling."(공기 자체가 떨리는 듯, 프레임이 고르지 않게 흔들린다)이라고 표현하면, AI는 흔들림이 아닌 '정서적 불안'이 담긴 프레임을 해석한다.
AI에게 움직임을 지시할 때는 카메라의 목적을 전달하는 게 중요하다. 단순히 'move closer'(좀 더 가까이 다가갈 것)가 아니라, "The camera approaches her as if it hesitates to intrude."(카메라는 마치 침범하는 것을 주저하는 듯 그녀-극 중 캐릭터-에게 다가간다
)는 식으로 썼다.
이런 방식으로 '감정의 태도'를 포함한 모션을 설계해야 AI가 장면을 자연스럽게 이어간다.
또 하나 중요한 점은 빛과 모션의 '타이밍 동기화'(light-motion sync)다.
AI는 장면을 생성할 때 종종 조명 변화를 시간 축과 분리해서 계산하기 때문에, 실제 카메라 워크처럼 자연스럽게 빛이 따라오지 않는다. 이를 해결하기 위해 필자는 "as the light fades, pan slowly to her silhouette"(빛이 사라지며, 그녀-극중 캐릭터-의 실루엣을 향해 천천히 카메라를 이동시키다)와 같은 식으로 시간과 움직임을 하나의 문장 안에 묶었다.
이렇게 하면 AI가 그냥 이동만 하는 게 아니라, '시간이 흘러가는 움직임'을 계산하게 된다.
마지막으로, 공간 합성에서는 AI가 만들어내는 왜곡을 적극적으로 이용하는 방식도 있다. 예를 들어 AI가 렌즈 왜곡을 잘못 해석해 공간이 살짝 휘어지는 장면이 나오면, 필자는 그것을 오히려 '감정의 왜곡'으로 해석해 살려둔다.
인간 촬영자라면 피했을 장면이지만, AI 시네마에서는 그런 오류가 일종의 새로운 시각 문법이 될 수 있다.
여기에 또 한 가지 고려해야 할 게 '업스케일링'(upscaling)이다. AI가 오래된 사진과 영상의 화질을 확대하는 기술이다. 필자는 이를 해상도를 감정으로 확장하는 기술로 봤다.
AI 영화의 리얼리티는 해상도 확대만으로 해결되지 않는다. 그러나 '업스케일링(Upscaling)'은 픽셀 보정뿐만 아니라, 감정의 해상도를 복원하는 과정이다.
대부분의 AI 영상은 처음 생성될 때 디테일이 뭉개지고, 특히 피부나 빛의 결이 손상된다. 이때 '매그니픽'(Magnific) 또는 '토파즈 비디오'(Topaz Video AI)와 같은 모델을 활용해 프레임 단위로 질감을 재구성한다.
선명도를 높이는 것만이 아니라, 조명과 재질의 '맥락'을 복원하는 데 초점을 둔다.
예를 들어, 얼굴의 모공이나 눈의 안와 같은 인간적 질감에서는 업스케일링 기술이 해상도 상승만이 아니라, '시각적 감정 복원'으로 보며 작업하게 된다. 해상도는 기술의 문제지만, 텍스처는 감정의 문제다.
업스케일링 과정에서 특히 중요한 것은 '시간적 일관성'(Temporal Consistency)이다. AI 영상은 프레임마다 미세하게 왜곡이 달라지기 때문에, 프레임 간 차이를 보정하지 않으면 인물이 '흐물거리는' 듯 보인다.
이를 막기 위해 광학적 작업(Optical Flow) 기반 프레임 보간법(補間法, 알려진 데이터 값들 사이의 알려지지 않은 값을 추정하는 방법으로, 두 지점 사이에 직선을 그어 값을 추정하는 선형 보간법, 여러 점을 지나는 다항식을 이용하는 다항식 보간법 등이 있음)을 적용하고, 노이즈를 미세하게 혼합한다.
결국 업스케일링은 '디테일을 복구하는 기술'이 아니라, AI가 놓쳐버린 인간적 시각 감각을 되돌리는 연출 과정이다.
이처럼 AI를 활용해 기존의 그래픽스 작업이나 애니메이션 작업에서 놓쳤던 고전적 제작 기법을 되살려 놀라운 결과물을 만들어 낼 수 있다. 다음 연재에는 사운드와 편집에 관해 살펴보고자 한다. 매일 매일 진짜 신나는 도전을 이어가는 신세계가 펼쳐져 그저 놀라울 따름이다. (3편에서 계속)
이은준 미디어아티스트·인공지능 영상 전문가
▲ 경일대 사진영상학부 교수
<정리 : 이세영 기자>