[K-VIBE] 이은준의 AI 톺아보기…인공지능 시대의 시네마 문법-③
작성자 정보
- 코난티비 작성
- 작성일
컨텐츠 정보
- 6 조회
- 목록
본문
[※ 편집자 주 = 한국국제교류재단(KF)의 지난해 발표에 따르면 세계 한류 팬은 약 2억2천500만명에 육박한다고 합니다. 또한 시간과 공간의 제약을 초월해 지구 반대편과 동시에 소통하는 '디지털 실크로드' 시대도 열리고 있습니다. 바야흐로 '한류 4.0'의 시대입니다. 연합뉴스 동포·다문화부 K컬처팀은 독자 여러분께 새로운 시선으로 한국 문화를 바라보는 데 도움이 되고자 전문가 칼럼 시리즈를 준비했습니다. 시리즈는 매주 게재하며 영문 한류 뉴스 사이트 K 바이브에서도 영문으로 보실 수 있습니다.]
필자는 지난 칼럼에 이어 인공지능(AI)을 활용한 영화적 영상 제작기법을 공개한다. 오랫동안 전자음악 작업과 미디어아트를 해온 필자에게 인공지능 영상 툴을 활용한 제작은 놀라운 신세계의 체험이었다.
지난 칼럼에서는 카메라 이동과 공간합성까지 다뤘다. 이번에는 마지막 단계라 할 수 있는 사운드와 영상 편집에 관해 다뤄 보겠다.
◇ 사운드 디자인: AI 오디오 합성의 서사적 역할
AI 영상이 시각적 완성도에 도달했을 때, 가장 인공적으로 느껴지는 것은 사운드다. 그래서 필자는 AI 오디오를 시각적 요소보다 먼저 설계한다. 예를 들어, 배경 현장음(Ambient sound)나 후반 작업에서 별도로 소리를 만드는 기술(Foley) 효과음은 AI 오디오 툴인 'ElevenLabs'로 하고, 음악은 'Suno'라는 AI 음악 생성툴로 만들어낸다.
이 또한, AI 툴들이 업데이트될 때마다 사용 모델도 다르게 써야 한다.
하지만 핵심은 오디오의 정확도가 아니라 '공간감의 일치'다. 예로, AI가 만든 장면 속에서 비 오는 소리가 있다면, 필자는 실제 빗소리를 합성하는 대신 '유리창을 타고 미끄러지는 낮은 톤의 화이트 노이즈(white noise)'라는 프롬프트를 생성해 넣는다.
이 방식은 현실의 음향이 아니라, AI가 인식한 시각의 감정적 잔향을 음으로 '번역'하는 것이다.
사운드는 시각적 장면과 시간의 리듬을 재조정하는 역할을 한다. AI가 만든 영상은 종종 프레임 속 감정의 '속도'를 놓치기 때문에, 필자는 소리의 호흡으로 그 간극을 메운다. 결국 상당 부분 사람이 해야 하는 일이다.
예를 들어 대사 사이의 미묘한 공백에 낮은 톤의 잔향을 추가하거나, 화면 전환 직전에 잔음을 길게 남겨 서사의 여운을 강화한다.
◇ 의미를 단위로 만들어내는 AI 영상 편집
AI로 만들어진 영상을 AI적으로 편집하는 작업은 전통적 타임라인이 아닌 의미 단위 기반 편집으로 진행해야 한다. 한 장면의 길이를 초 단위가 아니라 '감정의 변곡점'으로 판단한다.
AI가 생성한 영상은 반복과 왜곡이 섞여 있기 때문에, 일반적인 컷 편집보다는 이미지를 생성하는 AI 툴인 '스테이블 디퓨전'(Stable diffusion)의 기능 중 '프레임 보간'(frame interpolation) 기능이나 'Video loop correction'(반복 처리 과정에서 발생하는 화질 저하나 기술적 오류를 수정하거나 개선하는 작업) 기능을 사용해 '시각적 호흡'을 만든다.
프레임 보간은 기존 영상 프레임들 사이에 새로운 중간 프레임을 인공적으로 생성해, 영상의 초당 프레임 수(FPS)를 늘려 더욱 부드러운 움직임을 만드는 기술이라 인공지능과 결합해 그 활용도가 매우 높다.
필자는 이 과정을 '감정의 알고리즘 편집'이라고 부른다.
장면이 논리적으로 이어지는 것이 아니라, 감정 벡터가 매끄럽게 이동하도록 설계하는 것이다.
또한 제작 과정 사이에 원하는 이미지까지 도달하기 위한 포토샵 편집, 원하는 영상에 도달하기까지의 어도비사의 프리미어(Premiere Pro)와 애프터 이펙트(After Effects) 편집은 필수다.
AI가 만든 영상은 프레임 단위의 시간 감각이 불안정할 때가 많다. 장면은 감정의 변화에 따라 흐르기 때문에 필자는 AI 영상의 편집을 '시간의 정렬'이 아니라 '리듬의 조율'로 보라고 강조하고 싶다.
예를 들어, AI가 만든 클립 10초 중 실제로 쓸 수 있는 건 감정이 가장 농축된 2초일 때가 많다. 그 2초가 내러티브의 중심 리듬이 된다.
이 과정에서 필자는 AI의 실수를 '의도화'하는 편집을 자주 쓴다. 예를 들어 카메라가 순간적으로 프레임을 벗어나거나 인물이 왜곡되는 부분을 리듬의 전환점으로 삼아 감정적 쉼표처럼 사용할 수도 있다. 전통적 편집에서는 NG 컷이지만, AI 영화에서는 그것이 오히려 새로운 시각적 문법이 된다.
◇ 인간의 개입 요소
필자가 보기에 AI 영화는 '자동 생성'이 아니라 '지속적 교정'의 예술이다. AI는 단 한 번에 원하는 장면을 만들어주지 않는다.
그래서 필자는 프롬프트 교정 사이클(Prompt Correction Cycle, PCC)이라는 프로세스를 만든다. 이는 [생성(Generate) → 개발(Evaluate) → 교정(Modify Prompt) → 다시 생성(Re-generate)]의 반복 구조다.
하나의 장면을 위해 수백번을 반복할 때도 있다.
이때 중요한 건 프롬프트 수정의 언어적 감각이다. 예를 들어 '연한 조명'(soft light)이라는 프롬프트 대신 '유리 뒤쪽에서 발생하는 표면 아래 산란으로 인한 빛의 확산 효과'(subsurface glow from behind glass)라고 바꾸면, 빛의 밀도가 완전히 달라진다.
AI를 다루는 기술은 결국 시각적 직관을 문장으로 정밀하게 조각하는 능력이다.
또한, 이때 여러 AI 모델의 장단점을 파악한 후 교정해야 효과적이다. 예를 들어, '런웨이'(Runway)는 조명 명령어에 조금 더 민감하게 반응하고, '피카'(Pika)는 움직임의 묘사에 더 잘 반응한다.
그래서 프롬프트 수정은 '명령의 교정'뿐 아니라, 각 모델의 언어적 사고방식을 해독하는 과정이 된다.
이 반복은 결국 필자에게 일종의 시나리오 다시쓰기 과정처럼 작동한다.
AI 시네마에서 대본은 텍스트가 아니라, 시각적 언어를 탐색하는 대화의 기록이다.
◇ 최종 통합 과정
이렇게 모든 영상이 완성된 뒤, 필자는 마지막에 다시 인간의 손을 넣는다. 색 보정은 기존 영상 툴인 '다빈치 리졸브'(DaVinci Resolve)에서 진행하고, 미세한 눈동자 움직임이나 그림자 노이즈는 수작업으로 보정한다.
이런 방식을 쓰면 AI가 만든 영상이 인간적으로 느껴지게 할 수 있다. 마지막 단계에서 다시 인간이 흔적을 남기기 때문이다.
즉, AI는 초안이고, 인간은 최종 필터다.
AI가 만든 장면은 완벽하게 보이지만, 그 안에는 인간 특유의 '맥박'이 없다.
그래서 필자는 최종 단계에서 감정과 타이밍을 다시 손으로 조율한다. 예를 들어, 인물의 숨소리에 맞춰 그림자의 미세한 노이즈를 흔들거나, 장면 전환 시 잔상을 살짝 남겨 시간의 흐름을 느끼게 한다.
AI가 시각을 담당했다면, 인간은 그 시각에 의미와 온도를 부여하는 편집자이자 연출자가 된다.
AI 영상의 진짜 완성도는 모델의 성능이 아니라, 얼마나 인간의 손끝에서 마무리되었는가에 달려 있다.
결론적으로 AI는 '도구'가 아니라 '동료 알고리즘'이다. 필자의 작업 과정을 살펴보면 AI 영화 제작은 카메라를 대체하는 기술이 아니다. AI 영화는 영화적 상상력을 재구성하는 알고리즘적 동료를 얻는 과정이다.
AI가 등장하며 영화 업계는 복잡한 촬영이 줄어들고 있다. 대신, 시각적 개념을 시뮬레이션하는 과정이 늘어났다. 따라서 인간은 감독이자 언어를 통해 세계를 설계하는 조율자가 된다.
정리하면 이 시대의 AI 영화란, 인간의 시선과 인공지능의 연산이 교차하는 지점에서 탄생하는 새로운 형태의 시네마 문법이다.
이은준 미디어아티스트·인공지능 영상 전문가
▲ 경일대 사진영상학부 교수
<정리 : 이세영 기자>