1. Google Flow: 개념부터 첫 영상 제작까지

이 편은 Google Flow 시리즈의 출발점이다. Google Veo 3.1이 텍스트 한 줄을 어떻게 영상으로 바꾸는지 개념을 잡고, Flow에 직접 접속해 첫 영상을 만든 다음, 마지막에는 인물 이미지로 한국어 립싱크 영상까지 만들어 본다. 별도로 알고 와야 할 것은 없고 Chrome 브라우저와 Google 계정만 있으면 된다. 끝까지 따라 하면 내가 만든 8초 영상 파일과 같은 인물이 말하는 연속 컷, 막힐 때 부릴 AI 코치 프롬프트가 손에 남는다.

1 - Google Veo 3.1 기초 이해

도구를 만지기 전에 Veo가 무엇을 알아듣는지부터 잡는다. Veo는 글로 적은 장면 지시문(프롬프트)을 읽고 영상을 새로 그려 내는 도구다. 어떤 말을 넣으면 어떤 화면이 나오는지 감을 잡아야, 뒤에서 Flow를 켰을 때 헤매지 않는다. 공식 설명이 필요하면 아래 두 도움말을 함께 연다.

veo 도움말

flow 도움말

1.1 - AI 영상 생성의 원리와 프롬프트

사람이 글로 장면을 적으면 AI가 그 글을 읽고 영상을 그려 낸다. 이 원리를 먼저 잡아야 무엇을 적어야 원하는 화면이 나오는지 감이 선다.

텍스트-투-비디오(Text-to-Video) 개념 - 사람이 텍스트로 장면을 설명(프롬프트)하면 AI가 이를 읽고 픽셀 단위로 새 영상을 합성한다. 기존 영상을 잘라 붙이는 방식이 아니라, 학습한 데이터를 바탕으로 무에서 유를 만든다.
프롬프트 입력 예시 - 아래 문구를 입력창에 넣으면 AI는 새벽 호수에서 낚시하는 어부의 8초 영상을 생성한다.
```
A weathered old angler drifts alone in a narrow rowboat on a fog-veiled lake at first light, pale gold sunbeams cutting through the haze, a quiet and wistful mood.
```
문장 하나에 누가(angler)·어디서(fog-veiled lake)·언제(first light)·분위기(wistful)가 모두 담겨 있다. AI는 이 단서를 조합해 장면을 그리므로, 단서가 구체적일수록 결과가 또렷하다.
기술 발전 흐름 - 2022년 정지 이미지 생성에서 시작해 2025년 Google Veo 3.1에 이르러 영상과 오디오(대화·음악)를 동시에 생성하는 단계로 진화했다.

프롬프트는 AI에게 주는 장면 지시문이다.
Veo 3.1은 영상뿐 아니라 그 장면에 어울리는 소리까지 함께 만든다.

1.2 - Veo 3.1의 핵심 강점과 지시 가능 요소

Veo에게 무엇을 시킬 수 있는지 알면 프롬프트에 넣을 단서가 늘어난다. 물리·오디오·카메라·스타일 네 가지를 지시할 수 있다는 점을 잡아 둔다.

사실적 물리 표현 - 파도, 불꽃, 연기, 옷감의 펄럭임 등 물리 법칙을 반영한 움직임을 구현한다.
내장 오디오 생성 - 대사는 따옴표로 감싸고, 효과음은 SFX:, 배경음은 Ambient noise:로 적어 대화·환경음·음악을 영상과 함께 만든다.
카메라 제어 - 영화 용어(달리 샷, 버드아이 뷰 등)를 알아듣고 구도를 바꾼다.
스타일 변환 - 시네마틱, 애니메이션, 다큐멘터리 등 장르 키워드에 따라 화풍을 바꾼다.

카메라 앵글: Close-up, Wide shot, Low angle, High angle.
카메라 움직임: Pan, Tilt, Dolly, Tracking, Handheld.
조명: Golden hour, Moonlight, Neon, Backlit.

1.3 - 모델 등급(Fast / Lite / 고품질) 선택 전략

영상을 만들 때마다 크레딧이 줄어든다. 그래서 처음부터 고품질을 쓰지 않고 싼 등급으로 방향을 잡은 뒤 마지막에만 고품질을 쓰는 순서가 중요하다.

등급별 차이 - 속도·비용·품질에 따라 세 등급으로 나뉜다.
1. Fast - 가장 빠르고 저렴하다. 아이디어 방향을 테스트할 때 쓴다.
2. Lite(경량) - 중간 속도와 비용이다. 구도와 디테일을 빠르게 검증할 때 쓴다.
3. 고품질 - 가장 느리고 비싸다. 정밀한 대화와 립싱크가 필요한 최종 결과물용이다.
오디오 지원 확인 - 오디오 지원 여부는 등급·버전에 따라 다르고 자주 바뀐다. 보통 가장 저가의 경량(Lite) 등급은 묵음일 수 있고, 표준·고품질 등급이 오디오를 포함한다. 생성 전 Flow 화면에서 각 모델의 오디오 지원 표시와 예상 크레딧을 직접 확인한다.
3단계 작업 순서 - 크레딧을 아끼려고 비용·품질 축으로 아래 순서를 지킨다.
1. 테스트 - Fast 모델로 프롬프트 방향 확인.
2. 검증 - Lite 모델로 구도와 디테일 확인.
3. 완성 - 고품질 모델로 최종 영상 생성. 오디오가 필요하면 오디오 지원 등급을 화면에서 확인해 선택한다.

처음부터 고품질 모델을 쓰면 크레딧이 금방 바닥난다.
Fast로 여러 번 시도해 본 뒤 가장 좋은 결과물의 프롬프트를 고품질에 넣는다.

1.4 - Veo 3.1 활용 콘텐츠 유형

같은 도구로 어떤 결과물을 만들 수 있는지 알면 내 목표를 잡기 쉽다. 네 가지 대표 유형을 살펴본다.

AI 단편 영화 - 8초 클립들을 이어 붙여 이야기를 만든다.
가상 캐릭터 브이로그 - 실제 존재하지 않는 캐릭터의 일상을 구현한다.
광고 크리에이티브 - 제품(향수, 자동차 등) 쇼케이스 영상을 만든다.
POV(1인칭 시점) - 시청자가 직접 보는 듯한 몰입형 영상을 만든다.

텍스트 자막을 영상 안에 직접 넣는 기능은 아직 약하다. 자막은 외부 편집 앱을 쓴다.
캐릭터의 일관성을 유지하려면 참조 이미지를 활용하거나 외모 묘사를 구체적으로 반복한다.

실습 코칭 프롬프트

이 단원에서 익힌 Veo가 알아듣는 지시 요소(주체·카메라·조명·스타일)로 짧은 광고 쇼케이스 컷을 짜다 막히면, 아래를 대화형 AI(ChatGPT·Claude·Gemini)에 붙여 넣어 코치로 삼는다. 빈 요소를 한꺼번에 받지 말고 하나씩 채워 완성한다.

너는 AI 영상 프롬프트 코치다. 나는 Veo가 알아듣는 지시 요소를 배웠고, 내 제품의 8초 광고 쇼케이스 컷을 한 줄 영문 프롬프트로 완성하려 한다. 답을 통째로 주지 말고 한 가지씩 물어 내가 채우게 한다.

[채울 요소]
- 주체: 보여줄 제품 (형태·색·재질)
- 카메라: 앵글·무빙 (예: slow dolly-in, orbit)
- 조명: 빛의 종류 (예: rim light, golden hour)
- 스타일: 화풍 (예: cinematic luxury commercial)
- 분위기: 전달할 인상 (예: premium and elegant)

[코칭 방식]
1. 내 제품이 무엇인지 먼저 묻는다.
2. 주체→카메라→조명→스타일→분위기를 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 카메라와 조명 중 적어도 하나는 영화 용어로 채우게 한다. 둘 다 비우면 밋밋한 정지컷이 된다고 알려 준다.
4. 다 채우면 한 문장으로 잇고 끝에 8-second product showcase를 붙이게 한다.

[내 상황]
- 제품: {제품}
- 막힌 요소: {막힌_요소}

준비됐으면 "어떤 제품을 보여줄지 한 줄로 말해라"라고만 답한다.

{제품} - 보여줄 대상, 예: 유리 향수병, 무광 검정 스마트워치.
{막힌_요소} - 채우기 어려운 요소, 예: 카메라, 조명.

변수를 채운 예시는 아래와 같다. [내 상황]만 이렇게 바꿔 붙여 넣으면 된다.

[내 상황]
- 제품: 유리 향수병
- 막힌 요소: 조명

코치가 요소를 한꺼번에 채워 주려 하면 "하나씩 물어라"라고 다시 요청한다.
제품만 향수→시계→화장품으로 바꾸면 같은 조명·카메라 세팅으로 시리즈 광고컷을 재사용한다.

2 - Google Flow 접속과 첫 실습

개념을 잡았으니 이제 Flow를 직접 켜서 첫 영상을 손으로 만든다. 접속·로그인부터 프롬프트 입력, 생성, 다운로드까지 한 번에 따라가며, 변수 하나만 바꿔 결과가 어떻게 달라지는지도 눈으로 확인한다.

2.1 - Google Flow 접속과 작업 환경 준비

가장 먼저 브라우저를 열어 Flow에 접속하고 프로젝트를 하나 만든다. 이 빈 프로젝트가 앞으로 영상을 만드는 작업 공간이 된다.

웹사이트 방문 - Chrome 브라우저 주소창에 https://labs.google/fx/tools/flow를 입력하고 Enter를 누른다.
로그인 - 우측 상단 [Sign in]을 클릭해 Google 계정으로 로그인한다.
무료 체험 시작 - 화면에 나타나는 안내에 따라 구독 또는 무료 체험을 시작한다.
1. [Start free trial] 클릭 → 결제 정보 등록(체험 기간 내 해지 시 비용 미발생) → 대시보드 진입.
프로젝트 생성 - 좌측 사이드바 [New Project] 클릭 → 프로젝트 이름(예: First_Test) 입력 → 빈 작업 영역을 확인한다.

무료 체험 종료 1~2일 전에 해지 알림을 설정하면 자동 결제를 막을 수 있다.
지역에 따라 서비스 접근이 제한될 수 있다. 이때는 Gemini(gemini.google.com)를 대안으로 쓴다.

2.2 - 인터페이스 구성 요소 확인

영상을 만들기 전에 화면 어디에 무엇이 있는지 한 번 짚는다. 위치를 익혀 두면 다음 실습에서 버튼을 찾느라 멈추지 않는다.

상단 바 - 현재 남은 Credits 수치를 확인한다. 영상 생성 시 실시간으로 줄어든다.
프롬프트 입력창 - 화면 하단의 Describe your scene... 영역을 클릭한다.
모델 선택 드롭다운 - 입력창 왼쪽의 모델 이름을 클릭해 Fast, Lite, 고품질 등급을 확인한다.
화면 비율 - 16:9(가로), 9:16(세로), 1:1(정방형) 버튼을 확인한다.
생성 버튼 - 우측의 파란색 [Generate] 버튼을 확인한다.

2.3 - 첫 번째 영상 생성 실습 (해변 노을)

이제 실제로 영상 하나를 만든다. 가장 싼 모델로 노을 진 해변 8초 영상을 만들어 내 컴퓨터에 저장하는 데까지 따라간다.

모델 설정 - 입력창 왼쪽 모델 드롭다운을 클릭해 가장 저렴한 Fast 계열 모델을 선택한다.
비율 설정 - 16:9 버튼을 클릭한다.

프롬프트 입력 - 아래 영문 텍스트를 복사해 입력창에 붙여넣는다.

Soft waves rolling onto a sandy shore at sunset, warm orange and pink sky, gentle slow motion, wide cinematic framing, a calm and tranquil feel, photorealistic.

생성 실행 - [Generate] 버튼을 클릭한다(Ctrl+Enter 단축키가 동작하면 함께 쓴다).
재생과 확인 - 생성이 완료(약 30~60초 소요)되면 나타나는 영상을 클릭하거나 Space를 눌러 재생한다. 파도와 노을이 제대로 표현됐는지 확인한다.
다운로드 - 영상 우측 하단 [Download] 아이콘을 클릭해 MP4 파일을 내 컴퓨터에 저장한다.

저장된 MP4는 같은 프롬프트라도 생성할 때마다 조금씩 다르게 나온다. 마음에 드는 컷이 나오면 바로 내려받아 두는 편이 좋다.

결과가 마음에 들지 않으면 [Regenerate]를 눌러 같은 프롬프트로 다시 만든다.
문구를 고치고 싶으면 [Edit Prompt]를 클릭한다.

2.4 - 변수 통제 실험 (시간대 변경)

앞에서 만든 프롬프트에서 단어 두 개만 바꿔 본다. 한 군데만 바꿔 보면 어떤 단어가 화면의 무엇을 정하는지 또렷이 보인다.

프롬프트 수정 - 기존 문구에서 at sunset을 at DAWN으로, warm orange and pink sky를 soft purple and blue sky로 바꾼다.
재생성 - [Generate]를 누른다.
비교 - 노을(Sunset) 버전과 새벽(Dawn) 버전의 색감 차이를 확인한다.

시간대 단어 하나가 하늘 색 전체를 바꾼다. 이렇게 한 번에 한 군데만 바꿔야 그 단어의 효과를 정확히 가릴 수 있다.

2.5 - 모바일 워크플로우 (Flow + 캡컷)

컴퓨터가 없어도 스마트폰만으로 생성부터 편집까지 끝낼 수 있다. Flow로 만든 영상을 캡컷에서 숏폼 비율로 다듬는 흐름이다.

모바일 접속 - 스마트폰 브라우저에서 https://labs.google/fx/tools/flow에 접속한다.
영상 생성과 저장 - 위 실습과 똑같이 영상을 생성한 뒤, 화면의 [Download] 버튼을 길게 눌러 기기 갤러리에 저장한다.
캡컷 실행 - 캡컷(CapCut) 앱을 열고 [새 프로젝트]를 누른다.
클립 불러오기 - 저장한 Veo 영상을 선택해 타임라인에 올린다.
비율과 음악 - [비율] 메뉴에서 9:16을 선택하고, [오디오] 메뉴에서 배경 음악을 넣는다.
내보내기 - 우측 상단 화살표 아이콘을 눌러 영상을 저장하거나 SNS에 올린다.

모바일에서 영어 입력이 어려우면 한국어로 장면을 메모한 뒤 번역 도구를 써서 붙여넣는다.
숏폼용 영상은 처음부터 Flow에서 9:16 비율로 생성하는 편이 좋다.

실습 코칭 프롬프트

이 단원에서 실습한 Flow에 텍스트 한 줄로 영상 생성하고 변수 하나만 바꿔 비교하기를 내 소재의 움직이는 장면에 적용하다 막히면, 아래를 대화형 AI에 붙여 넣어 코치로 삼는다.

너는 AI 영상 프롬프트 코치다. 나는 Flow에 한 줄 프롬프트로 영상을 만들고 변수 하나만 바꿔 비교하는 법을 배웠고, 내 소재의 움직이는 한 컷을 완성하려 한다. 답을 통째로 주지 말고 한 가지씩 물어 내가 채우게 한다.

[채울 요소]
- 공간: 움직임이 담긴 배경 (예: 야시장 골목, 옥상에서 본 도시)
- 시간대: 빛을 정하는 시각 (예: night, rainy evening)
- 빛·색: 화면 톤 (예: neon reflections, cool blue twilight)
- 움직이는 요소: 장면에 생기를 주는 동작 (예: people walking past, cars with light trails)
- 카메라: 무빙 (예: slow tracking shot, static wide shot)
- 분위기·화풍·화면비

[코칭 방식]
1. 어떤 공간을 보여줄지 먼저 묻는다.
2. 공간→시간대→빛·색→움직이는 요소→카메라 순으로 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 움직이는 요소를 꼭 채우게 한다. 비우면 정지화면처럼 밋밋해진다고 알려 준다.
4. 다 채우면 한 문장으로 잇고 끝에 화면비(16:9 / 9:16 / 1:1)를 붙이게 한다.
5. 변수 하나(예: 움직이는 요소)만 바꿔 비교본을 하나 더 만들도록 안내한다.

[내 상황]
- 만들 공간: {만들_공간}
- 막힌 요소: {막힌_요소}

준비됐으면 "어떤 공간을 보여줄지 한 줄로 말해라"라고만 답한다.

{만들_공간} - 움직임이 담긴 배경 한 컷, 예: 비 오는 밤 편의점 앞.
{막힌_요소} - 채우기 어려운 요소, 예: 빛·색, 카메라.

변수를 채운 예시는 아래와 같다. [내 상황]만 이렇게 바꿔 붙여 넣으면 된다.

[내 상황]
- 만들 공간: 비 오는 밤 편의점 앞
- 막힌 요소: 빛·색

코치가 한꺼번에 다 채워 주려 하면 "하나씩 물어라"라고 다시 요청한다.
변수 하나만 바꿔 가며 2.4의 변수 통제 실험을 반복한다.

3 - Google Flow 실전: 이미지에서 말하는 영상까지

먼저 인물 이미지를 만들고, 그 이미지를 시작점으로 삼아 한국어로 말하는 립싱크 영상을 생성한 뒤, 확장(Extend)으로 장면을 길게 잇는 실전 흐름을 따라간다. 이때 프롬프트는 공식 5형식(촬영기법·주체·행동·맥락·스타일·분위기)을 립싱크용으로 적용한 [CINEMATOGRAPHY]·[SUBJECT]·[ACTION]·[CONTEXT]·[STYLE]의 다섯 블록으로 나누어 작성한다. 인물 외형은 [SUBJECT]에, 동작과 한국어 대사·립싱크는 [ACTION]에, 조명은 [STYLE]에, 금지 요소는 [STYLE] 끝의 Avoid에 넣는다. 스타일·분위기(Style & Ambiance)는 [STYLE] 한 블록이고, 환경음은 [CONTEXT]에 넣는다. 블록을 나누면 [SUBJECT]로 외형을 고정한 채 [ACTION]만 바꿔 같은 인물의 다른 대사 컷을 쉽게 만든다.

2026.05.18 기준 작업 기록을 바탕으로 한다.
2026.05.19 omi 모델이 추가되며 화면(UI) 구성이 일부 바뀌었다. 버튼 위치가 교안과 다르면 같은 기능의 메뉴를 화면에서 찾아 진행한다.

3.1 - 인물 이미지 생성과 다듬기

말하는 영상을 만들려면 먼저 말할 인물의 얼굴이 필요하다. Flow의 이미지 생성으로 인물을 만들고, 배경의 군더더기를 지워 깨끗한 첫 프레임을 준비한다.

이미지 생성 - Flow의 이미지 생성 기능으로 인물 이미지를 만든다. 아래는 생성에 사용한 공유 프롬프트 링크다.
1. 프롬프트: https://labs.google/fx/tools/flow/shared/image/46c70f76-214e-4ac0-8364-18316ffb0c25
2. 최초 생성 이미지: https://flow-content.google/image/ff414606-539f-476b-82e1-1154e13cf0a7
불필요 요소 제거 - 배경과 옷깃에 남은 군더더기 요소를 지운다. 멀리 떨어진 영역은 한 번에 선택되지 않으므로 두 번에 나누어 지운다.
수정 프롬프트 입력 - 지울 영역을 선택한 뒤 프롬프트에 지워라고 입력한다.
1. 수정 후 이미지: https://labs.google/fx/api/trpc/media.getMediaUrlRedirect?name=b89366a1-dfd1-43fa-9d24-fcbf21caae90

이 이미지가 다음 단계에서 영상의 첫 프레임이 된다. 배경이 지저분하면 영상에도 그대로 따라오므로 여기서 깨끗이 정리해 둔다.

3.2 - 이미지를 장면으로 불러오기

다듬은 인물 이미지를 영상 작업 영역으로 가져온다. 이 이미지가 첫 프레임이 되어, 같은 얼굴이 말하는 영상이 만들어진다.

장면 만들기 진입 - Flow 우측 상단 + 버튼을 클릭한 뒤 [장면 만들기]를 클릭한다.
이미지 선택 - 앞에서 생성·수정한 인물 이미지를 선택한다. 이 이미지가 영상의 첫 프레임 기준이 된다.

3.3 - 메인 프롬프트 작성 (5블록 구조)

이제 인물이 말하게 할 프롬프트를 다섯 블록으로 나누어 쓴다. 블록을 나눠 두면 나중에 한 블록만 바꿔 톤이나 대사를 손쉽게 바꿀 수 있다.

블록별 역할 이해 - 아래 다섯 블록을 순서대로 채운다. [CINEMATOGRAPHY]는 카메라, [SUBJECT]는 인물 외형, [ACTION]은 동작과 한국어 대사·립싱크, [CONTEXT]는 배경·환경음, [STYLE]은 화풍·조명·색조와 끝의 금지 요소다.
메인 프롬프트 입력 - 아래 문구를 입력창에 붙여넣는다. 한국어 대사를 또렷한 방송 톤으로 말하는 인물 영상이다.

[CINEMATOGRAPHY]
Medium close-up from chest level, eye-level static shot, 85mm portrait lens look, very shallow depth of field, subject perfectly centered with slight space above her head.

[SUBJECT]
A Korean woman in her late 20s, long dark brown hair tied in a high ponytail with the tail falling over her right shoulder, a few loose strands framing her face. Clean glowing skin, natural dewy makeup, soft pink lip tint, defined slightly arched eyebrows, warm brown eyes, a gentle closed-lip smile. She wears a black tailored blazer over a plain white inner top, with a thin silver ring on her index finger.

[ACTION]
She starts with her right hand resting lightly near her chin, then slowly lowers her hand as she begins speaking. A soft confident smile spreads across her face, she gives one small nod mid-sentence, and looks straight into the camera with a calm, friendly gaze. She speaks in clear, warm Korean with a polished broadcasting tone: "안녕하세요, 오늘은 영상 편집 앱 캡컷을 소개할게요." Lip movement precisely synced to Korean phonemes, natural breath between phrases.

[CONTEXT]
A soft pastel pink seamless studio background. Soft studio room tone, no background music.

[STYLE]
Korean beauty-brand commercial aesthetic, clean and polished, soft pastel color palette, photorealistic 4K, natural skin texture preserved. Soft large key light from the front, gentle pink fill bouncing from the background, warm 4800K, subtle catchlight in both eyes, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, harsh shadows, plastic skin, distorted lip sync, robotic voice, logo watermarks, extra fingers.

대사를 따옴표로 감싸 [ACTION]에 넣었기 때문에 인물이 그 한국어 문장을 입 모양까지 맞춰 말한다. [STYLE] 끝의 Avoid는 자막·영어 발음·손가락 오류 같은 흔한 사고를 미리 막는 안전장치다.

[SUBJECT]와 [STYLE]의 Avoid는 그대로 두고 [ACTION]만 바꾸면 같은 인물의 다른 톤 영상을 빠르게 만든다.
대사에 따옴표를 써도 [STYLE] Avoid에 subtitles를 넣으면 자막이 화면에 박히는 것을 막는다.

3.4 - 톤 변형 실습

같은 인물로 분위기만 다른 컷을 만들어 본다. [ACTION]과 [STYLE] 두 블록만 갈아 끼우면 인물은 그대로인 채 톤이 바뀐다.

변형 1 (밝은 튜토리얼 톤) - 메인 프롬프트에서 [ACTION]과 [STYLE]만 아래로 교체한다. 대사는 [ACTION]에, 조명은 [STYLE]에 들어가므로 이 두 블록만 바꾸면 톤이 달라진다.

[ACTION]
She holds her right hand up at shoulder level with palm facing the camera in a gentle greeting wave, then brings both hands together at chest level as she finishes speaking. Bright open smile showing slight teeth, one cheerful nod. She speaks in upbeat, friendly Korean: "여러분 안녕하세요! 캡컷으로 영상 편집 시작해 볼까요?" Mouth movements tightly synced to Korean syllables.

[STYLE]
Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Bright high-key lighting from upper front and both sides, 5000K slightly warm, vibrant but soft, creator-vlog feel, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, distorted lip sync, robotic voice, extra fingers.

변형 2 (차분한 리뷰 톤) - 같은 방식으로 두 블록을 아래로 교체한다.

[ACTION]
She keeps her hands gently clasped at chest level throughout, slight head tilt to the right at the start, returns to center as she speaks. Composed thoughtful expression, soft closed-lip smile only at the end. She speaks in calm, measured Korean with a clear reviewer tone: "캡컷은 무료로 쓸 수 있는 영상 편집 도구예요." Lip movement precisely synced to Korean syllables.

[STYLE]
Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Even soft front light, 5200K neutral, slight directional shadow on the left side of her face for depth, premium-magazine portrait feel, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, distorted lip sync, robotic voice, extra fingers.

비교 - 동작·조명·대사 톤만 바꿨는데 인물은 그대로 유지되는지 확인한다. [SUBJECT]가 외형을 잡아 주기 때문이다.

[SUBJECT]를 건드리지 않는 한 얼굴·머리·옷은 같은 사람으로 유지된다. 그래서 시리즈 영상을 만들 때 [ACTION]과 [STYLE]만 바꾸는 방식이 통한다.

3.5 - 확장(Extend)으로 장면 잇기

8초보다 긴 이야기는 컷을 이어 붙여 만든다. Extend는 앞 영상의 마지막 프레임을 다음 영상의 시작 프레임으로 삼아, 같은 인물·배경이 자연스럽게 이어지게 한다.

확장 원리 이해 - Flow의 Extend 기능을 쓰면 이전 영상의 마지막 프레임이 자동으로 다음 영상의 시작 프레임이 된다. 따라서 [SUBJECT]는 외형을 길게 묘사하지 않고 같은 인물·같은 의상·같은 배경임을 짧게 명시한 뒤, [ACTION]에 집중한다.

이어지는 컷 작성 - 이전 영상의 끝 상태(손을 내리고 카메라 응시)에 이어 붙는 8초 컷이다. 타임라인 개념을 설명하는 장면이다.

[CINEMATOGRAPHY]
Medium close-up, eye-level static shot, 85mm portrait lens look, shallow depth of field. Same framing as the previous shot to keep visual continuity.

[SUBJECT]
The same Korean woman from the previous shot, identical hairstyle, makeup, black tailored blazer over white inner top.

[ACTION]
She raises both hands to chest level, palms facing the camera, then slowly moves both hands horizontally from her left side to her right side as if drawing an invisible long bar in the air. She finishes with her right hand extended to the side and looks confidently at the camera with a small smile. She speaks in clear, friendly Korean with a polished broadcasting tone: "화면 아래 이 긴 막대가 바로 타임라인이에요." Lip movement precisely synced to Korean phonemes.

[CONTEXT]
Soft pastel pink studio background, continuous scene. Soft studio room tone, no background music.

[STYLE]
Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Identical lighting to the previous shot — soft large key light from the front, gentle pink fill, warm 4800K, no harsh shadows, 16:9 aspect ratio. Visual continuity with the previous clip. Avoid: English speech, subtitles, text overlays, UI graphics, multiple people, hair or clothing change, scene cut, camera movement, distorted lip sync, extra fingers.

동작·대사만 바꿔 연속 컷 늘리기 - 이어지는 컷은 [ACTION]만 교체해 같은 흐름으로 생성한다. 대사가 [ACTION]에 통합돼 있어 이 블록 하나만 바꾸면 된다.

[ACTION]
She points her right index finger to her left side at chest level, then slowly traces a horizontal line to her right side, finger extended throughout, finishing with a small tap gesture at the end. Eyes follow her finger then return to the camera. She speaks in clear, instructive Korean: "왼쪽에서 오른쪽으로 시간이 흘러가요." Lip movement precisely synced to Korean syllables.

[ACTION]
She holds her left palm out flat horizontally at chest level, then with her right hand makes a soft placing motion as if dropping rectangular blocks onto her left palm, twice. Finishes looking at the camera with an open smile. She speaks in warm, encouraging Korean: "여기에 영상 클립을 순서대로 올려놓으면 돼요." Mouth movements tightly synced to Korean syllables.

확장 컷에서는 [CINEMATOGRAPHY]와 [STYLE]의 조명을 이전 컷과 똑같이 유지해야 장면이 튀지 않는다.
[STYLE] 끝 Avoid에 scene cut, camera movement를 넣어 연속성을 강제한다.

3.6 - 완성 영상 확인

위 메인 프롬프트와 확장 컷을 이어 만든 완성 영상은 아래에서 확인한다.

https://drive.google.com/file/d/1nocxgkm3t9AB2NTP_UX6nH98hIdavp8i/view?usp=sharing

한국어 립싱크는 짧고 또렷한 문장일수록 정확하다. 한 컷당 한두 문장으로 끊는다.
인물·의상·배경을 고정한 [SUBJECT]와 연속성을 막는 [STYLE] Avoid가 시리즈 영상의 일관성을 좌우한다.

3.7 - 영문으로 변환해 입력하기

5블록을 한국어로 구상했으면 그대로 넣지 말고, 각 블록 값을 영문으로 옮겨 Veo에 입력한다. Veo는 영어 프롬프트를 더 정확히 따른다. 단, [ACTION]의 따옴표 안 한국어 대사는 번역하지 말고 한국어 그대로 둔다. 립싱크 대상이 한국어 발음이기 때문이다.

다음 5블록 영상 프롬프트에서 한국어로 적힌 부분을 영어로 옮겨라. 블록 이름과 구조는 그대로 두고, 카메라·조명·스타일 용어는 영어 영상 제작 용어로 정확히 바꾼다. 단 [ACTION] 안의 따옴표로 감싼 한국어 대사는 번역하지 말고 한국어 그대로 둔다.

[내 5블록 프롬프트]
{내_프롬프트}

{내_프롬프트} - 5블록으로 조립한 내 프롬프트(대사는 한국어).

변환된 결과를 그대로 입력창에 붙여 넣으면 된다.

변환 뒤에도 [ACTION]의 한국어 대사가 따옴표 안에 그대로 남아 있는지 확인한다.
카메라·조명 용어(85mm, key light 등)가 영어로 정확히 들어갔는지 본다.

실습 코칭 프롬프트

5블록 립싱크 구조를 내 인물·내 대사로 채우다 막히면, 아래를 대화형 AI에 붙여 넣어 코치로 삼는다. 블록을 한꺼번에 받지 말고 하나씩 채워 완성한다.

너는 AI 영상 립싱크 프롬프트 코치다. 나는 Veo 공식 5형식을 립싱크용으로 적용한 5블록 구조를 배웠고, 내 인물이 말하는 한 컷을 완성하려 한다. 답을 통째로 주지 말고 블록을 하나씩 물어 내가 채우게 한다.

[5블록]
- [CINEMATOGRAPHY]: 카메라 앵글·샷·무빙·렌즈
- [SUBJECT]: 인물 외형 (나이·헤어·피부·표정·의상·소품)
- [ACTION]: 동작·표정 변화 + 한국어 대사(따옴표)·립싱크 지시
- [CONTEXT]: 배경·공간·환경음
- [STYLE]: 화풍·무드·조명·색조, 끝에 Avoid로 금지 요소

[코칭 방식]
1. 누가 어디서 무슨 말을 하는지 먼저 듣는다.
2. SUBJECT→CINEMATOGRAPHY→CONTEXT→ACTION→STYLE 순으로 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 대사는 한두 문장으로 짧게, 따옴표로 감싸 [ACTION]에 넣게 한다. 길면 립싱크가 어긋난다고 알려 준다.
4. 조명은 [STYLE]에, 금지 요소(no subtitles, no distorted lip sync 등)는 [STYLE] 끝 Avoid에 넣게 한다.
5. 시리즈로 만들 거면 [SUBJECT]를 고정하고 [ACTION]만 바꾸도록 안내한다.

[내 상황]
- 말하는 인물과 장면: {인물_장면}
- 막힌 블록: {막힌_블록}

준비됐으면 "누가 어디서 무슨 말을 하는지 한 줄로 말해라"라고만 답한다.

{인물_장면} - 말하는 인물과 장면을 한 줄로, 예: 30대 남성이 홈오피스에서 공부 앱을 소개한다.
{막힌_블록} - 채우기 어려운 블록, 예: CINEMATOGRAPHY, STYLE.

변수를 채운 예시는 아래와 같다. [내 상황]만 이렇게 바꿔 붙여 넣으면 된다.

[내 상황]
- 말하는 인물과 장면: 30대 남성이 홈오피스에서 공부 앱을 소개한다
- 막힌 블록: STYLE

코치가 블록을 한꺼번에 채워 주려 하면 "하나씩 물어라"라고 다시 요청한다.
[SUBJECT]를 고정하고 [ACTION]만 바꾸면 같은 인물의 다른 대사 컷을 연속으로 만든다.

#Google Flow

1 - Google Veo 3.1 기초 이해

veo 도움말

flow 도움말

1.1 - AI 영상 생성의 원리와 프롬프트

사람이 글로 장면을 적으면 AI가 그 글을 읽고 영상을 그려 낸다. 이 원리를 먼저 잡아야 무엇을 적어야 원하는 화면이 나오는지 감이 선다.

텍스트-투-비디오(Text-to-Video) 개념 - 사람이 텍스트로 장면을 설명(프롬프트)하면 AI가 이를 읽고 픽셀 단위로 새 영상을 합성한다. 기존 영상을 잘라 붙이는 방식이 아니라, 학습한 데이터를 바탕으로 무에서 유를 만든다.
프롬프트 입력 예시 - 아래 문구를 입력창에 넣으면 AI는 새벽 호수에서 낚시하는 어부의 8초 영상을 생성한다.
```
A weathered old angler drifts alone in a narrow rowboat on a fog-veiled lake at first light, pale gold sunbeams cutting through the haze, a quiet and wistful mood.
```
문장 하나에 누가(angler)·어디서(fog-veiled lake)·언제(first light)·분위기(wistful)가 모두 담겨 있다. AI는 이 단서를 조합해 장면을 그리므로, 단서가 구체적일수록 결과가 또렷하다.
기술 발전 흐름 - 2022년 정지 이미지 생성에서 시작해 2025년 Google Veo 3.1에 이르러 영상과 오디오(대화·음악)를 동시에 생성하는 단계로 진화했다.

프롬프트는 AI에게 주는 장면 지시문이다.
Veo 3.1은 영상뿐 아니라 그 장면에 어울리는 소리까지 함께 만든다.

1.2 - Veo 3.1의 핵심 강점과 지시 가능 요소

Veo에게 무엇을 시킬 수 있는지 알면 프롬프트에 넣을 단서가 늘어난다. 물리·오디오·카메라·스타일 네 가지를 지시할 수 있다는 점을 잡아 둔다.

사실적 물리 표현 - 파도, 불꽃, 연기, 옷감의 펄럭임 등 물리 법칙을 반영한 움직임을 구현한다.
내장 오디오 생성 - 대사는 따옴표로 감싸고, 효과음은 SFX:, 배경음은 Ambient noise:로 적어 대화·환경음·음악을 영상과 함께 만든다.
카메라 제어 - 영화 용어(달리 샷, 버드아이 뷰 등)를 알아듣고 구도를 바꾼다.
스타일 변환 - 시네마틱, 애니메이션, 다큐멘터리 등 장르 키워드에 따라 화풍을 바꾼다.

카메라 앵글: Close-up, Wide shot, Low angle, High angle.
카메라 움직임: Pan, Tilt, Dolly, Tracking, Handheld.
조명: Golden hour, Moonlight, Neon, Backlit.

1.3 - 모델 등급(Fast / Lite / 고품질) 선택 전략

등급별 차이 - 속도·비용·품질에 따라 세 등급으로 나뉜다.
1. Fast - 가장 빠르고 저렴하다. 아이디어 방향을 테스트할 때 쓴다.
2. Lite(경량) - 중간 속도와 비용이다. 구도와 디테일을 빠르게 검증할 때 쓴다.
3. 고품질 - 가장 느리고 비싸다. 정밀한 대화와 립싱크가 필요한 최종 결과물용이다.
오디오 지원 확인 - 오디오 지원 여부는 등급·버전에 따라 다르고 자주 바뀐다. 보통 가장 저가의 경량(Lite) 등급은 묵음일 수 있고, 표준·고품질 등급이 오디오를 포함한다. 생성 전 Flow 화면에서 각 모델의 오디오 지원 표시와 예상 크레딧을 직접 확인한다.
3단계 작업 순서 - 크레딧을 아끼려고 비용·품질 축으로 아래 순서를 지킨다.
1. 테스트 - Fast 모델로 프롬프트 방향 확인.
2. 검증 - Lite 모델로 구도와 디테일 확인.
3. 완성 - 고품질 모델로 최종 영상 생성. 오디오가 필요하면 오디오 지원 등급을 화면에서 확인해 선택한다.

처음부터 고품질 모델을 쓰면 크레딧이 금방 바닥난다.
Fast로 여러 번 시도해 본 뒤 가장 좋은 결과물의 프롬프트를 고품질에 넣는다.

1.4 - Veo 3.1 활용 콘텐츠 유형

같은 도구로 어떤 결과물을 만들 수 있는지 알면 내 목표를 잡기 쉽다. 네 가지 대표 유형을 살펴본다.

AI 단편 영화 - 8초 클립들을 이어 붙여 이야기를 만든다.
가상 캐릭터 브이로그 - 실제 존재하지 않는 캐릭터의 일상을 구현한다.
광고 크리에이티브 - 제품(향수, 자동차 등) 쇼케이스 영상을 만든다.
POV(1인칭 시점) - 시청자가 직접 보는 듯한 몰입형 영상을 만든다.

텍스트 자막을 영상 안에 직접 넣는 기능은 아직 약하다. 자막은 외부 편집 앱을 쓴다.
캐릭터의 일관성을 유지하려면 참조 이미지를 활용하거나 외모 묘사를 구체적으로 반복한다.

실습 코칭 프롬프트

너는 AI 영상 프롬프트 코치다. 나는 Veo가 알아듣는 지시 요소를 배웠고, 내 제품의 8초 광고 쇼케이스 컷을 한 줄 영문 프롬프트로 완성하려 한다. 답을 통째로 주지 말고 한 가지씩 물어 내가 채우게 한다.

[채울 요소]
- 주체: 보여줄 제품 (형태·색·재질)
- 카메라: 앵글·무빙 (예: slow dolly-in, orbit)
- 조명: 빛의 종류 (예: rim light, golden hour)
- 스타일: 화풍 (예: cinematic luxury commercial)
- 분위기: 전달할 인상 (예: premium and elegant)

[코칭 방식]
1. 내 제품이 무엇인지 먼저 묻는다.
2. 주체→카메라→조명→스타일→분위기를 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 카메라와 조명 중 적어도 하나는 영화 용어로 채우게 한다. 둘 다 비우면 밋밋한 정지컷이 된다고 알려 준다.
4. 다 채우면 한 문장으로 잇고 끝에 8-second product showcase를 붙이게 한다.

[내 상황]
- 제품: {제품}
- 막힌 요소: {막힌_요소}

준비됐으면 "어떤 제품을 보여줄지 한 줄로 말해라"라고만 답한다.

{제품} - 보여줄 대상, 예: 유리 향수병, 무광 검정 스마트워치.
{막힌_요소} - 채우기 어려운 요소, 예: 카메라, 조명.

변수를 채운 예시는 아래와 같다. [내 상황]만 이렇게 바꿔 붙여 넣으면 된다.

[내 상황]
- 제품: 유리 향수병
- 막힌 요소: 조명

코치가 요소를 한꺼번에 채워 주려 하면 "하나씩 물어라"라고 다시 요청한다.
제품만 향수→시계→화장품으로 바꾸면 같은 조명·카메라 세팅으로 시리즈 광고컷을 재사용한다.

2 - Google Flow 접속과 첫 실습

2.1 - Google Flow 접속과 작업 환경 준비

가장 먼저 브라우저를 열어 Flow에 접속하고 프로젝트를 하나 만든다. 이 빈 프로젝트가 앞으로 영상을 만드는 작업 공간이 된다.

웹사이트 방문 - Chrome 브라우저 주소창에 https://labs.google/fx/tools/flow를 입력하고 Enter를 누른다.
로그인 - 우측 상단 [Sign in]을 클릭해 Google 계정으로 로그인한다.
무료 체험 시작 - 화면에 나타나는 안내에 따라 구독 또는 무료 체험을 시작한다.
1. [Start free trial] 클릭 → 결제 정보 등록(체험 기간 내 해지 시 비용 미발생) → 대시보드 진입.
프로젝트 생성 - 좌측 사이드바 [New Project] 클릭 → 프로젝트 이름(예: First_Test) 입력 → 빈 작업 영역을 확인한다.

무료 체험 종료 1~2일 전에 해지 알림을 설정하면 자동 결제를 막을 수 있다.
지역에 따라 서비스 접근이 제한될 수 있다. 이때는 Gemini(gemini.google.com)를 대안으로 쓴다.

2.2 - 인터페이스 구성 요소 확인

영상을 만들기 전에 화면 어디에 무엇이 있는지 한 번 짚는다. 위치를 익혀 두면 다음 실습에서 버튼을 찾느라 멈추지 않는다.

상단 바 - 현재 남은 Credits 수치를 확인한다. 영상 생성 시 실시간으로 줄어든다.
프롬프트 입력창 - 화면 하단의 Describe your scene... 영역을 클릭한다.
모델 선택 드롭다운 - 입력창 왼쪽의 모델 이름을 클릭해 Fast, Lite, 고품질 등급을 확인한다.
화면 비율 - 16:9(가로), 9:16(세로), 1:1(정방형) 버튼을 확인한다.
생성 버튼 - 우측의 파란색 [Generate] 버튼을 확인한다.

2.3 - 첫 번째 영상 생성 실습 (해변 노을)

이제 실제로 영상 하나를 만든다. 가장 싼 모델로 노을 진 해변 8초 영상을 만들어 내 컴퓨터에 저장하는 데까지 따라간다.

모델 설정 - 입력창 왼쪽 모델 드롭다운을 클릭해 가장 저렴한 Fast 계열 모델을 선택한다.
비율 설정 - 16:9 버튼을 클릭한다.

프롬프트 입력 - 아래 영문 텍스트를 복사해 입력창에 붙여넣는다.

Soft waves rolling onto a sandy shore at sunset, warm orange and pink sky, gentle slow motion, wide cinematic framing, a calm and tranquil feel, photorealistic.

생성 실행 - [Generate] 버튼을 클릭한다(Ctrl+Enter 단축키가 동작하면 함께 쓴다).
재생과 확인 - 생성이 완료(약 30~60초 소요)되면 나타나는 영상을 클릭하거나 Space를 눌러 재생한다. 파도와 노을이 제대로 표현됐는지 확인한다.
다운로드 - 영상 우측 하단 [Download] 아이콘을 클릭해 MP4 파일을 내 컴퓨터에 저장한다.

저장된 MP4는 같은 프롬프트라도 생성할 때마다 조금씩 다르게 나온다. 마음에 드는 컷이 나오면 바로 내려받아 두는 편이 좋다.

결과가 마음에 들지 않으면 [Regenerate]를 눌러 같은 프롬프트로 다시 만든다.
문구를 고치고 싶으면 [Edit Prompt]를 클릭한다.

2.4 - 변수 통제 실험 (시간대 변경)

앞에서 만든 프롬프트에서 단어 두 개만 바꿔 본다. 한 군데만 바꿔 보면 어떤 단어가 화면의 무엇을 정하는지 또렷이 보인다.

프롬프트 수정 - 기존 문구에서 at sunset을 at DAWN으로, warm orange and pink sky를 soft purple and blue sky로 바꾼다.
재생성 - [Generate]를 누른다.
비교 - 노을(Sunset) 버전과 새벽(Dawn) 버전의 색감 차이를 확인한다.

시간대 단어 하나가 하늘 색 전체를 바꾼다. 이렇게 한 번에 한 군데만 바꿔야 그 단어의 효과를 정확히 가릴 수 있다.

2.5 - 모바일 워크플로우 (Flow + 캡컷)

컴퓨터가 없어도 스마트폰만으로 생성부터 편집까지 끝낼 수 있다. Flow로 만든 영상을 캡컷에서 숏폼 비율로 다듬는 흐름이다.

모바일 접속 - 스마트폰 브라우저에서 https://labs.google/fx/tools/flow에 접속한다.
영상 생성과 저장 - 위 실습과 똑같이 영상을 생성한 뒤, 화면의 [Download] 버튼을 길게 눌러 기기 갤러리에 저장한다.
캡컷 실행 - 캡컷(CapCut) 앱을 열고 [새 프로젝트]를 누른다.
클립 불러오기 - 저장한 Veo 영상을 선택해 타임라인에 올린다.
비율과 음악 - [비율] 메뉴에서 9:16을 선택하고, [오디오] 메뉴에서 배경 음악을 넣는다.
내보내기 - 우측 상단 화살표 아이콘을 눌러 영상을 저장하거나 SNS에 올린다.

모바일에서 영어 입력이 어려우면 한국어로 장면을 메모한 뒤 번역 도구를 써서 붙여넣는다.
숏폼용 영상은 처음부터 Flow에서 9:16 비율로 생성하는 편이 좋다.

실습 코칭 프롬프트

너는 AI 영상 프롬프트 코치다. 나는 Flow에 한 줄 프롬프트로 영상을 만들고 변수 하나만 바꿔 비교하는 법을 배웠고, 내 소재의 움직이는 한 컷을 완성하려 한다. 답을 통째로 주지 말고 한 가지씩 물어 내가 채우게 한다.

[채울 요소]
- 공간: 움직임이 담긴 배경 (예: 야시장 골목, 옥상에서 본 도시)
- 시간대: 빛을 정하는 시각 (예: night, rainy evening)
- 빛·색: 화면 톤 (예: neon reflections, cool blue twilight)
- 움직이는 요소: 장면에 생기를 주는 동작 (예: people walking past, cars with light trails)
- 카메라: 무빙 (예: slow tracking shot, static wide shot)
- 분위기·화풍·화면비

[코칭 방식]
1. 어떤 공간을 보여줄지 먼저 묻는다.
2. 공간→시간대→빛·색→움직이는 요소→카메라 순으로 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 움직이는 요소를 꼭 채우게 한다. 비우면 정지화면처럼 밋밋해진다고 알려 준다.
4. 다 채우면 한 문장으로 잇고 끝에 화면비(16:9 / 9:16 / 1:1)를 붙이게 한다.
5. 변수 하나(예: 움직이는 요소)만 바꿔 비교본을 하나 더 만들도록 안내한다.

[내 상황]
- 만들 공간: {만들_공간}
- 막힌 요소: {막힌_요소}

준비됐으면 "어떤 공간을 보여줄지 한 줄로 말해라"라고만 답한다.

{만들_공간} - 움직임이 담긴 배경 한 컷, 예: 비 오는 밤 편의점 앞.
{막힌_요소} - 채우기 어려운 요소, 예: 빛·색, 카메라.

변수를 채운 예시는 아래와 같다. [내 상황]만 이렇게 바꿔 붙여 넣으면 된다.

[내 상황]
- 만들 공간: 비 오는 밤 편의점 앞
- 막힌 요소: 빛·색

코치가 한꺼번에 다 채워 주려 하면 "하나씩 물어라"라고 다시 요청한다.
변수 하나만 바꿔 가며 2.4의 변수 통제 실험을 반복한다.

3 - Google Flow 실전: 이미지에서 말하는 영상까지

2026.05.18 기준 작업 기록을 바탕으로 한다.
2026.05.19 omi 모델이 추가되며 화면(UI) 구성이 일부 바뀌었다. 버튼 위치가 교안과 다르면 같은 기능의 메뉴를 화면에서 찾아 진행한다.

3.1 - 인물 이미지 생성과 다듬기

이미지 생성 - Flow의 이미지 생성 기능으로 인물 이미지를 만든다. 아래는 생성에 사용한 공유 프롬프트 링크다.
1. 프롬프트: https://labs.google/fx/tools/flow/shared/image/46c70f76-214e-4ac0-8364-18316ffb0c25
2. 최초 생성 이미지: https://flow-content.google/image/ff414606-539f-476b-82e1-1154e13cf0a7
불필요 요소 제거 - 배경과 옷깃에 남은 군더더기 요소를 지운다. 멀리 떨어진 영역은 한 번에 선택되지 않으므로 두 번에 나누어 지운다.
수정 프롬프트 입력 - 지울 영역을 선택한 뒤 프롬프트에 지워라고 입력한다.
1. 수정 후 이미지: https://labs.google/fx/api/trpc/media.getMediaUrlRedirect?name=b89366a1-dfd1-43fa-9d24-fcbf21caae90

이 이미지가 다음 단계에서 영상의 첫 프레임이 된다. 배경이 지저분하면 영상에도 그대로 따라오므로 여기서 깨끗이 정리해 둔다.

3.2 - 이미지를 장면으로 불러오기

다듬은 인물 이미지를 영상 작업 영역으로 가져온다. 이 이미지가 첫 프레임이 되어, 같은 얼굴이 말하는 영상이 만들어진다.

장면 만들기 진입 - Flow 우측 상단 + 버튼을 클릭한 뒤 [장면 만들기]를 클릭한다.
이미지 선택 - 앞에서 생성·수정한 인물 이미지를 선택한다. 이 이미지가 영상의 첫 프레임 기준이 된다.

3.3 - 메인 프롬프트 작성 (5블록 구조)

이제 인물이 말하게 할 프롬프트를 다섯 블록으로 나누어 쓴다. 블록을 나눠 두면 나중에 한 블록만 바꿔 톤이나 대사를 손쉽게 바꿀 수 있다.

블록별 역할 이해 - 아래 다섯 블록을 순서대로 채운다. [CINEMATOGRAPHY]는 카메라, [SUBJECT]는 인물 외형, [ACTION]은 동작과 한국어 대사·립싱크, [CONTEXT]는 배경·환경음, [STYLE]은 화풍·조명·색조와 끝의 금지 요소다.
메인 프롬프트 입력 - 아래 문구를 입력창에 붙여넣는다. 한국어 대사를 또렷한 방송 톤으로 말하는 인물 영상이다.

[CINEMATOGRAPHY]
Medium close-up from chest level, eye-level static shot, 85mm portrait lens look, very shallow depth of field, subject perfectly centered with slight space above her head.

[SUBJECT]
A Korean woman in her late 20s, long dark brown hair tied in a high ponytail with the tail falling over her right shoulder, a few loose strands framing her face. Clean glowing skin, natural dewy makeup, soft pink lip tint, defined slightly arched eyebrows, warm brown eyes, a gentle closed-lip smile. She wears a black tailored blazer over a plain white inner top, with a thin silver ring on her index finger.

[ACTION]
She starts with her right hand resting lightly near her chin, then slowly lowers her hand as she begins speaking. A soft confident smile spreads across her face, she gives one small nod mid-sentence, and looks straight into the camera with a calm, friendly gaze. She speaks in clear, warm Korean with a polished broadcasting tone: "안녕하세요, 오늘은 영상 편집 앱 캡컷을 소개할게요." Lip movement precisely synced to Korean phonemes, natural breath between phrases.

[CONTEXT]
A soft pastel pink seamless studio background. Soft studio room tone, no background music.

[STYLE]
Korean beauty-brand commercial aesthetic, clean and polished, soft pastel color palette, photorealistic 4K, natural skin texture preserved. Soft large key light from the front, gentle pink fill bouncing from the background, warm 4800K, subtle catchlight in both eyes, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, harsh shadows, plastic skin, distorted lip sync, robotic voice, logo watermarks, extra fingers.

[SUBJECT]와 [STYLE]의 Avoid는 그대로 두고 [ACTION]만 바꾸면 같은 인물의 다른 톤 영상을 빠르게 만든다.
대사에 따옴표를 써도 [STYLE] Avoid에 subtitles를 넣으면 자막이 화면에 박히는 것을 막는다.

3.4 - 톤 변형 실습

같은 인물로 분위기만 다른 컷을 만들어 본다. [ACTION]과 [STYLE] 두 블록만 갈아 끼우면 인물은 그대로인 채 톤이 바뀐다.

[ACTION]
She holds her right hand up at shoulder level with palm facing the camera in a gentle greeting wave, then brings both hands together at chest level as she finishes speaking. Bright open smile showing slight teeth, one cheerful nod. She speaks in upbeat, friendly Korean: "여러분 안녕하세요! 캡컷으로 영상 편집 시작해 볼까요?" Mouth movements tightly synced to Korean syllables.

[STYLE]
Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Bright high-key lighting from upper front and both sides, 5000K slightly warm, vibrant but soft, creator-vlog feel, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, distorted lip sync, robotic voice, extra fingers.

변형 2 (차분한 리뷰 톤) - 같은 방식으로 두 블록을 아래로 교체한다.

[ACTION]
She keeps her hands gently clasped at chest level throughout, slight head tilt to the right at the start, returns to center as she speaks. Composed thoughtful expression, soft closed-lip smile only at the end. She speaks in calm, measured Korean with a clear reviewer tone: "캡컷은 무료로 쓸 수 있는 영상 편집 도구예요." Lip movement precisely synced to Korean syllables.

[STYLE]
Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Even soft front light, 5200K neutral, slight directional shadow on the left side of her face for depth, premium-magazine portrait feel, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, distorted lip sync, robotic voice, extra fingers.

비교 - 동작·조명·대사 톤만 바꿨는데 인물은 그대로 유지되는지 확인한다. [SUBJECT]가 외형을 잡아 주기 때문이다.

[SUBJECT]를 건드리지 않는 한 얼굴·머리·옷은 같은 사람으로 유지된다. 그래서 시리즈 영상을 만들 때 [ACTION]과 [STYLE]만 바꾸는 방식이 통한다.

3.5 - 확장(Extend)으로 장면 잇기

확장 원리 이해 - Flow의 Extend 기능을 쓰면 이전 영상의 마지막 프레임이 자동으로 다음 영상의 시작 프레임이 된다. 따라서 [SUBJECT]는 외형을 길게 묘사하지 않고 같은 인물·같은 의상·같은 배경임을 짧게 명시한 뒤, [ACTION]에 집중한다.

이어지는 컷 작성 - 이전 영상의 끝 상태(손을 내리고 카메라 응시)에 이어 붙는 8초 컷이다. 타임라인 개념을 설명하는 장면이다.

[CINEMATOGRAPHY]
Medium close-up, eye-level static shot, 85mm portrait lens look, shallow depth of field. Same framing as the previous shot to keep visual continuity.

[SUBJECT]
The same Korean woman from the previous shot, identical hairstyle, makeup, black tailored blazer over white inner top.

[ACTION]
She raises both hands to chest level, palms facing the camera, then slowly moves both hands horizontally from her left side to her right side as if drawing an invisible long bar in the air. She finishes with her right hand extended to the side and looks confidently at the camera with a small smile. She speaks in clear, friendly Korean with a polished broadcasting tone: "화면 아래 이 긴 막대가 바로 타임라인이에요." Lip movement precisely synced to Korean phonemes.

[CONTEXT]
Soft pastel pink studio background, continuous scene. Soft studio room tone, no background music.

[STYLE]
Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Identical lighting to the previous shot — soft large key light from the front, gentle pink fill, warm 4800K, no harsh shadows, 16:9 aspect ratio. Visual continuity with the previous clip. Avoid: English speech, subtitles, text overlays, UI graphics, multiple people, hair or clothing change, scene cut, camera movement, distorted lip sync, extra fingers.

동작·대사만 바꿔 연속 컷 늘리기 - 이어지는 컷은 [ACTION]만 교체해 같은 흐름으로 생성한다. 대사가 [ACTION]에 통합돼 있어 이 블록 하나만 바꾸면 된다.

[ACTION]
She points her right index finger to her left side at chest level, then slowly traces a horizontal line to her right side, finger extended throughout, finishing with a small tap gesture at the end. Eyes follow her finger then return to the camera. She speaks in clear, instructive Korean: "왼쪽에서 오른쪽으로 시간이 흘러가요." Lip movement precisely synced to Korean syllables.

[ACTION]
She holds her left palm out flat horizontally at chest level, then with her right hand makes a soft placing motion as if dropping rectangular blocks onto her left palm, twice. Finishes looking at the camera with an open smile. She speaks in warm, encouraging Korean: "여기에 영상 클립을 순서대로 올려놓으면 돼요." Mouth movements tightly synced to Korean syllables.

확장 컷에서는 [CINEMATOGRAPHY]와 [STYLE]의 조명을 이전 컷과 똑같이 유지해야 장면이 튀지 않는다.
[STYLE] 끝 Avoid에 scene cut, camera movement를 넣어 연속성을 강제한다.

3.6 - 완성 영상 확인

위 메인 프롬프트와 확장 컷을 이어 만든 완성 영상은 아래에서 확인한다.

https://drive.google.com/file/d/1nocxgkm3t9AB2NTP_UX6nH98hIdavp8i/view?usp=sharing

한국어 립싱크는 짧고 또렷한 문장일수록 정확하다. 한 컷당 한두 문장으로 끊는다.
인물·의상·배경을 고정한 [SUBJECT]와 연속성을 막는 [STYLE] Avoid가 시리즈 영상의 일관성을 좌우한다.

3.7 - 영문으로 변환해 입력하기

다음 5블록 영상 프롬프트에서 한국어로 적힌 부분을 영어로 옮겨라. 블록 이름과 구조는 그대로 두고, 카메라·조명·스타일 용어는 영어 영상 제작 용어로 정확히 바꾼다. 단 [ACTION] 안의 따옴표로 감싼 한국어 대사는 번역하지 말고 한국어 그대로 둔다.

[내 5블록 프롬프트]
{내_프롬프트}

{내_프롬프트} - 5블록으로 조립한 내 프롬프트(대사는 한국어).

변환된 결과를 그대로 입력창에 붙여 넣으면 된다.

변환 뒤에도 [ACTION]의 한국어 대사가 따옴표 안에 그대로 남아 있는지 확인한다.
카메라·조명 용어(85mm, key light 등)가 영어로 정확히 들어갔는지 본다.

실습 코칭 프롬프트

너는 AI 영상 립싱크 프롬프트 코치다. 나는 Veo 공식 5형식을 립싱크용으로 적용한 5블록 구조를 배웠고, 내 인물이 말하는 한 컷을 완성하려 한다. 답을 통째로 주지 말고 블록을 하나씩 물어 내가 채우게 한다.

[5블록]
- [CINEMATOGRAPHY]: 카메라 앵글·샷·무빙·렌즈
- [SUBJECT]: 인물 외형 (나이·헤어·피부·표정·의상·소품)
- [ACTION]: 동작·표정 변화 + 한국어 대사(따옴표)·립싱크 지시
- [CONTEXT]: 배경·공간·환경음
- [STYLE]: 화풍·무드·조명·색조, 끝에 Avoid로 금지 요소

[코칭 방식]
1. 누가 어디서 무슨 말을 하는지 먼저 듣는다.
2. SUBJECT→CINEMATOGRAPHY→CONTEXT→ACTION→STYLE 순으로 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 대사는 한두 문장으로 짧게, 따옴표로 감싸 [ACTION]에 넣게 한다. 길면 립싱크가 어긋난다고 알려 준다.
4. 조명은 [STYLE]에, 금지 요소(no subtitles, no distorted lip sync 등)는 [STYLE] 끝 Avoid에 넣게 한다.
5. 시리즈로 만들 거면 [SUBJECT]를 고정하고 [ACTION]만 바꾸도록 안내한다.

[내 상황]
- 말하는 인물과 장면: {인물_장면}
- 막힌 블록: {막힌_블록}

준비됐으면 "누가 어디서 무슨 말을 하는지 한 줄로 말해라"라고만 답한다.

{인물_장면} - 말하는 인물과 장면을 한 줄로, 예: 30대 남성이 홈오피스에서 공부 앱을 소개한다.
{막힌_블록} - 채우기 어려운 블록, 예: CINEMATOGRAPHY, STYLE.

변수를 채운 예시는 아래와 같다. [내 상황]만 이렇게 바꿔 붙여 넣으면 된다.

[내 상황]
- 말하는 인물과 장면: 30대 남성이 홈오피스에서 공부 앱을 소개한다
- 막힌 블록: STYLE

코치가 블록을 한꺼번에 채워 주려 하면 "하나씩 물어라"라고 다시 요청한다.
[SUBJECT]를 고정하고 [ACTION]만 바꾸면 같은 인물의 다른 대사 컷을 연속으로 만든다.