Google Veo 3.1이 텍스트를 영상으로 바꾸는 과정을 이해하고, Flow에서 첫 영상을 만들어 봅시다.
Chrome 브라우저와 Google 계정만 있으면 바로 시작할 수 있습니다.
끝까지 따라 하면 8초 영상 파일, 같은 인물이 말하는 연속 컷, AI 코치 프롬프트까지 완성할 수 있습니다.
1 – Google Veo 3.1 기초 이해
도구를 켜기 전에 Veo가 무엇을 알아듣는지 먼저 잡아 봅시다.
Veo는 글로 적은 장면 지시문(프롬프트)을 읽고 영상을 새로 그려 내는 도구입니다.
어떤 말을 넣으면 어떤 화면이 나오는지 알아야 Flow에서 헤매지 않습니다. 공식 설명은 아래 두 도움말에서 볼 수 있습니다.
1.1 – AI 영상 생성의 원리와 프롬프트
사람이 글로 장면을 적으면 AI가 그 글을 읽고 영상을 그립니다.
이 원리를 알아야 무엇을 적을지 감이 잡힙니다.
-
텍스트-투-비디오(Text-to-Video) 개념 – 사람이 텍스트로 장면을 설명하면 AI가 이를 읽고 픽셀 단위로 새 영상을 합성합니다. 기존 영상을 잘라 붙이는 방식이 아니라, 학습한 데이터로 무에서 유를 만듭니다.
-
프롬프트 입력 예시 – 아래 문구를 입력창에 넣으면 AI가 새벽 호수에서 낚시하는 어부의 8초 영상을 만듭니다.
A weathered old angler drifts alone in a narrow rowboat on a fog-veiled lake at first light, pale gold sunbeams cutting through the haze, a quiet and wistful mood.문장 하나에 누가(angler)·어디서(fog-veiled lake)·언제(first light)·분위기(wistful)가 모두 담겨 있습니다. 단서가 구체적일수록 결과가 또렷해집니다.
-
기술 발전 흐름 – 2022년 정지 이미지 생성에서 시작해 2025년 Google Veo 3.1에 이르러, 영상과 오디오(대화·음악)를 함께 생성하는 단계로 발전했습니다.
[!NOTE]
- 프롬프트는 AI에게 주는 장면 지시문입니다.
- Veo 3.1은 영상뿐 아니라 그 장면에 어울리는 소리까지 함께 만듭니다.
1.2 – Veo 3.1의 핵심 강점과 지시 가능 요소
Veo에게 무엇을 시킬 수 있는지 알면 프롬프트에 넣을 단서가 늘어납니다.
물리·오디오·카메라·스타일 네 가지를 지시할 수 있다는 점을 잡아 둡시다.
- 사실적 물리 표현 – 파도, 불꽃, 연기, 옷감의 펄럭임처럼 물리 법칙을 반영한 움직임을 만듭니다.
- 내장 오디오 생성 – 소리(대사·효과음·배경음)를 영상과 함께 만듭니다. 오디오 라벨 규칙의 자세한 설명은 「Google Flow: 오디오 & 대화 장면 프롬프트」 문서를 참고하세요.
- 카메라 제어 – 영화 용어(달리 샷, 버드아이 뷰 등)를 알아듣고 구도를 바꿉니다.
- 스타일 변환 – 시네마틱, 애니메이션, 다큐멘터리 같은 장르 키워드에 따라 화풍을 바꿉니다.
[!TIP]
- 카메라 앵글:
Close-up,Wide shot,Low angle,High angle.- 카메라 움직임:
Pan,Tilt,Dolly,Tracking,Handheld.- 조명:
Golden hour,Moonlight,Neon,Backlit.
1.3 – 모델 등급(Fast / Lite / 고품질) 선택 전략
영상을 만들 때마다 크레딧이 줄어듭니다.
그래서 싼 등급으로 방향을 잡은 뒤 마지막에만 고품질을 쓰는 순서가 중요합니다.
- 등급별 차이 – 속도·비용·품질에 따라 세 등급으로 나뉩니다.
- Fast – 가장 빠르고 저렴합니다. 아이디어 방향을 테스트할 때 씁니다.
- Lite(경량) – 중간 속도와 비용입니다. 구도와 디테일을 빠르게 검증할 때 씁니다.
- 고품질 – 가장 느리고 비쌉니다. 정밀한 대화와 립싱크가 필요한 최종 결과물에 씁니다.
- 오디오 지원 확인 – 오디오 지원 여부는 등급·버전에 따라 다르고 자주 바뀝니다. 보통 경량(Lite) 등급은 묵음일 수 있고 표준·고품질 등급이 오디오를 포함하므로, 생성 전에 Flow 화면에서 오디오 지원 표시와 예상 크레딧을 직접 확인합니다.
- 크레딧 절약 작업 순서 – 영상은 생성할 때마다 크레딧이 줄어듭니다.
Fast로 방향을 테스트하고Lite로 구도·디테일을 검증한 뒤, 최종 컷만고품질로 만들면 크레딧을 아낌니다. 처음부터 고품질만 반복하면 크레딧이 금방 바닥납니다.
[!IMPORTANT]
- 처음부터 고품질 모델을 쓰면 크레딧이 금방 바닥납니다.
Fast로 여러 번 시도한 뒤 가장 좋은 결과물의 프롬프트를고품질에 넣습니다.
1.4 – Veo 3.1 활용 콘텐츠 유형
같은 도구로 어떤 결과물을 만들 수 있는지 알면 내 목표를 잡기 쉽습니다.
대표 네 가지 유형을 살펴봅시다.
- AI 단편 영화 – 8초 클립을 이어 붙여 이야기를 만듭니다.
- 가상 캐릭터 브이로그 – 실제 존재하지 않는 캐릭터의 일상을 만듭니다.
- 광고 크리에이티브 – 제품(향수, 자동차 등) 쇼케이스 영상을 만듭니다.
- POV(1인칭 시점) – 시청자가 직접 보는 듯한 몰입형 영상을 만듭니다.
[!NOTE]
- 텍스트 자막을 영상 안에 직접 넣는 기능은 아직 약합니다. 자막은 외부 편집 앱을 씁니다.
- 캐릭터를 일관되게 유지하려면 참조 이미지를 쓰거나 외모 묘사를 구체적으로 반복합니다.
실습 코칭 프롬프트
이 단원에서 익힌 지시 요소(주체·카메라·조명·스타일)로 짧은 광고 쇼케이스 컷을 짜다 막히면, 아래 프롬프트를 대화형 AI(ChatGPT·Claude·Gemini)에 붙여 넣어 코치로 삼습니다.
빈 요소를 한꺼번에 받지 말고 하나씩 채워 완성합니다.
너는 AI 영상 프롬프트 코치다. 나는 Veo가 알아듣는 지시 요소를 배웠고, 내 제품의 8초 광고 쇼케이스 컷을 한 줄 영문 프롬프트로 완성하려 한다. 답을 통째로 주지 말고 한 가지씩 물어 내가 채우게 한다.
[채울 요소]
- 주체: 보여줄 제품 (형태·색·재질)
- 카메라: 앵글·무빙 (예: slow dolly-in, orbit)
- 조명: 빛의 종류 (예: rim light, golden hour)
- 스타일: 화풍 (예: cinematic luxury commercial)
- 분위기: 전달할 인상 (예: premium and elegant)
[코칭 방식]
1. 내 제품이 무엇인지 먼저 묻는다.
2. 주체→카메라→조명→스타일→분위기를 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 카메라와 조명 중 적어도 하나는 영화 용어로 채우게 한다. 둘 다 비우면 밋밋한 정지컷이 된다고 알려 준다.
4. 다 채우면 한 문장으로 잇고 끝에 8-second product showcase를 붙이게 한다.
[내 상황]
- 제품: {제품}
- 막힌 요소: {막힌_요소}
준비됐으면 "어떤 제품을 보여줄지 한 줄로 말해라"라고만 답한다.
{제품}– 보여줄 대상, 예: 유리 향수병, 무광 검정 스마트워치.{막힌_요소}– 채우기 어려운 요소, 예: 카메라, 조명.
변수를 채운 예시는 아래와 같습니다. [내 상황]만 이렇게 바꿔 붙여 넣으면 됩니다.
[내 상황]
- 제품: 유리 향수병
- 막힌 요소: 조명
[!TIP]
- 코치가 요소를 한꺼번에 채워 주려 하면 "하나씩 물어라"라고 다시 요청합니다.
- 제품만 향수→시계→화장품으로 바꾸면 같은 조명·카메라 세팅으로 시리즈 광고컷을 재사용할 수 있습니다.
2 – Google Flow 접속과 첫 실습
개념을 잡았으니 이제 Flow를 직접 켜서 첫 영상을 손으로 만들어 봅시다.
접속·로그인부터 프롬프트 입력, 생성, 다운로드까지 한 번에 따라가고, 변수 하나만 바꿔 결과가 어떻게 달라지는지도 눈으로 확인합니다.
2.1 – Google Flow 접속과 작업 환경 준비
먼저 브라우저로 Flow에 접속해 프로젝트를 하나 만듭니다.
이 빈 프로젝트가 앞으로 영상을 만드는 작업 공간이 됩니다.
- 웹사이트 방문 – Chrome 브라우저 주소창에
https://labs.google/fx/tools/flow를 입력하고 Enter를 누릅니다. - 로그인 – 우측 상단
[Sign in]을 클릭해 Google 계정으로 로그인합니다. - 무료 사용 시작 – 2026년 5월 기준, 모든 Google 계정에서 Veo 3.1을 무료로 사용할 수 있고 비구독자는 하루 50 Flow 크레딧이 주어집니다. 화면 안내에 따라 바로 시작하고, 더 많은 크레딧이나 고품질 옵션이 필요하면 유료 구독을 선택합니다.
- 무료로 바로 쓰면
[New Project]로 이동, 구독을 고르면[Start free trial]클릭 → 결제 정보 등록(체험 기간 내 해지 시 비용 미발생) → 대시보드 진입.
- 무료로 바로 쓰면
- 프로젝트 생성 – 좌측 사이드바
[New Project]클릭 → 프로젝트 이름(예:First_Test) 입력 → 빈 작업 영역을 확인합니다.
[!WARNING]
- 무료 체험 종료 1~2일 전에 해지 알림을 설정하면 자동 결제를 막을 수 있습니다.
- 지역에 따라 접근이 제한될 수 있습니다. 이때는 Gemini(gemini.google.com)를 대안으로 씁니다.
2.2 – 인터페이스 구성 요소 확인
영상을 만들기 전에 화면 어디에 무엇이 있는지 한 번 짚어 봅시다.
위치를 익혀 두면 다음 실습에서 버튼을 찾느라 멈추지 않습니다.
- 상단 바 – 현재 남은
Credits수치를 확인합니다. 영상 생성 시 실시간으로 줄어듭니다. - 프롬프트 입력창 – 화면 하단의
Describe your scene...영역을 클릭합니다. - 모델 선택 드롭다운 – 입력창 왼쪽의 모델 이름을 클릭해
Fast,Lite,고품질등급을 확인합니다. - 화면 비율 –
16:9(가로),9:16(세로),1:1(정방형) 버튼을 확인합니다. - 생성 버튼 – 우측의 파란색
[Generate]버튼을 확인합니다.
2.3 – 첫 번째 영상 생성 실습 (해변 노을)
이제 실제로 영상 하나를 만들어 봅시다.
가장 싼 모델로 노을 진 해변 8초 영상을 만들어 내 컴퓨터에 저장하는 데까지 따라갑니다.
- 모델 설정 – 1.3에서 정한대로 입력창 왼쪽 모델 드롭다운에서
Fast계열 모델을 선택합니다. - 비율 설정 –
16:9버튼을 클릭합니다. - 프롬프트 입력 – 아래 영문 텍스트를 복사해 입력창에 붙여넣습니다.
Soft waves rolling onto a sandy shore at sunset, warm orange and pink sky, gentle slow motion, wide cinematic framing, a calm and tranquil feel, photorealistic. - 생성 실행 –
[Generate]버튼을 클릭합니다(Ctrl+Enter 단축키가 동작하면 함께 씁니다). - 재생과 확인 – 생성이 완료(약 30~60초 소요)되면 나타나는 영상을 클릭하거나 Space를 눌러 재생합니다. 파도와 노을이 잘 표현됐는지 확인합니다.
- 다운로드 – 영상 우측 하단
[Download]아이콘을 클릭해 MP4 파일을 내 컴퓨터에 저장합니다.
같은 프롬프트라도 생성할 때마다 결과가 조금씩 다릅니다. 마음에 드는 컷이 나오면 바로 내려받아 둡시다.
[!NOTE]
- 결과가 마음에 들지 않으면
[Regenerate]를 눌러 같은 프롬프트로 다시 만듭니다.- 문구를 고치고 싶으면
[Edit Prompt]를 클릭합니다.
2.4 – 변수 통제 실험 (시간대 변경)
앞에서 만든 프롬프트에서 단어 두 개만 바꿔 봅시다.
한 군데만 바꿔 보면 어떤 단어가 화면의 무엇을 정하는지 또렷이 보입니다.
- 프롬프트 수정 – 기존 문구에서
at sunset을at DAWN으로,warm orange and pink sky를soft purple and blue sky로 바꿉니다. - 재생성 –
[Generate]를 누릅니다. - 비교 – 노을(Sunset) 버전과 새벽(Dawn) 버전의 색감 차이를 확인합니다.
시간대 단어 하나가 하늘 색 전체를 바꿉니다. 한 번에 한 군데만 바꿔야 그 단어의 효과를 정확히 가릴 수 있습니다.
2.5 – 모바일 워크플로우 (Flow + 캡컷)
컴퓨터가 없어도 스마트폰만으로 생성부터 편집까지 끝낼 수 있습니다.
Flow로 만든 영상을 캡컷에서 숏폼 비율로 다듬어 봅시다.
- 모바일 접속 – 스마트폰 브라우저에서
https://labs.google/fx/tools/flow에 접속합니다. - 영상 생성과 저장 – 위 실습과 똑같이 영상을 만든 뒤, 화면의
[Download]버튼을 길게 눌러 기기 갤러리에 저장합니다. - 캡컷 실행 – 캡컷(CapCut) 앱을 열고
[새 프로젝트]를 누릅니다. - 클립 불러오기 – 저장한 Veo 영상을 선택해 타임라인에 올립니다.
- 비율과 음악 –
[비율]메뉴에서9:16을 선택하고,[오디오]메뉴에서 배경 음악을 넣습니다. - 내보내기 – 우측 상단 화살표 아이콘을 눌러 영상을 저장하거나 SNS에 올립니다.
[!TIP]
- 모바일에서 영어 입력이 어려우면 한국어로 장면을 메모한 뒤 번역 도구로 옮겨 붙여넣습니다.
- 숏폼용 영상은 처음부터 Flow에서
9:16비율로 만드는 편이 좋습니다.
실습 코칭 프롬프트
이 단원에서 실습한 "한 줄 프롬프트로 영상 만들고 변수 하나만 바꿔 비교하기"를 내 소재의 움직이는 장면에 적용하다 막히면, 아래 프롬프트를 대화형 AI에 붙여 넣어 코치로 삼습니다.
너는 AI 영상 프롬프트 코치다. 나는 Flow에 한 줄 프롬프트로 영상을 만들고 변수 하나만 바꿔 비교하는 법을 배웠고, 내 소재의 움직이는 한 컷을 완성하려 한다. 답을 통째로 주지 말고 한 가지씩 물어 내가 채우게 한다.
[채울 요소]
- 공간: 움직임이 담긴 배경 (예: 야시장 골목, 옥상에서 본 도시)
- 시간대: 빛을 정하는 시각 (예: night, rainy evening)
- 빛·색: 화면 톤 (예: neon reflections, cool blue twilight)
- 움직이는 요소: 장면에 생기를 주는 동작 (예: people walking past, cars with light trails)
- 카메라: 무빙 (예: slow tracking shot, static wide shot)
- 분위기·화풍·화면비
[코칭 방식]
1. 어떤 공간을 보여줄지 먼저 묻는다.
2. 공간→시간대→빛·색→움직이는 요소→카메라 순으로 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 움직이는 요소를 꼭 채우게 한다. 비우면 정지화면처럼 밋밋해진다고 알려 준다.
4. 다 채우면 한 문장으로 잇고 끝에 화면비(16:9 / 9:16 / 1:1)를 붙이게 한다.
5. 변수 하나(예: 움직이는 요소)만 바꿔 비교본을 하나 더 만들도록 안내한다.
[내 상황]
- 만들 공간: {만들_공간}
- 막힌 요소: {막힌_요소}
준비됐으면 "어떤 공간을 보여줄지 한 줄로 말해라"라고만 답한다.
{만들_공간}– 움직임이 담긴 배경 한 컷, 예: 비 오는 밤 편의점 앞.{막힌_요소}– 채우기 어려운 요소, 예: 빛·색, 카메라.
변수를 채운 예시는 아래와 같습니다. [내 상황]만 이렇게 바꿔 붙여 넣으면 됩니다.
[내 상황]
- 만들 공간: 비 오는 밤 편의점 앞
- 막힌 요소: 빛·색
[!TIP]
- 코치가 한꺼번에 다 채워 주려 하면 "하나씩 물어라"라고 다시 요청합니다.
- 변수 하나만 바꿔 가며 2.4의 변수 통제 실험을 반복합니다.
3 – Google Flow 실전: 이미지에서 말하는 영상까지
먼저 인물 이미지를 만들고, 그 이미지를 시작점으로 한국어 립싱크 영상을 생성한 뒤, 확장(Extend)으로 장면을 길게 이어 봅시다.
이때 프롬프트는 공식 5형식(촬영기법·주체·행동·맥락·스타일·분위기)을 립싱크용으로 적용한 [CINEMATOGRAPHY]·[SUBJECT]·[ACTION]·[CONTEXT]·[STYLE] 다섯 블록으로 나누어 적습니다.
인물 외형은 [SUBJECT]에, 동작과 한국어 대사·립싱크는 [ACTION]에, 조명은 [STYLE]에, 금지 요소는 [STYLE] 끝의 Avoid에 넣습니다. 환경음은 [CONTEXT]에 넣습니다.
블록을 나누면 [SUBJECT]로 외형을 고정한 채 [ACTION]만 바꿔 같은 인물의 다른 대사 컷을 쉽게 만듭니다(자세한 원리는 3.4에서 다룹니다).
[!NOTE]
- 2026.05.18 기준 작업 기록을 바탕으로 합니다.
- 2026.05.19 omi 모델이 추가되며 화면(UI)이 일부 바뀌었습니다. 버튼 위치가 교안과 다르면 같은 기능의 메뉴를 화면에서 찾아 진행합니다.
3.1 – 인물 이미지 생성과 다듬기
말하는 영상을 만들려면 먼저 말할 인물의 얼굴이 필요합니다.
Flow의 이미지 생성으로 인물을 만들고, 배경의 군더더기를 지워 깨끗한 첫 프레임을 준비합니다.
- 이미지 생성 – Flow의 이미지 생성 기능으로 인물 이미지를 만듭니다. 아래는 생성에 사용한 공유 프롬프트 링크입니다.
- 불필요 요소 제거 – 배경과 옷깃에 남은 군더더기를 지웁니다. 멀리 떨어진 영역은 한 번에 선택되지 않으므로 두 번에 나누어 지웁니다.
- 수정 프롬프트 입력 – 지울 영역을 선택한 뒤 프롬프트에
지워라고 입력합니다.
이 이미지가 다음 단계에서 영상의 첫 프레임이 됩니다. 배경이 지저분하면 영상에도 그대로 따라오므로 여기서 깨끗이 정리해 둡니다.
3.2 – 이미지를 장면으로 불러오기
다듬은 인물 이미지를 영상 작업 영역으로 가져옵니다.
이 이미지가 첫 프레임이 되어 같은 얼굴이 말하는 영상이 만들어집니다.
- 장면 만들기 진입 – Flow 우측 상단
+버튼을 클릭한 뒤[장면 만들기]를 클릭합니다. - 이미지 선택 – 앞에서 만든 인물 이미지를 선택합니다. 이 이미지가 영상의 첫 프레임 기준이 됩니다.
3.3 – 메인 프롬프트 작성 (5블록 구조)
이제 인물이 말하게 할 프롬프트를 다섯 블록으로 나누어 적어 봅시다.
블록을 나눠 두면 나중에 한 블록만 바꿔 톤이나 대사를 손쉽게 바꿀 수 있습니다.
- 블록별 역할 이해 – 다섯 블록을 순서대로 채웁니다.
[CINEMATOGRAPHY]는 카메라,[SUBJECT]는 인물 외형,[ACTION]은 동작과 한국어 대사·립싱크,[CONTEXT]는 배경·환경음,[STYLE]은 화풍·조명·색조와 끝의 금지 요소입니다. - 메인 프롬프트 입력 – 아래 문구를 입력창에 붙여넣습니다. 한국어 대사를 또렷한 방송 톤으로 말하는 인물 영상입니다.
[CINEMATOGRAPHY]
Medium close-up from chest level, eye-level static shot, 85mm portrait lens look, very shallow depth of field, subject perfectly centered with slight space above her head.
[SUBJECT]
A Korean woman in her late 20s, long dark brown hair tied in a high ponytail with the tail falling over her right shoulder, a few loose strands framing her face. Clean glowing skin, natural dewy makeup, soft pink lip tint, defined slightly arched eyebrows, warm brown eyes, a gentle closed-lip smile. She wears a black tailored blazer over a plain white inner top, with a thin silver ring on her index finger.
[ACTION]
She starts with her right hand resting lightly near her chin, then slowly lowers her hand as she begins speaking. A soft confident smile spreads across her face, she gives one small nod mid-sentence, and looks straight into the camera with a calm, friendly gaze. She speaks in clear, warm Korean with a polished broadcasting tone: "안녕하세요, 오늘은 영상 편집 앱 캡컷을 소개할게요." Lip movement precisely synced to Korean phonemes, natural breath between phrases.
[CONTEXT]
A soft pastel pink seamless studio background. Soft studio room tone, no background music.
[STYLE]
Korean beauty-brand commercial aesthetic, clean and polished, soft pastel color palette, photorealistic 4K, natural skin texture preserved. Soft large key light from the front, gentle pink fill bouncing from the background, warm 4800K, subtle catchlight in both eyes, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, harsh shadows, plastic skin, distorted lip sync, robotic voice, logo watermarks, extra fingers.
대사를 따옴표로 감싸 [ACTION]에 넣었기 때문에 인물이 그 한국어 문장을 입 모양까지 맞춰 말합니다. [STYLE] 끝의 Avoid는 자막·영어 발음·손가락 오류 같은 흔한 사고를 미리 막는 안전장치입니다. 이 안전장치 세트(영어 발음·자막·텍스트 오버레이·인물 수·헤어·의상 변경·손가락 오류 방지)는 아래 모든 컷에 공통으로 들어가고, 컷별로 달라지는 항목만 더하면 됩니다.
[!TIP]
[SUBJECT]고정 +[ACTION]교체로 같은 인물의 다른 톤 영상을 만드는 원리는 3.4에서 자세히 다룹니다.- 대사에 따옴표를 써도
[STYLE]Avoid에 subtitles를 넣으면 자막이 화면에 박히는 것을 막습니다.
3.4 – 톤 변형 실습
같은 인물로 분위기만 다른 컷을 만들어 봅시다.
[ACTION]과 [STYLE] 두 블록만 갈아 끼우면 인물은 그대로인 채 톤이 바뀝니다.
- 변형 1 (밝은 튜토리얼 톤) – 메인 프롬프트에서
[ACTION]과[STYLE]만 아래로 교체합니다. 대사는[ACTION]에, 조명은[STYLE]에 들어가므로 이 두 블록만 바꾸면 톤이 달라집니다.[ACTION] She holds her right hand up at shoulder level with palm facing the camera in a gentle greeting wave, then brings both hands together at chest level as she finishes speaking. Bright open smile showing slight teeth, one cheerful nod. She speaks in upbeat, friendly Korean: "여러분 안녕하세요! 캡컷으로 영상 편집 시작해 볼까요?" Mouth movements tightly synced to Korean syllables. [STYLE] Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Bright high-key lighting from upper front and both sides, 5000K slightly warm, vibrant but soft, creator-vlog feel, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, distorted lip sync, robotic voice, extra fingers. - 변형 2 (차분한 리뷰 톤) – 같은 방식으로 두 블록을 아래로 교체합니다.
[ACTION] She keeps her hands gently clasped at chest level throughout, slight head tilt to the right at the start, returns to center as she speaks. Composed thoughtful expression, soft closed-lip smile only at the end. She speaks in calm, measured Korean with a clear reviewer tone: "캡컷은 무료로 쓸 수 있는 영상 편집 도구예요." Lip movement precisely synced to Korean syllables. [STYLE] Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Even soft front light, 5200K neutral, slight directional shadow on the left side of her face for depth, premium-magazine portrait feel, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, distorted lip sync, robotic voice, extra fingers. - 비교 – 동작·조명·대사 톤만 바꿨는데 인물은 그대로 유지되는지 확인합니다.
[SUBJECT]가 외형을 잡아 주기 때문입니다.
[SUBJECT]를 건드리지 않는 한 얼굴·머리·옷은 같은 사람으로 유지됩니다. 그래서 시리즈 영상을 만들 때 [ACTION]과 [STYLE]만 바꾸는 방식이 통합니다.
3.5 – 확장(Extend)으로 장면 잇기
8초보다 긴 이야기는 컷을 이어 붙여 만듭니다.
Extend는 앞 영상의 마지막 프레임을 다음 영상의 시작 프레임으로 삼아, 같은 인물·배경이 자연스럽게 이어지게 합니다.
- 확장 원리 이해 – Extend를 쓰면 이전 영상의 마지막 프레임이 자동으로 다음 영상의 시작 프레임이 됩니다. 따라서
[SUBJECT]는 외형을 길게 묘사하지 않고 같은 인물·같은 의상·같은 배경임을 짧게 적은 뒤[ACTION]에 집중합니다([SUBJECT]고정 +[ACTION]교체 원리는 3.4 참조). - 이어지는 컷 작성 – 이전 영상의 끝 상태(손을 내리고 카메라 응시)에 이어 붙는 8초 컷입니다. 타임라인 개념을 설명하는 장면입니다.
[CINEMATOGRAPHY] Medium close-up, eye-level static shot, 85mm portrait lens look, shallow depth of field. Same framing as the previous shot to keep visual continuity. [SUBJECT] The same Korean woman from the previous shot, identical hairstyle, makeup, black tailored blazer over white inner top. [ACTION] She raises both hands to chest level, palms facing the camera, then slowly moves both hands horizontally from her left side to her right side as if drawing an invisible long bar in the air. She finishes with her right hand extended to the side and looks confidently at the camera with a small smile. She speaks in clear, friendly Korean with a polished broadcasting tone: "화면 아래 이 긴 막대가 바로 타임라인이에요." Lip movement precisely synced to Korean phonemes. [CONTEXT] Soft pastel pink studio background, continuous scene. Soft studio room tone, no background music. [STYLE] Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Identical lighting to the previous shot — soft large key light from the front, gentle pink fill, warm 4800K, no harsh shadows, 16:9 aspect ratio. Visual continuity with the previous clip. Avoid: English speech, subtitles, text overlays, UI graphics, multiple people, hair or clothing change, scene cut, camera movement, distorted lip sync, extra fingers. - 동작·대사만 바꿔 연속 컷 늘리기 – 이어지는 컷은
[ACTION]만 교체해 같은 흐름으로 만듭니다. 대사가[ACTION]에 통합돼 있어 이 블록 하나만 바꾸면 됩니다.
[ACTION]
She points her right index finger to her left side at chest level, then slowly traces a horizontal line to her right side, finger extended throughout, finishing with a small tap gesture at the end. Eyes follow her finger then return to the camera. She speaks in clear, instructive Korean: "왼쪽에서 오른쪽으로 시간이 흘러가요." Lip movement precisely synced to Korean syllables.
[ACTION]
She holds her left palm out flat horizontally at chest level, then with her right hand makes a soft placing motion as if dropping rectangular blocks onto her left palm, twice. Finishes looking at the camera with an open smile. She speaks in warm, encouraging Korean: "여기에 영상 클립을 순서대로 올려놓으면 돼요." Mouth movements tightly synced to Korean syllables.
[!IMPORTANT]
- 확장 컷에서는
[CINEMATOGRAPHY]와[STYLE]의 조명을 이전 컷과 똑같이 유지해야 장면이 튀지 않습니다.[STYLE]끝 Avoid에 scene cut, camera movement를 넣어 연속성을 강제합니다.
3.6 – 완성 영상 확인
위 메인 프롬프트와 확장 컷을 이어 만든 완성 영상은 아래에서 확인합니다.
https://drive.google.com/file/d/1nocxgkm3t9AB2NTP_UX6nH98hIdavp8i/view?usp=sharing
[!NOTE]
- 한국어 립싱크는 짧고 또렷한 문장일수록 정확합니다. 한 컷당 한두 문장으로 끊습니다.
- 인물·의상·배경을 고정한
[SUBJECT]와 연속성을 막는[STYLE]Avoid가 시리즈 영상의 일관성을 좌우합니다.
3.7 – 영문으로 변환해 입력하기
5블록을 한국어로 구상했으면 그대로 넣지 말고, 각 블록 값을 영문으로 옮겨 Veo에 입력합니다.
Veo는 영어 프롬프트를 더 정확히 따릅니다. 단, [ACTION]의 따옴표 안 한국어 대사는 번역하지 말고 한국어 그대로 둡니다. 립싱크 대상이 한국어 발음이기 때문입니다.
다음 5블록 영상 프롬프트에서 한국어로 적힌 부분을 영어로 옮겨라. 블록 이름과 구조는 그대로 두고, 카메라·조명·스타일 용어는 영어 영상 제작 용어로 정확히 바꾼다. 단 [ACTION] 안의 따옴표로 감싼 한국어 대사는 번역하지 말고 한국어 그대로 둔다.
[내 5블록 프롬프트]
{내_프롬프트}
{내_프롬프트}– 5블록으로 조립한 내 프롬프트(대사는 한국어).
변환된 결과를 그대로 입력창에 붙여 넣으면 됩니다.
[!TIP]
- 변환 뒤에도
[ACTION]의 한국어 대사가 따옴표 안에 그대로 남아 있는지 확인합니다.- 카메라·조명 용어(85mm, key light 등)가 영어로 정확히 들어갔는지 봅니다.
실습 코칭 프롬프트
5블록 립싱크 구조를 내 인물·내 대사로 채우다 막히면, 아래 프롬프트를 대화형 AI에 붙여 넣어 코치로 삼습니다.
블록을 한꺼번에 받지 말고 하나씩 채워 완성합니다.
너는 AI 영상 립싱크 프롬프트 코치다. 나는 Veo 공식 5형식을 립싱크용으로 적용한 5블록 구조를 배웠고, 내 인물이 말하는 한 컷을 완성하려 한다. 답을 통째로 주지 말고 블록을 하나씩 물어 내가 채우게 한다.
[5블록]
- [CINEMATOGRAPHY]: 카메라 앵글·샷·무빙·렌즈
- [SUBJECT]: 인물 외형 (나이·헤어·피부·표정·의상·소품)
- [ACTION]: 동작·표정 변화 + 한국어 대사(따옴표)·립싱크 지시
- [CONTEXT]: 배경·공간·환경음
- [STYLE]: 화풍·무드·조명·색조, 끝에 Avoid로 금지 요소
[코칭 방식]
1. 누가 어디서 무슨 말을 하는지 먼저 듣는다.
2. SUBJECT→CINEMATOGRAPHY→CONTEXT→ACTION→STYLE 순으로 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 대사는 한두 문장으로 짧게, 따옴표로 감싸 [ACTION]에 넣게 한다. 길면 립싱크가 어긋난다고 알려 준다.
4. 조명은 [STYLE]에, 금지 요소(no subtitles, no distorted lip sync 등)는 [STYLE] 끝 Avoid에 넣게 한다.
5. 시리즈로 만들 거면 [SUBJECT]를 고정하고 [ACTION]만 바꾸도록 안내한다.
[내 상황]
- 말하는 인물과 장면: {인물_장면}
- 막힌 블록: {막힌_블록}
준비됐으면 "누가 어디서 무슨 말을 하는지 한 줄로 말해라"라고만 답한다.
{인물_장면}– 말하는 인물과 장면을 한 줄로, 예: 30대 남성이 홈오피스에서 공부 앱을 소개한다.{막힌_블록}– 채우기 어려운 블록, 예: CINEMATOGRAPHY, STYLE.
변수를 채운 예시는 아래와 같습니다. [내 상황]만 이렇게 바꿔 붙여 넣으면 됩니다.
[내 상황]
- 말하는 인물과 장면: 30대 남성이 홈오피스에서 공부 앱을 소개한다
- 막힌 블록: STYLE
[!TIP]
- 코치가 블록을 한꺼번에 채워 주려 하면 "하나씩 물어라"라고 다시 요청합니다.
[SUBJECT]를 고정하고[ACTION]만 바꾸면 같은 인물의 다른 대사 컷을 연속으로 만들 수 있습니다.