이 편은 Google Flow 시리즈의 출발점이다. Google Veo 3.1이 텍스트 한 줄을 어떻게 영상으로 바꾸는지 개념을 잡고, Flow에 직접 접속해 첫 영상을 만든 다음, 마지막에는 인물 이미지로 한국어 립싱크 영상까지 만들어 본다. 별도로 알고 와야 할 것은 없고 Chrome 브라우저와 Google 계정만 있으면 된다. 끝까지 따라 하면 내가 만든 8초 영상 파일과 같은 인물이 말하는 연속 컷, 막힐 때 부릴 AI 코치 프롬프트가 손에 남는다.
도구를 만지기 전에 Veo가 무엇을 알아듣는지부터 잡는다. Veo는 글로 적은 장면 지시문(프롬프트)을 읽고 영상을 새로 그려 내는 도구다. 어떤 말을 넣으면 어떤 화면이 나오는지 감을 잡아야, 뒤에서 Flow를 켰을 때 헤매지 않는다. 공식 설명이 필요하면 아래 두 도움말을 함께 연다.
사람이 글로 장면을 적으면 AI가 그 글을 읽고 영상을 그려 낸다. 이 원리를 먼저 잡아야 무엇을 적어야 원하는 화면이 나오는지 감이 선다.
텍스트-투-비디오(Text-to-Video) 개념 - 사람이 텍스트로 장면을 설명(프롬프트)하면 AI가 이를 읽고 픽셀 단위로 새 영상을 합성한다. 기존 영상을 잘라 붙이는 방식이 아니라, 학습한 데이터를 바탕으로 무에서 유를 만든다.
프롬프트 입력 예시 - 아래 문구를 입력창에 넣으면 AI는 새벽 호수에서 낚시하는 어부의 8초 영상을 생성한다.
A weathered old angler drifts alone in a narrow rowboat on a fog-veiled lake at first light, pale gold sunbeams cutting through the haze, a quiet and wistful mood.
문장 하나에 누가(angler)·어디서(fog-veiled lake)·언제(first light)·분위기(wistful)가 모두 담겨 있다. AI는 이 단서를 조합해 장면을 그리므로, 단서가 구체적일수록 결과가 또렷하다.
기술 발전 흐름 - 2022년 정지 이미지 생성에서 시작해 2025년 Google Veo 3.1에 이르러 영상과 오디오(대화·음악)를 동시에 생성하는 단계로 진화했다.
Veo에게 무엇을 시킬 수 있는지 알면 프롬프트에 넣을 단서가 늘어난다. 물리·오디오·카메라·스타일 네 가지를 지시할 수 있다는 점을 잡아 둔다.
SFX:, 배경음은 Ambient noise:로 적어 대화·환경음·음악을 영상과 함께 만든다.Close-up, Wide shot, Low angle, High angle.Pan, Tilt, Dolly, Tracking, Handheld.Golden hour, Moonlight, Neon, Backlit.영상을 만들 때마다 크레딧이 줄어든다. 그래서 처음부터 고품질을 쓰지 않고 싼 등급으로 방향을 잡은 뒤 마지막에만 고품질을 쓰는 순서가 중요하다.
Fast 모델로 프롬프트 방향 확인.Lite 모델로 구도와 디테일 확인.고품질 모델로 최종 영상 생성. 오디오가 필요하면 오디오 지원 등급을 화면에서 확인해 선택한다.Fast로 여러 번 시도해 본 뒤 가장 좋은 결과물의 프롬프트를 고품질에 넣는다.같은 도구로 어떤 결과물을 만들 수 있는지 알면 내 목표를 잡기 쉽다. 네 가지 대표 유형을 살펴본다.
이 단원에서 익힌 Veo가 알아듣는 지시 요소(주체·카메라·조명·스타일)로 짧은 광고 쇼케이스 컷을 짜다 막히면, 아래를 대화형 AI(ChatGPT·Claude·Gemini)에 붙여 넣어 코치로 삼는다. 빈 요소를 한꺼번에 받지 말고 하나씩 채워 완성한다.
너는 AI 영상 프롬프트 코치다. 나는 Veo가 알아듣는 지시 요소를 배웠고, 내 제품의 8초 광고 쇼케이스 컷을 한 줄 영문 프롬프트로 완성하려 한다. 답을 통째로 주지 말고 한 가지씩 물어 내가 채우게 한다.
[채울 요소]
- 주체: 보여줄 제품 (형태·색·재질)
- 카메라: 앵글·무빙 (예: slow dolly-in, orbit)
- 조명: 빛의 종류 (예: rim light, golden hour)
- 스타일: 화풍 (예: cinematic luxury commercial)
- 분위기: 전달할 인상 (예: premium and elegant)
[코칭 방식]
1. 내 제품이 무엇인지 먼저 묻는다.
2. 주체→카메라→조명→스타일→분위기를 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 카메라와 조명 중 적어도 하나는 영화 용어로 채우게 한다. 둘 다 비우면 밋밋한 정지컷이 된다고 알려 준다.
4. 다 채우면 한 문장으로 잇고 끝에 8-second product showcase를 붙이게 한다.
[내 상황]
- 제품: {제품}
- 막힌 요소: {막힌_요소}
준비됐으면 "어떤 제품을 보여줄지 한 줄로 말해라"라고만 답한다.
{제품} - 보여줄 대상, 예: 유리 향수병, 무광 검정 스마트워치.{막힌_요소} - 채우기 어려운 요소, 예: 카메라, 조명.변수를 채운 예시는 아래와 같다. [내 상황]만 이렇게 바꿔 붙여 넣으면 된다.
[내 상황]
- 제품: 유리 향수병
- 막힌 요소: 조명
개념을 잡았으니 이제 Flow를 직접 켜서 첫 영상을 손으로 만든다. 접속·로그인부터 프롬프트 입력, 생성, 다운로드까지 한 번에 따라가며, 변수 하나만 바꿔 결과가 어떻게 달라지는지도 눈으로 확인한다.
가장 먼저 브라우저를 열어 Flow에 접속하고 프로젝트를 하나 만든다. 이 빈 프로젝트가 앞으로 영상을 만드는 작업 공간이 된다.
https://labs.google/fx/tools/flow를 입력하고 Enter를 누른다.[Sign in]을 클릭해 Google 계정으로 로그인한다.[Start free trial] 클릭 → 결제 정보 등록(체험 기간 내 해지 시 비용 미발생) → 대시보드 진입.[New Project] 클릭 → 프로젝트 이름(예: First_Test) 입력 → 빈 작업 영역을 확인한다.영상을 만들기 전에 화면 어디에 무엇이 있는지 한 번 짚는다. 위치를 익혀 두면 다음 실습에서 버튼을 찾느라 멈추지 않는다.
Credits 수치를 확인한다. 영상 생성 시 실시간으로 줄어든다.Describe your scene... 영역을 클릭한다.Fast, Lite, 고품질 등급을 확인한다.16:9(가로), 9:16(세로), 1:1(정방형) 버튼을 확인한다.[Generate] 버튼을 확인한다.이제 실제로 영상 하나를 만든다. 가장 싼 모델로 노을 진 해변 8초 영상을 만들어 내 컴퓨터에 저장하는 데까지 따라간다.
Fast 계열 모델을 선택한다.16:9 버튼을 클릭한다.Soft waves rolling onto a sandy shore at sunset, warm orange and pink sky, gentle slow motion, wide cinematic framing, a calm and tranquil feel, photorealistic.
[Generate] 버튼을 클릭한다(Ctrl+Enter 단축키가 동작하면 함께 쓴다).[Download] 아이콘을 클릭해 MP4 파일을 내 컴퓨터에 저장한다.저장된 MP4는 같은 프롬프트라도 생성할 때마다 조금씩 다르게 나온다. 마음에 드는 컷이 나오면 바로 내려받아 두는 편이 좋다.
[Regenerate]를 눌러 같은 프롬프트로 다시 만든다.[Edit Prompt]를 클릭한다.앞에서 만든 프롬프트에서 단어 두 개만 바꿔 본다. 한 군데만 바꿔 보면 어떤 단어가 화면의 무엇을 정하는지 또렷이 보인다.
at sunset을 at DAWN으로, warm orange and pink sky를 soft purple and blue sky로 바꾼다.[Generate]를 누른다.시간대 단어 하나가 하늘 색 전체를 바꾼다. 이렇게 한 번에 한 군데만 바꿔야 그 단어의 효과를 정확히 가릴 수 있다.
컴퓨터가 없어도 스마트폰만으로 생성부터 편집까지 끝낼 수 있다. Flow로 만든 영상을 캡컷에서 숏폼 비율로 다듬는 흐름이다.
https://labs.google/fx/tools/flow에 접속한다.[Download] 버튼을 길게 눌러 기기 갤러리에 저장한다.[새 프로젝트]를 누른다.[비율] 메뉴에서 9:16을 선택하고, [오디오] 메뉴에서 배경 음악을 넣는다.9:16 비율로 생성하는 편이 좋다.이 단원에서 실습한 Flow에 텍스트 한 줄로 영상 생성하고 변수 하나만 바꿔 비교하기를 내 소재의 움직이는 장면에 적용하다 막히면, 아래를 대화형 AI에 붙여 넣어 코치로 삼는다.
너는 AI 영상 프롬프트 코치다. 나는 Flow에 한 줄 프롬프트로 영상을 만들고 변수 하나만 바꿔 비교하는 법을 배웠고, 내 소재의 움직이는 한 컷을 완성하려 한다. 답을 통째로 주지 말고 한 가지씩 물어 내가 채우게 한다.
[채울 요소]
- 공간: 움직임이 담긴 배경 (예: 야시장 골목, 옥상에서 본 도시)
- 시간대: 빛을 정하는 시각 (예: night, rainy evening)
- 빛·색: 화면 톤 (예: neon reflections, cool blue twilight)
- 움직이는 요소: 장면에 생기를 주는 동작 (예: people walking past, cars with light trails)
- 카메라: 무빙 (예: slow tracking shot, static wide shot)
- 분위기·화풍·화면비
[코칭 방식]
1. 어떤 공간을 보여줄지 먼저 묻는다.
2. 공간→시간대→빛·색→움직이는 요소→카메라 순으로 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 움직이는 요소를 꼭 채우게 한다. 비우면 정지화면처럼 밋밋해진다고 알려 준다.
4. 다 채우면 한 문장으로 잇고 끝에 화면비(16:9 / 9:16 / 1:1)를 붙이게 한다.
5. 변수 하나(예: 움직이는 요소)만 바꿔 비교본을 하나 더 만들도록 안내한다.
[내 상황]
- 만들 공간: {만들_공간}
- 막힌 요소: {막힌_요소}
준비됐으면 "어떤 공간을 보여줄지 한 줄로 말해라"라고만 답한다.
{만들_공간} - 움직임이 담긴 배경 한 컷, 예: 비 오는 밤 편의점 앞.{막힌_요소} - 채우기 어려운 요소, 예: 빛·색, 카메라.변수를 채운 예시는 아래와 같다. [내 상황]만 이렇게 바꿔 붙여 넣으면 된다.
[내 상황]
- 만들 공간: 비 오는 밤 편의점 앞
- 막힌 요소: 빛·색
먼저 인물 이미지를 만들고, 그 이미지를 시작점으로 삼아 한국어로 말하는 립싱크 영상을 생성한 뒤, 확장(Extend)으로 장면을 길게 잇는 실전 흐름을 따라간다. 이때 프롬프트는 공식 5형식(촬영기법·주체·행동·맥락·스타일·분위기)을 립싱크용으로 적용한 [CINEMATOGRAPHY]·[SUBJECT]·[ACTION]·[CONTEXT]·[STYLE]의 다섯 블록으로 나누어 작성한다. 인물 외형은 [SUBJECT]에, 동작과 한국어 대사·립싱크는 [ACTION]에, 조명은 [STYLE]에, 금지 요소는 [STYLE] 끝의 Avoid에 넣는다. 스타일·분위기(Style & Ambiance)는 [STYLE] 한 블록이고, 환경음은 [CONTEXT]에 넣는다. 블록을 나누면 [SUBJECT]로 외형을 고정한 채 [ACTION]만 바꿔 같은 인물의 다른 대사 컷을 쉽게 만든다.
말하는 영상을 만들려면 먼저 말할 인물의 얼굴이 필요하다. Flow의 이미지 생성으로 인물을 만들고, 배경의 군더더기를 지워 깨끗한 첫 프레임을 준비한다.
지워라고 입력한다.
이 이미지가 다음 단계에서 영상의 첫 프레임이 된다. 배경이 지저분하면 영상에도 그대로 따라오므로 여기서 깨끗이 정리해 둔다.
다듬은 인물 이미지를 영상 작업 영역으로 가져온다. 이 이미지가 첫 프레임이 되어, 같은 얼굴이 말하는 영상이 만들어진다.
+ 버튼을 클릭한 뒤 [장면 만들기]를 클릭한다.이제 인물이 말하게 할 프롬프트를 다섯 블록으로 나누어 쓴다. 블록을 나눠 두면 나중에 한 블록만 바꿔 톤이나 대사를 손쉽게 바꿀 수 있다.
[CINEMATOGRAPHY]는 카메라, [SUBJECT]는 인물 외형, [ACTION]은 동작과 한국어 대사·립싱크, [CONTEXT]는 배경·환경음, [STYLE]은 화풍·조명·색조와 끝의 금지 요소다.[CINEMATOGRAPHY]
Medium close-up from chest level, eye-level static shot, 85mm portrait lens look, very shallow depth of field, subject perfectly centered with slight space above her head.
[SUBJECT]
A Korean woman in her late 20s, long dark brown hair tied in a high ponytail with the tail falling over her right shoulder, a few loose strands framing her face. Clean glowing skin, natural dewy makeup, soft pink lip tint, defined slightly arched eyebrows, warm brown eyes, a gentle closed-lip smile. She wears a black tailored blazer over a plain white inner top, with a thin silver ring on her index finger.
[ACTION]
She starts with her right hand resting lightly near her chin, then slowly lowers her hand as she begins speaking. A soft confident smile spreads across her face, she gives one small nod mid-sentence, and looks straight into the camera with a calm, friendly gaze. She speaks in clear, warm Korean with a polished broadcasting tone: "안녕하세요, 오늘은 영상 편집 앱 캡컷을 소개할게요." Lip movement precisely synced to Korean phonemes, natural breath between phrases.
[CONTEXT]
A soft pastel pink seamless studio background. Soft studio room tone, no background music.
[STYLE]
Korean beauty-brand commercial aesthetic, clean and polished, soft pastel color palette, photorealistic 4K, natural skin texture preserved. Soft large key light from the front, gentle pink fill bouncing from the background, warm 4800K, subtle catchlight in both eyes, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, harsh shadows, plastic skin, distorted lip sync, robotic voice, logo watermarks, extra fingers.
대사를 따옴표로 감싸 [ACTION]에 넣었기 때문에 인물이 그 한국어 문장을 입 모양까지 맞춰 말한다. [STYLE] 끝의 Avoid는 자막·영어 발음·손가락 오류 같은 흔한 사고를 미리 막는 안전장치다.
[SUBJECT]와 [STYLE]의 Avoid는 그대로 두고 [ACTION]만 바꾸면 같은 인물의 다른 톤 영상을 빠르게 만든다.[STYLE] Avoid에 subtitles를 넣으면 자막이 화면에 박히는 것을 막는다.같은 인물로 분위기만 다른 컷을 만들어 본다. [ACTION]과 [STYLE] 두 블록만 갈아 끼우면 인물은 그대로인 채 톤이 바뀐다.
[ACTION]과 [STYLE]만 아래로 교체한다. 대사는 [ACTION]에, 조명은 [STYLE]에 들어가므로 이 두 블록만 바꾸면 톤이 달라진다.
[ACTION]
She holds her right hand up at shoulder level with palm facing the camera in a gentle greeting wave, then brings both hands together at chest level as she finishes speaking. Bright open smile showing slight teeth, one cheerful nod. She speaks in upbeat, friendly Korean: "여러분 안녕하세요! 캡컷으로 영상 편집 시작해 볼까요?" Mouth movements tightly synced to Korean syllables.
[STYLE]
Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Bright high-key lighting from upper front and both sides, 5000K slightly warm, vibrant but soft, creator-vlog feel, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, distorted lip sync, robotic voice, extra fingers.
[ACTION]
She keeps her hands gently clasped at chest level throughout, slight head tilt to the right at the start, returns to center as she speaks. Composed thoughtful expression, soft closed-lip smile only at the end. She speaks in calm, measured Korean with a clear reviewer tone: "캡컷은 무료로 쓸 수 있는 영상 편집 도구예요." Lip movement precisely synced to Korean syllables.
[STYLE]
Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Even soft front light, 5200K neutral, slight directional shadow on the left side of her face for depth, premium-magazine portrait feel, 16:9 aspect ratio. Avoid: English speech, subtitles, text overlays, multiple people, hair or clothing change, distorted lip sync, robotic voice, extra fingers.
[SUBJECT]가 외형을 잡아 주기 때문이다.[SUBJECT]를 건드리지 않는 한 얼굴·머리·옷은 같은 사람으로 유지된다. 그래서 시리즈 영상을 만들 때 [ACTION]과 [STYLE]만 바꾸는 방식이 통한다.
8초보다 긴 이야기는 컷을 이어 붙여 만든다. Extend는 앞 영상의 마지막 프레임을 다음 영상의 시작 프레임으로 삼아, 같은 인물·배경이 자연스럽게 이어지게 한다.
[SUBJECT]는 외형을 길게 묘사하지 않고 같은 인물·같은 의상·같은 배경임을 짧게 명시한 뒤, [ACTION]에 집중한다.[CINEMATOGRAPHY]
Medium close-up, eye-level static shot, 85mm portrait lens look, shallow depth of field. Same framing as the previous shot to keep visual continuity.
[SUBJECT]
The same Korean woman from the previous shot, identical hairstyle, makeup, black tailored blazer over white inner top.
[ACTION]
She raises both hands to chest level, palms facing the camera, then slowly moves both hands horizontally from her left side to her right side as if drawing an invisible long bar in the air. She finishes with her right hand extended to the side and looks confidently at the camera with a small smile. She speaks in clear, friendly Korean with a polished broadcasting tone: "화면 아래 이 긴 막대가 바로 타임라인이에요." Lip movement precisely synced to Korean phonemes.
[CONTEXT]
Soft pastel pink studio background, continuous scene. Soft studio room tone, no background music.
[STYLE]
Korean beauty-brand commercial aesthetic, photorealistic 4K, natural skin texture preserved. Identical lighting to the previous shot — soft large key light from the front, gentle pink fill, warm 4800K, no harsh shadows, 16:9 aspect ratio. Visual continuity with the previous clip. Avoid: English speech, subtitles, text overlays, UI graphics, multiple people, hair or clothing change, scene cut, camera movement, distorted lip sync, extra fingers.
[ACTION]만 교체해 같은 흐름으로 생성한다. 대사가 [ACTION]에 통합돼 있어 이 블록 하나만 바꾸면 된다.[ACTION]
She points her right index finger to her left side at chest level, then slowly traces a horizontal line to her right side, finger extended throughout, finishing with a small tap gesture at the end. Eyes follow her finger then return to the camera. She speaks in clear, instructive Korean: "왼쪽에서 오른쪽으로 시간이 흘러가요." Lip movement precisely synced to Korean syllables.
[ACTION]
She holds her left palm out flat horizontally at chest level, then with her right hand makes a soft placing motion as if dropping rectangular blocks onto her left palm, twice. Finishes looking at the camera with an open smile. She speaks in warm, encouraging Korean: "여기에 영상 클립을 순서대로 올려놓으면 돼요." Mouth movements tightly synced to Korean syllables.
[CINEMATOGRAPHY]와 [STYLE]의 조명을 이전 컷과 똑같이 유지해야 장면이 튀지 않는다.[STYLE] 끝 Avoid에 scene cut, camera movement를 넣어 연속성을 강제한다.위 메인 프롬프트와 확장 컷을 이어 만든 완성 영상은 아래에서 확인한다.
https://drive.google.com/file/d/1nocxgkm3t9AB2NTP_UX6nH98hIdavp8i/view?usp=sharing
[SUBJECT]와 연속성을 막는 [STYLE] Avoid가 시리즈 영상의 일관성을 좌우한다.5블록을 한국어로 구상했으면 그대로 넣지 말고, 각 블록 값을 영문으로 옮겨 Veo에 입력한다. Veo는 영어 프롬프트를 더 정확히 따른다. 단, [ACTION]의 따옴표 안 한국어 대사는 번역하지 말고 한국어 그대로 둔다. 립싱크 대상이 한국어 발음이기 때문이다.
다음 5블록 영상 프롬프트에서 한국어로 적힌 부분을 영어로 옮겨라. 블록 이름과 구조는 그대로 두고, 카메라·조명·스타일 용어는 영어 영상 제작 용어로 정확히 바꾼다. 단 [ACTION] 안의 따옴표로 감싼 한국어 대사는 번역하지 말고 한국어 그대로 둔다.
[내 5블록 프롬프트]
{내_프롬프트}
{내_프롬프트} - 5블록으로 조립한 내 프롬프트(대사는 한국어).변환된 결과를 그대로 입력창에 붙여 넣으면 된다.
[ACTION]의 한국어 대사가 따옴표 안에 그대로 남아 있는지 확인한다.5블록 립싱크 구조를 내 인물·내 대사로 채우다 막히면, 아래를 대화형 AI에 붙여 넣어 코치로 삼는다. 블록을 한꺼번에 받지 말고 하나씩 채워 완성한다.
너는 AI 영상 립싱크 프롬프트 코치다. 나는 Veo 공식 5형식을 립싱크용으로 적용한 5블록 구조를 배웠고, 내 인물이 말하는 한 컷을 완성하려 한다. 답을 통째로 주지 말고 블록을 하나씩 물어 내가 채우게 한다.
[5블록]
- [CINEMATOGRAPHY]: 카메라 앵글·샷·무빙·렌즈
- [SUBJECT]: 인물 외형 (나이·헤어·피부·표정·의상·소품)
- [ACTION]: 동작·표정 변화 + 한국어 대사(따옴표)·립싱크 지시
- [CONTEXT]: 배경·공간·환경음
- [STYLE]: 화풍·무드·조명·색조, 끝에 Avoid로 금지 요소
[코칭 방식]
1. 누가 어디서 무슨 말을 하는지 먼저 듣는다.
2. SUBJECT→CINEMATOGRAPHY→CONTEXT→ACTION→STYLE 순으로 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 대사는 한두 문장으로 짧게, 따옴표로 감싸 [ACTION]에 넣게 한다. 길면 립싱크가 어긋난다고 알려 준다.
4. 조명은 [STYLE]에, 금지 요소(no subtitles, no distorted lip sync 등)는 [STYLE] 끝 Avoid에 넣게 한다.
5. 시리즈로 만들 거면 [SUBJECT]를 고정하고 [ACTION]만 바꾸도록 안내한다.
[내 상황]
- 말하는 인물과 장면: {인물_장면}
- 막힌 블록: {막힌_블록}
준비됐으면 "누가 어디서 무슨 말을 하는지 한 줄로 말해라"라고만 답한다.
{인물_장면} - 말하는 인물과 장면을 한 줄로, 예: 30대 남성이 홈오피스에서 공부 앱을 소개한다.{막힌_블록} - 채우기 어려운 블록, 예: CINEMATOGRAPHY, STYLE.변수를 채운 예시는 아래와 같다. [내 상황]만 이렇게 바꿔 붙여 넣으면 된다.
[내 상황]
- 말하는 인물과 장면: 30대 남성이 홈오피스에서 공부 앱을 소개한다
- 막힌 블록: STYLE
[SUBJECT]를 고정하고 [ACTION]만 바꾸면 같은 인물의 다른 대사 컷을 연속으로 만든다.