Veo 3 핵심 기능 활용
해상도 설정과 업스케일링
- 해상도·업스케일 상한 확인: 해상도·업스케일 상한은 모델·버전에 따라 다르므로 클립 카드의 업스케일 버튼 표기를 확인한다. 모바일 시청용은 기본 해상도로 충분하지만, 유튜브나 대형 화면용은 클립 카드에 표시된 상한까지 업스케일한다.
- 화면 비율 선택: 작업 목적에 맞는 비율을 클릭한다.
16:9(가로): 유튜브, TV9:16(세로): 틱톡, 릴스, 쇼츠1:1(정방형): 인스타그램 피드
- 업스케일 실행: 생성한 클립 카드에서 업스케일 버튼(예:
[Upscale], 버튼에 적힌 대상 해상도 표기 확인)을 클릭한다. - 추가 대기: 약 1~3분의 처리 시간이 지나면 고화질 영상을 제공한다.
[!NOTE]
- 업스케일은 추가 크레딧을 소모한다.
- 모든 클립을 업스케일하지 말고, 최종 확정한 영상만 골라 실행한다.
8초 클립 활용과 장면 구성 원칙
- 단일 클립 길이: Veo 3는 한 번에 최대 8초 영상을 생성한다.
- 구성 원칙: 한 클립에 여러 사건을 넣지 말고, 하나의 강렬한 행동이나 인상에 집중한다.
- 연결 지점 확보: 클립의 마지막에 자연스러운 움직임을 남겨 다음 클립과의 연결성을 확보한다.
[!TIP]
- 나쁜 예: "전사가 싸우고 집에 가서 저녁을 먹는다" (8초 안에 담기 너무 많음)
- 좋은 예: "전사가 전장에서 거칠게 숨을 몰아쉬며 서 있다" (하나의 순간에 집중)
오디오 생성 (대사·SFX·Ambient noise)
- 등급 확인: 오디오 지원 여부는 등급·버전마다 다르다. 일반적으로 경량(Light/Lite) 등급은 묵음일 수 있고 표준·고품질 등급이 오디오를 포함하므로, 생성 전 Flow 화면에서 각 모델의 오디오 지원 표시를 확인한다.
- 오디오 표기 규칙: 영상 프롬프트 끝에 소리를 적는다(대사는 따옴표+화자, 효과음
SFX:, 배경음Ambient noise:, 음악Music:). 표기 규칙의 자세한 설명은 「Google Flow: 오디오 & 대화 장면 프롬프트」 문서를 참고한다.SFX: soft lapping waves, faraway gulls Ambient noise: a light sea breeze - 소리 종류별 구분: 한 줄에 뭉치지 말고 종류별로 나눠 적으면 더 풍부하다.
- 대사: 따옴표로 감싸고 화자를 앞에 명시. 예:
The sailor says, "..." - 효과음(
SFX:): 발소리, 숨소리, 문 닫는 소리 같은 특정 동작음 - 환경음(
Ambient noise:): 군중 소리, 도시 소음, 바람 소리 같은 배경 소음 - 음악(
Music:): 배경 음악
- 대사: 따옴표로 감싸고 화자를 앞에 명시. 예:
[!IMPORTANT]
- 대화(Dialogue)는 영어로 입력할 때 발음과 립싱크가 가장 자연스럽다. 한국어 대사가 필요하면 따옴표 안에 한국어 그대로 두고 짧게 끊는다.
- 자막이 나타나는 것을 방지하려면 프롬프트 끝에
No subtitles를 추가한다.
카메라 워크 지시어 활용
- 앵글 지정: 캐릭터의 감정에 맞춰 각도를 설정한다.
Low angle: 캐릭터를 강하고 위협적으로 표현High angle: 캐릭터를 취약하고 고립되게 표현Eye level: 평범하고 중립적인 시선
- 움직임 지정: 카메라의 이동 방식을 추가한다.
Dolly in: 긴장감과 집중도 향상Tracking shot: 움직이는 피사체를 따라감Handheld: 현장감과 긴박감 부여
- 프롬프트 배치: 촬영기법(카메라)을 문장 앞에 두고, 그다음 주체·행동·맥락, 끝에 조명·분위기를 적는다. 촬영기법을 앞에 배치하는 이유와 Veo가 앞쪽 지시를 강하게 반영하는 원리의 자세한 설명은 「Google Flow: 카메라 마스터클래스」 문서를 참고한다.
[!NOTE]
Cinematic wide shot은 풍경을 웅장하게 보여줄 때 효과적이다.Close-up은 인물의 표정과 감정을 강조할 때 쓴다.
SynthID 워터마크와 AI 영상의 권리 관계
- SynthID 자동 삽입: Veo 영상에는 눈에 보이지 않는 SynthID 워터마크가 자동으로 박히며 제거할 수 없다. 상업 이용 범위·국가별 저작권·AI 생성 고지 의무 같은 상세는 「Google Flow: 윤리·법률 가이드」 문서를 참고한다.
클립 연장(Extend)
- Extend 기능 실행: 생성한 클립 메뉴에서
[Extend](또는 연장 아이콘)를 클릭한다. - 연장 프롬프트 입력: 기존 움직임의 흐름을 그대로 이어가거나 작은 행동 변화를 더한다.
- 고정 요소 반복: 연장 클립 간 일관성을 위해 환경(
environment)과 캐릭터(character) 묘사를 동일하게 포함한다. - 편집 도구 활용: 생성한 클립들을 다운로드하여 캡컷(CapCut) 등 외부 편집 앱에서 자막과 전환 효과를 넣는다.
[!NOTE]
Add to Scene은 장면을 전환할 때 쓴다.Extend는 같은 움직임을 더 길게 유지할 때 쓴다.
실습 코칭 프롬프트
이 단원에서 배운 카메라 워크와 오디오 표기를 내 소재 한 클립에 합치다 막히면, 아래를 대화형 AI에 붙여 넣어 코치로 삼는다. 빈 요소를 한꺼번에 받지 말고 하나씩 채워 완성한다.
너는 AI 영상 프롬프트 코치다. 나는 카메라 워크와 오디오 표기를 배웠고, 내 소재의 8초 클립 한 컷을 완성하려 한다. 답을 통째로 주지 말고 한 가지씩 물어 내가 채우게 한다.
[채울 요소]
- 주체·행동: 누가 무엇을 (8초 안에 담길 한 동작)
- 맥락: 장소·날씨
- 카메라: 앵글(low / high / eye level) + 무빙(dolly in / tracking / handheld)
- 조명: 빛의 종류
- 오디오: 대사는 따옴표, 효과음 SFX:, 환경음 Ambient noise:
- 자막 방지: 끝에 No subtitles
[코칭 방식]
1. 누가 무엇을 하는 장면인지 먼저 묻는다.
2. 주체·행동→맥락→카메라→조명→오디오 순으로 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 한 클립에 한 동작만 넣게 한다. 여러 사건을 8초에 담으려 하면 줄이게 한다.
4. 카메라는 앵글과 무빙을 함께 고르되, 무빙은 한 클립에 하나만 넣게 한다.
5. 오디오는 효과음·환경음을 라벨로 구분하고, 소리는 3개 이내로 추리게 한다.
6. 끝에 No subtitles를 넣어 자막을 막게 한다.
[내 상황]
- 만들 장면: {만들_장면}
- 막힌 요소: {막힌_요소}
준비됐으면 "누가 무엇을 하는 장면인지 한 줄로 말해라"라고만 답한다.
{만들_장면}— 만들 장면을 한 줄로, 예: 노란 우비를 입은 어부가 거친 바다에서 수평선을 본다.{막힌_요소}— 채우기 어려운 요소, 예: 카메라, 오디오.
[!TIP]
- 코치가 한꺼번에 다 채워 주려 하면 "하나씩 물어라"라고 다시 요청한다.
- 같은 장면에서 카메라 무빙과 조명만 바꿔 분위기를 비교한다.
영문으로 변환해 입력하기
카메라·오디오를 한국어로 구상했으면 그대로 넣지 말고, 영문 한 문단으로 옮겨 Veo에 입력한다. Veo는 영어 프롬프트를 더 정확히 따른다. 영어가 부담되면 번역 도구로 옮긴 뒤 카메라·조명 용어만 영어 표현으로 다듬는다.
다음 한국어 영상 프롬프트를 Veo용 영문 프롬프트로 옮겨라. 의미를 바꾸지 말고, 카메라·조명 용어는 영어 영상 제작 용어로 정확히 바꾼다. 촬영기법을 문장 앞에 두고, 효과음은 SFX:, 환경음은 Ambient noise:로 적고, 끝에 No subtitles를 둔다.
[내 한국어 프롬프트]
{한국어_프롬프트}
{한국어_프롬프트}— 카메라·오디오를 더해 조립한 한국어 프롬프트.
[!TIP]
- 변환된 영문에서 카메라 용어(low angle, dolly in 등)가 제대로 들어갔는지 확인한다.
- 오디오 라벨(SFX:, Ambient noise:)과 끝의 No subtitles가 들어갔는지 본다.