Google Flow: 오디오 & 대화 장면 프롬프트

5형식으로 만든 장면에 대사·음색·효과음·배경음을 더해, 캐릭터가 실제로 말하고 소리가 들리는 영상을 만들어 봅시다.

5형식은 한 장면을 촬영기법·주체·행동·맥락·스타일/분위기 다섯 토막으로 나눠 적는 Veo 공식 작성틀입니다. 공식 정의와 각 칸 작성법은 「Google Flow: 텍스트→영상 프롬프트 마스터 공식」 문서를 참고하세요.

Veo 3.1은 대사·SFX·환경음 네이티브 생성을 지원합니다(2026년 5월 기준). 끝까지 따라 하면 캐릭터가 말하는 대화 장면 프롬프트 한 벌과 코치 프롬프트까지 완성할 수 있습니다.

1 – 대화와 오디오 제어 실습

지금까지 화면을 만들었다면, 이제 소리를 입혀 봅시다.

Veo는 대사를 따옴표로 적으면 인물이 그 말을 입 모양까지 맞춰 말하고, SFX·Ambient noise·Music 라벨로 적은 소리를 함께 깝니다.

대사·음색·배경음을 차례로 익혀 빅풋 브이로그 한 컷을 완성합니다.

1.1 – 대화 장면 프롬프트 조립 공식

먼저 대사를 넣는 기본 규칙부터 잡아 봅시다.

대사는 따옴표로 감싸 화자를 앞에 적고, 오디오 등급을 골라야 소리가 납니다.

공식 적용 – Veo 공식 5형식에 대사와 음색, 오디오를 더합니다.
[촬영기법] + [주체] + [행동] + [맥락] + [스타일·분위기] + 대사·음색·오디오
대사 입력 규칙 – 대사는 따옴표("")로 감싸고 화자를 앞에 명시합니다. 예: The man says, "We have to leave now." 자막이 나오지 않게 하려면 프롬프트 끝에 No subtitles를 넣습니다.
모델 확인 – Veo 3.1은 대사·SFX·환경음 네이티브 생성을 지원합니다(2026년 5월 기준). 생성 전에 Flow 화면에서 선택한 모델이 Veo 3.1인지 확인합니다.

[!NOTE]

대사는 1~2문장으로 짧게 구성할 때 립싱크가 가장 정확합니다.

대화 장면은 텍스트 프롬프트 생성에서 가장 안정적이며, 참조 이미지 사용 시 제한될 수 있습니다.

1.2 – 캐릭터 음색과 말투(Voice Tone) 설계

같은 대사도 목소리에 따라 인상이 달라집니다.

나이·억양·감정을 적어 캐릭터에 맞는 음색을 만들어 봅시다.

목소리 속성 지정 – 나이, 성별, 국적(억양), 감정을 조합합니다.
예: 자신감 있고 낮은 40대 영국 남성 목소리로 말한다.
감정 키워드 추가 – 캐릭터의 심리 상태를 목소리에 반영합니다(excited, weary, commanding, whispering, nervous).
속도 조절 – 말하는 속도를 지시해 긴박감이나 여유를 줍니다(speaking rapidly, slowly and deliberately).

[!TIP]

영어 대사가 한국어보다 발음과 립싱크가 더 안정적입니다.

음색 설명은 화자 명시 부분에 함께 적습니다. 예: The detective says in a low, weary voice, "..."

1.3 – 배경음과 음악 삽입 기법

대사 말고도 장면을 채우는 소리가 있습니다.

환경음·효과음·음악을 라벨로 구분해 적되 너무 많이 넣지 않습니다.

환경음(Ambient noise) 지정 – 장소에 어울리는 자연스러운 소음을 1~2개 넣습니다(Ambient noise: gentle rain on a rooftop, crackling campfire).
효과음(SFX)과 음악 – 특정 동작에 붙는 소리는 SFX:, 배경 음악은 Music:으로 적습니다(SFX: a door slams shut / Music: slow sad piano melody, Music: epic orchestral score).
자막 방지 문구 추가 – 프롬프트 맨 끝에 자막 생성을 막는 지시어를 넣습니다(No subtitles. No text overlays.).

[!IMPORTANT]

소리가 너무 많으면 대사가 묻히므로 환경음은 2개 이내로 제한합니다.

음악이 필요 없는 ASMR이나 공포 장면은 No music을 명시합니다.

1.4 – 실전 대화 프롬프트 작성 실습 (빅풋 브이로그)

배운 것을 한 컷에 모아 봅시다.

눈보라 숲에서 셀카를 찍으며 말하는 빅풋 브이로그를 완성합니다.

캐릭터와 환경 설정 – 눈보라 치는 숲에서 셀카를 찍는 캐릭터를 묘사합니다.
대사와 톤 입력 – 대사를 따옴표로 감싸 화자를 앞에 명시하고 음색을 함께 적습니다.
최종 조립 – 아래 문구를 복사해 입력창에 넣고 생성합니다.

Selfie camera angle, shaky handheld style. A large furry Bigfoot holds a selfie stick in a snowy forest during a blizzard. The Bigfoot says in a deep, rugged Scottish male voice, "Hello everyone, it is so cold today and my legs are freezing honestly." Ambient noise: howling wind, snapping branches. No subtitles.

화자(The Bigfoot)와 음색(deep, rugged Scottish male voice)을 대사 앞에 함께 적어, 인물이 그 목소리로 말합니다. No subtitles로 자막을 막고 환경음은 두 개로 줄여 대사가 묻히지 않게 했습니다.

[!NOTE]

Selfie camera angle과 Handheld style은 브이로그의 현장감을 살리는 필수 키워드입니다.

따옴표 대사에서도 자막이 보이면 No subtitles를 다시 확인하고, 립싱크가 어색하면 대사를 더 짧게 줄입니다.

억양은 화자 설정과 일치시켜야 음색이 일관됩니다.

1.5 – 영문으로 변환해 입력하기

대사 장면을 한국어로 구상했으면 그대로 넣지 말고, 영문 한 문단으로 옮겨 Veo에 입력합니다.

영어 대사가 발음과 립싱크가 더 안정적입니다.

다음 한국어 대화 장면 프롬프트를 Veo용 영문 프롬프트 한 문단으로 옮겨라. 의미를 바꾸지 말고, 대사는 따옴표로 감싸 화자를 앞에 명시하고, 카메라·음색 용어는 영어로 정확히 바꾼다. 효과음은 SFX:, 환경음은 Ambient noise:, 음악은 Music:으로 적고, 끝에 No subtitles를 둔다.

[내 한국어 프롬프트]
{한국어_프롬프트}

{한국어_프롬프트} – 5형식에 대사·오디오를 더해 조립한 한국어 프롬프트.

변환된 영문을 그대로 입력창에 붙여 넣으면 영상 생성이 시작됩니다.

[!TIP]

변환된 영문에 따옴표 대사·화자 명시, 오디오 라벨(SFX:, Ambient noise:, Music:), 끝의 No subtitles가 올바르게 들어갔는지 한 번에 확인합니다.

실습 코칭 프롬프트

내 캐릭터가 말하는 장면을 짜다 막히면, 아래 프롬프트를 대화형 AI(ChatGPT·Claude·Gemini)에 붙여 넣어 코치로 삼습니다.

코치가 대사·음색·오디오를 하나씩 채우게 돕습니다.

너는 AI 영상 대화 장면 코치다. 나는 대사·음색·오디오 넣는 법을 배웠고, 내 캐릭터가 말하는 장면을 Veo 공식 방식으로 완성하려 한다. 답을 통째로 주지 말고 한 묶음씩 물어 내가 채우게 한다.

[5형식 + 대사·오디오]
[촬영기법] + [주체] + [행동] + [맥락] + [스타일·분위기], 그리고 대사·음색·오디오.
- 대사: 따옴표로 감싸고 화자를 앞에 명시한다. 예: The barista says, "..."
- 음색: 나이·성별·억양·감정. 예: warm and cheerful young American female voice
- 오디오: 효과음 SFX:, 환경음 Ambient noise:, 음악 Music:
- 자막 방지: 끝에 No subtitles.

[코칭 방식]
1. 누가 어디서 무슨 말을 하는지 듣는다.
2. 주체·맥락·대사·음색·오디오를 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 대사는 1~2문장으로 짧게, 따옴표로 감싸고 화자를 앞에 명시하게 한다.
4. 촬영기법을 문장 맨 앞에 두게 한다.
5. 오디오는 효과음·환경음·음악을 라벨로 구분하고, 환경음은 2개 이내로 제한하게 한다.
6. 끝에 No subtitles를 넣어 자막을 막게 한다.

[내 상황]
- 말하는 장면: {말하는_장면}
- 막힌 부분: {막힌_부분}

준비됐으면 "누가 어디서 무슨 말을 하는지 한 줄로 말해라"라고만 답한다.

{말하는_장면} – 누가 어디서 무슨 말을 하는지 한 줄로, 예: 카페 바리스타가 주문을 받으며 인사한다.
{막힌_부분} – 채우기 어려운 부분, 예: 음색, 오디오 라벨.

변수를 채운 예시는 아래와 같습니다. [내 상황]만 이렇게 바꿔 붙여 넣으면 됩니다.

[내 상황]
- 말하는 장면: 카페 바리스타가 주문을 받으며 인사한다
- 막힌 부분: 음색

[!TIP]

코치가 한꺼번에 다 채워 주려 하면 "한 묶음씩 물어라"라고 다시 요청합니다.

음색만 바꿔 같은 장면을 다른 캐릭터 버전으로 재사용합니다.