7. Google Flow: 오디오 & 대화 장면 프롬프트

#Google Flow

7. Google Flow: 오디오 & 대화 장면 프롬프트

대화와 오디오 제어 실습

대화 장면 프롬프트 조립 공식

공식 적용: Veo 공식 5형식에 대사와 음색, 오디오를 더한다. [촬영기법] + [주체] + [행동] + [맥락] + [스타일·분위기] + 대사·음색·오디오
대사 입력 규칙: 대사는 따옴표("")로 감싸고 화자를 앞에 명시한다. 예: The man says, "We have to leave now." 자막이 나오지 않게 하려면 프롬프트 끝에 No subtitles를 넣는다.
모델 확인: 대화와 오디오는 오디오 지원 등급에서만 작동한다. 일반적으로 표준·고품질 등급이 오디오를 포함하고 경량 등급은 묵음일 수 있으므로, 생성 전 Flow 화면의 오디오 지원 표시를 확인해 등급을 고른다.

대사는 1~2문장으로 짧게 구성할 때 립싱크가 가장 정확하다.
대화 장면은 텍스트 프롬프트 생성에서 가장 안정적이며, 참조 이미지 사용 시 제한될 수 있다.

캐릭터 음색과 말투(Voice Tone) 설계

목소리 속성 지정: 나이, 성별, 국적(억양), 감정을 조합한다.
- 예: 자신감 있고 낮은 40대 영국 남성 목소리로 말한다.
감정 키워드 추가: 캐릭터의 심리 상태를 목소리에 반영한다.
- excited, weary, commanding, whispering, nervous
속도 조절: 말하는 속도를 지시하여 긴박감이나 여유를 준다.
- speaking rapidly, slowly and deliberately

영어 대사가 한국어보다 발음과 립싱크가 더 안정적이다.
음색 설명은 화자 명시 부분에 함께 적는다. 예: The detective says in a low, weary voice, "..."

배경음과 음악 삽입 기법

환경음(Ambient noise) 지정: 장소에 어울리는 자연스러운 소음을 1~2개 넣는다.
- Ambient noise: gentle rain on a rooftop, crackling campfire
효과음(SFX)과 음악: 특정 동작에 붙는 소리는 SFX:, 배경 음악은 Music:으로 적는다.
- SFX: a door slams shut / Music: slow sad piano melody, Music: epic orchestral score
자막 방지 문구 추가: 프롬프트 맨 끝에 자막 생성을 막는 지시어를 넣는다.
- No subtitles. No text overlays.

소리가 너무 많으면 대사가 묻히므로 환경음은 2개 이내로 제한한다.
음악이 필요 없는 ASMR이나 공포 장면은 No music을 명시한다.

실전 대화 프롬프트 작성 실습 (빅풋 브이로그)

캐릭터와 환경 설정: 눈보라 치는 숲에서 셀카를 찍는 캐릭터를 묘사한다.
대사 및 톤 입력: 대사를 따옴표로 감싸 화자를 앞에 명시하고 음색을 함께 적는다.

최종 조립: 아래 문구를 복사해 입력창에 넣고 생성한다.

Selfie camera angle, shaky handheld style. A large furry Bigfoot holds a selfie stick in a snowy forest during a blizzard. The Bigfoot says in a deep, rugged Scottish male voice, "Hello everyone, it is so cold today and my legs are freezing honestly." Ambient noise: howling wind, snapping branches. No subtitles.

Selfie camera angle과 Handheld style은 브이로그의 현장감을 살리는 필수 키워드다.
따옴표 대사에서도 자막이 보이면 No subtitles를 다시 확인하고, 립싱크가 어색하면 대사를 더 짧게 줄인다.
억양은 화자 설정과 일치시켜야 음색이 일관된다.

막히면 — AI 코치에게 묻기

내 캐릭터가 말하는 장면을 짜다 막히면, 아래를 대화형 AI에 붙여 넣어 코치로 삼는다. 코치가 대사·음색·오디오를 하나씩 채우게 돕는다.

너는 AI 영상 대화 장면 코치다. 나는 대사·음색·오디오 넣는 법을 배웠고, 내 캐릭터가 말하는 장면을 Veo 공식 방식으로 완성하려 한다. 답을 통째로 주지 말고 한 묶음씩 물어 내가 채우게 한다.

[5형식 + 대사·오디오]
[촬영기법] + [주체] + [행동] + [맥락] + [스타일·분위기], 그리고 대사·음색·오디오.
- 대사: 따옴표로 감싸고 화자를 앞에 명시한다. 예: The barista says, "..."
- 음색: 나이·성별·억양·감정. 예: warm and cheerful young American female voice
- 오디오: 효과음 SFX:, 환경음 Ambient noise:, 음악 Music:
- 자막 방지: 끝에 No subtitles.

[코칭 방식]
1. 누가 어디서 무슨 말을 하는지 듣는다.
2. 주체·맥락·대사·음색·오디오를 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 대사는 1~2문장으로 짧게, 따옴표로 감싸고 화자를 앞에 명시하게 한다.
4. 촬영기법을 문장 맨 앞에 두게 한다.
5. 오디오는 효과음·환경음·음악을 라벨로 구분하고, 환경음은 2개 이내로 제한하게 한다.
6. 끝에 No subtitles를 넣어 자막을 막게 한다.

[내 상황]
- 말하는 장면: {말하는_장면}
- 막힌 부분: {막힌_부분}

준비됐으면 "누가 어디서 무슨 말을 하는지 한 줄로 말해라"라고만 답한다.

{말하는_장면} — 누가 어디서 무슨 말을 하는지 한 줄로, 예: 카페 바리스타가 주문을 받으며 인사한다.
{막힌_부분} — 채우기 어려운 부분, 예: 음색, 오디오 라벨.

코치가 한꺼번에 다 채워 주려 하면 "한 묶음씩 물어라"라고 다시 요청한다.
음색만 바꿔 같은 장면을 다른 캐릭터 버전으로 재사용한다.

영문으로 변환해 입력하기

대사 장면을 한국어로 구상했으면 그대로 넣지 말고, 영문 한 문단으로 옮겨 Veo에 입력한다. 영어 대사가 발음과 립싱크가 더 안정적이다.

다음 한국어 대화 장면 프롬프트를 Veo용 영문 프롬프트 한 문단으로 옮겨라. 의미를 바꾸지 말고, 대사는 따옴표로 감싸 화자를 앞에 명시하고, 카메라·음색 용어는 영어로 정확히 바꾼다. 효과음은 SFX:, 환경음은 Ambient noise:, 음악은 Music:으로 적고, 끝에 No subtitles를 둔다.

[내 한국어 프롬프트]
{한국어_프롬프트}

{한국어_프롬프트} — 5형식에 대사·오디오를 더해 조립한 한국어 프롬프트.

변환된 영문에서 대사가 따옴표로 감싸여 화자가 앞에 명시됐는지 확인한다.
오디오 라벨(SFX:, Ambient noise:, Music:)과 끝의 No subtitles가 들어갔는지 본다.

#Google Flow

대화와 오디오 제어 실습

대화 장면 프롬프트 조립 공식

공식 적용: Veo 공식 5형식에 대사와 음색, 오디오를 더한다. [촬영기법] + [주체] + [행동] + [맥락] + [스타일·분위기] + 대사·음색·오디오
대사 입력 규칙: 대사는 따옴표("")로 감싸고 화자를 앞에 명시한다. 예: The man says, "We have to leave now." 자막이 나오지 않게 하려면 프롬프트 끝에 No subtitles를 넣는다.
모델 확인: 대화와 오디오는 오디오 지원 등급에서만 작동한다. 일반적으로 표준·고품질 등급이 오디오를 포함하고 경량 등급은 묵음일 수 있으므로, 생성 전 Flow 화면의 오디오 지원 표시를 확인해 등급을 고른다.

대사는 1~2문장으로 짧게 구성할 때 립싱크가 가장 정확하다.
대화 장면은 텍스트 프롬프트 생성에서 가장 안정적이며, 참조 이미지 사용 시 제한될 수 있다.

캐릭터 음색과 말투(Voice Tone) 설계

목소리 속성 지정: 나이, 성별, 국적(억양), 감정을 조합한다.
- 예: 자신감 있고 낮은 40대 영국 남성 목소리로 말한다.
감정 키워드 추가: 캐릭터의 심리 상태를 목소리에 반영한다.
- excited, weary, commanding, whispering, nervous
속도 조절: 말하는 속도를 지시하여 긴박감이나 여유를 준다.
- speaking rapidly, slowly and deliberately

영어 대사가 한국어보다 발음과 립싱크가 더 안정적이다.
음색 설명은 화자 명시 부분에 함께 적는다. 예: The detective says in a low, weary voice, "..."

배경음과 음악 삽입 기법

환경음(Ambient noise) 지정: 장소에 어울리는 자연스러운 소음을 1~2개 넣는다.
- Ambient noise: gentle rain on a rooftop, crackling campfire
효과음(SFX)과 음악: 특정 동작에 붙는 소리는 SFX:, 배경 음악은 Music:으로 적는다.
- SFX: a door slams shut / Music: slow sad piano melody, Music: epic orchestral score
자막 방지 문구 추가: 프롬프트 맨 끝에 자막 생성을 막는 지시어를 넣는다.
- No subtitles. No text overlays.

소리가 너무 많으면 대사가 묻히므로 환경음은 2개 이내로 제한한다.
음악이 필요 없는 ASMR이나 공포 장면은 No music을 명시한다.

실전 대화 프롬프트 작성 실습 (빅풋 브이로그)

캐릭터와 환경 설정: 눈보라 치는 숲에서 셀카를 찍는 캐릭터를 묘사한다.
대사 및 톤 입력: 대사를 따옴표로 감싸 화자를 앞에 명시하고 음색을 함께 적는다.

최종 조립: 아래 문구를 복사해 입력창에 넣고 생성한다.

Selfie camera angle, shaky handheld style. A large furry Bigfoot holds a selfie stick in a snowy forest during a blizzard. The Bigfoot says in a deep, rugged Scottish male voice, "Hello everyone, it is so cold today and my legs are freezing honestly." Ambient noise: howling wind, snapping branches. No subtitles.

Selfie camera angle과 Handheld style은 브이로그의 현장감을 살리는 필수 키워드다.
따옴표 대사에서도 자막이 보이면 No subtitles를 다시 확인하고, 립싱크가 어색하면 대사를 더 짧게 줄인다.
억양은 화자 설정과 일치시켜야 음색이 일관된다.

막히면 — AI 코치에게 묻기

내 캐릭터가 말하는 장면을 짜다 막히면, 아래를 대화형 AI에 붙여 넣어 코치로 삼는다. 코치가 대사·음색·오디오를 하나씩 채우게 돕는다.

너는 AI 영상 대화 장면 코치다. 나는 대사·음색·오디오 넣는 법을 배웠고, 내 캐릭터가 말하는 장면을 Veo 공식 방식으로 완성하려 한다. 답을 통째로 주지 말고 한 묶음씩 물어 내가 채우게 한다.

[5형식 + 대사·오디오]
[촬영기법] + [주체] + [행동] + [맥락] + [스타일·분위기], 그리고 대사·음색·오디오.
- 대사: 따옴표로 감싸고 화자를 앞에 명시한다. 예: The barista says, "..."
- 음색: 나이·성별·억양·감정. 예: warm and cheerful young American female voice
- 오디오: 효과음 SFX:, 환경음 Ambient noise:, 음악 Music:
- 자막 방지: 끝에 No subtitles.

[코칭 방식]
1. 누가 어디서 무슨 말을 하는지 듣는다.
2. 주체·맥락·대사·음색·오디오를 하나씩 물어 채우게 한다. 한꺼번에 채워 주지 않는다.
3. 대사는 1~2문장으로 짧게, 따옴표로 감싸고 화자를 앞에 명시하게 한다.
4. 촬영기법을 문장 맨 앞에 두게 한다.
5. 오디오는 효과음·환경음·음악을 라벨로 구분하고, 환경음은 2개 이내로 제한하게 한다.
6. 끝에 No subtitles를 넣어 자막을 막게 한다.

[내 상황]
- 말하는 장면: {말하는_장면}
- 막힌 부분: {막힌_부분}

준비됐으면 "누가 어디서 무슨 말을 하는지 한 줄로 말해라"라고만 답한다.

{말하는_장면} — 누가 어디서 무슨 말을 하는지 한 줄로, 예: 카페 바리스타가 주문을 받으며 인사한다.
{막힌_부분} — 채우기 어려운 부분, 예: 음색, 오디오 라벨.

코치가 한꺼번에 다 채워 주려 하면 "한 묶음씩 물어라"라고 다시 요청한다.
음색만 바꿔 같은 장면을 다른 캐릭터 버전으로 재사용한다.

영문으로 변환해 입력하기

대사 장면을 한국어로 구상했으면 그대로 넣지 말고, 영문 한 문단으로 옮겨 Veo에 입력한다. 영어 대사가 발음과 립싱크가 더 안정적이다.

다음 한국어 대화 장면 프롬프트를 Veo용 영문 프롬프트 한 문단으로 옮겨라. 의미를 바꾸지 말고, 대사는 따옴표로 감싸 화자를 앞에 명시하고, 카메라·음색 용어는 영어로 정확히 바꾼다. 효과음은 SFX:, 환경음은 Ambient noise:, 음악은 Music:으로 적고, 끝에 No subtitles를 둔다.

[내 한국어 프롬프트]
{한국어_프롬프트}

{한국어_프롬프트} — 5형식에 대사·오디오를 더해 조립한 한국어 프롬프트.

변환된 영문에서 대사가 따옴표로 감싸여 화자가 앞에 명시됐는지 확인한다.
오디오 라벨(SFX:, Ambient noise:, Music:)과 끝의 No subtitles가 들어갔는지 본다.