🐨CoalaCoding
Docs▾
JavaScriptReactHTML & CSSBackendAI & LLMDev ToolsCreative
B반1
👾숏츠
🙉B반2
게시판
🐨CoalaCoding

디지털 크리에이터를 위한 한국어 기술 문서

문서

  • JavaScript
  • React
  • HTML & CSS
  • Backend
  • AI & LLM
  • Dev Tools
  • Creative

커뮤니티

  • 게시판
  • 예제 모음

기타

  • 관리자

정책

  • 소개
  • 개인정보처리방침
  • 이용약관
  • 연락처
© 2026 CoalaCoding. All rights reserved.
  • 2. Gemini CLI
  • 4. flow로 영상생성-1
  • 4. figma-mcp-guide
  • 5. claude-code
  • 6. Google Flow Music으로 AI 음악 만들기
  • 6. geminiCli-FigmaDesign
  • 7. Google Veo 3 입문: 개념부터 첫 영상 제작까지
  • 7. 디자인생성하기
  • 8. Google Veo 3: Google Flow 깊이 있게 다루기
  • 8. 바이브코딩 완전 가이드
  • 9. Google Veo 3: 핵심 기능 완전 해설
  • 10. Google Veo 3: 장르·스타일·시각 제어
  • 11. Google Veo 3: 프롬프트 작성 완전 정복
  • 11. 모니카
  • 12. Google Veo 3: 텍스트→영상 프롬프트 마스터 공식
  • 13. Google Veo 3: 오디오 & 대화 장면 프롬프트
  • 14. Google Veo 3: 카메라 마스터클래스
  • 15. Google Veo 3: 실전 콘텐츠 제작 템플릿
  • 16. Google Veo 3: JSON 프롬프트 고급 기법
  • 17. Google Veo 3: 플랫폼별 최적화 전략
  • 17. suno
  • 18. Google Veo 3: 고급 기술 & 워크플로우
  • 19. Google Veo 3: 크레딧 효율 극대화
  • 20. Google Veo 3: AI 영상으로 수익 창출
  • 20. mmaudio
  • 21. Google Veo 3: 윤리·법률 가이드
  • 21. 리플릿
  • 22. Google Veo 3: 미래 전망과 경쟁 도구
  • 22. gemini
  • 23. Google Veo 3: 실전 프롬프트 대백과
  • 24. Google Veo 3: 치트 시트 및 요약 부록
  1. 홈
  2. 문서
  3. AI & LLM
  4. 생성형AI
  5. 13. Google Veo 3: 오디오 & 대화 장면 프롬프트

13. Google Veo 3: 오디오 & 대화 장면 프롬프트

목차

  • 8 대화와 오디오 제어 실습
  • 8.1 대화 장면 프롬프트 조립 공식
  • 8.2 캐릭터 음색과 말투(Voice Tone) 설계
  • 8.3 배경음과 음악 삽입 기법
  • 8.4 실전 대화 프롬프트 작성 실습 (빅풋 브이로그)
  • 8.5 응용 — 내 소재로 만들기

8 대화와 오디오 제어 실습

8.1 대화 장면 프롬프트 조립 공식

  1. 공식 적용: 8요소 공식에 대사와 목소리 톤을 결합한다. [캐릭터] + [행동] + [카메라] + [환경] + [대사 내용] + [목소리 톤] + [배경음/음악]
  2. 대사 입력 규칙: 따옴표("")를 쓰지 않고 평서문으로 대사를 적는다. 따옴표를 쓰면 영상에 자막이 나타날 수 있다.
  3. 모델 확인: 대화와 오디오는 오디오 지원 등급에서만 작동한다. 일반적으로 표준·고품질 등급이 오디오를 포함하고 경량 등급은 묵음일 수 있으므로, 생성 전 Flow 화면의 오디오 지원 표시를 확인해 등급을 고른다.
  1. 대사는 1~2문장으로 짧게 구성할 때 립싱크가 가장 정확하다.
  1. 대화 장면은 텍스트 프롬프트 생성 시에만 지원하며, 참조 이미지 사용 시 제한될 수 있다.

8.2 캐릭터 음색과 말투(Voice Tone) 설계

  1. 목소리 속성 지정: 나이, 성별, 국적(억양), 감정을 조합한다.
    • 예: 자신감 있고 낮은 40대 영국 남성 목소리로 말한다.
  2. 감정 키워드 추가: 캐릭터의 심리 상태를 목소리에 반영한다.
    • excited, weary, commanding, whispering, nervous
  3. 속도 조절: 말하는 속도를 지시하여 긴박감이나 여유를 준다.
    • speaking rapidly, slowly and deliberately
  1. 영어 대사가 한국어보다 발음과 립싱크가 더 안정적이다.
  1. 목소리 설명은 프롬프트의 대사 내용 바로 앞이나 뒤에 배치한다.

8.3 배경음과 음악 삽입 기법

  1. 환경음(Ambient) 지정: 장소에 어울리는 자연스러운 소음을 1~2개 넣는다.
    • [Audio: gentle rain on a rooftop, crackling campfire]
  2. 배경 음악 선택: 장면의 정서를 보강할 음악 스타일을 적는다.
    • [Audio: slow sad piano melody], [Audio: epic orchestral music]
  3. 자막 방지 문구 추가: 프롬프트 맨 끝에 자막 생성을 막는 지시어를 넣는다.
    • No subtitles. No text overlays.
  1. 소리가 너무 많으면 대사가 묻히므로 환경음은 2개 이내로 제한한다.
  1. 음악이 필요 없는 ASMR이나 공포 장면은 No music을 명시한다.

8.4 실전 대화 프롬프트 작성 실습 (빅풋 브이로그)

  1. 캐릭터와 환경 설정: 눈보라 치는 숲에서 셀카를 찍는 캐릭터를 묘사한다.
  2. 대사 및 톤 입력: 따옴표 없이 대사를 넣고 목소리 톤을 지정한다.
  3. 최종 조립: 아래 문구를 복사해 입력창에 넣고 생성한다.
    A large furry Bigfoot holding a selfie stick in a snowy forest during a blizzard. Selfie camera angle, shaky handheld style. Bigfoot speaks in a deep, rugged Scottish male voice: Hello everyone it is so cold today and my legs are freezing honestly. [Audio: howling wind, snapping branches] No subtitles.
    
  1. Selfie camera angle과 Handheld style은 브이로그의 현장감을 살리는 필수 키워드다.
  1. 립싱크가 어색하면 대사를 더 짧은 단어 위주로 수정한다.

8.5 응용 — 내 소재로 만들기

빅풋 예시를 버리고 내가 만들 캐릭터의 대사 장면을 같은 공식으로 다시 적용한다.

A {character} in {environment}. {camera angle}. {character} speaks in a {voice tone} voice: {line in plain English without quotes}. [Audio: {ambient sound 1}, {ambient sound 2}] No subtitles.
  1. {character} — 말하는 주체의 외형, 예: a young female barista with curly hair.
  2. {environment} — 장소와 분위기, 예: a cozy cafe at sunrise.
  3. {camera angle} — 앵글과 스타일, 예: Eye level medium shot, slight handheld.
  4. {voice tone} — 나이·성별·억양·감정, 예: warm and cheerful young American female.
  5. {line in plain English without quotes} — 따옴표 없는 1~2문장 대사, 예: Good morning, your usual flat white is almost ready.
  6. {ambient sound 1}, {ambient sound 2} — 환경음 2개 이내, 예: espresso machine hissing, soft jazz.
A young female barista with curly hair in a cozy cafe at sunrise. Eye level medium shot, slight handheld. The barista speaks in a warm and cheerful young American female voice: Good morning, your usual flat white is almost ready. [Audio: espresso machine hissing, soft jazz] No subtitles.
  1. {voice tone}만 바꿔 같은 장면을 다른 캐릭터 버전으로 재사용한다.
  1. 대사에 따옴표를 넣으면 화면에 자막이 박히므로 평서문으로만 적는다.