mmaudio

https://huggingface.co/spaces/hkchengrex/MMAudio
텍스트→오디오, 혹은 비디오→오디오(영상 소리 입히기).
이 모델은 텍스트/비디오 입력으로 동기화된 오디오를 생성하도록 학습되었다

  • Prompt: 원하는 소리 설명. 예) waves, seagulls
  • (Video → Audio만) Video 업로드: 소리를 입힐 영상 파일.
  • Negative prompt: 빼고 싶은 소리. 예) low quality, noise
  • Seed: 결과 고정용 숫자. 1은 무작위.
  • Num steps: 품질/연산 반복 수. 20~30부터 시작 권장.
  • Guidance strength: 프롬프트 반영 강도. 3~6부터 시작.
  • Duration (sec): 길이(초).
    • 학습 기본 길이가 8초라 크게 벗어나면 품질이 떨어질 수 있다.
      Generate/Submit 버튼 → 대기 후 오디오(.flac) 혹은 영상+오디오(.mp4) 결과를 다운로드한다.

추천 시작값

  • Steps: 25
  • Guidance: 4~5
  • Duration: 8초
  • Seed: -1(탐색) → 마음에 드는 결과면 그 숫자 기록

소리가 말소리처럼 웅얼거리거나 배경음이 잘못 끼는 경우가 있다. 프롬프트를 구체화하고 Negative prompt에 speech, talking, music 등을 넣어 본다.


프롬프트

프롬프트 설명
waves, seagulls 바닷가 파도와 갈매기
rain, thunderstorm 빗소리와 천둥
forest, birds chirping 숲 속 새소리
fireplace, crackling wood 벽난로 장작 타는 소리
wind blowing in canyon 협곡 바람 소리
waterfall, river stream 폭포와 개울
city traffic, car horns 도시 교통 소음
subway, crowd 지하철과 군중
construction site, drilling 공사장 드릴 소리
footsteps on snow 눈 위 발자국
desert wind 사막 바람 소리
jungle, monkeys 정글 원숭이 소리
piano melody 피아노 선율
guitar strumming 기타 연주
drum beats 드럼 박자
lofi hiphop background 로파이 힙합
fireworks 불꽃놀이
explosion 폭발음
clock ticking 시계 초침
footsteps in hallway 복도 발자국

노이즈/공간음 프롬프트

프롬프트 설명
white noise 기본적인 균일 잡음, TV 무음 채널 소리
pink noise 저음 강조된 잡음, 차분하고 공간감 있음
brown noise 더 깊은 저음, 웅웅거리는 공간음
gray noise 균일 청각 인지 잡음, 부드러운 톤
blue noise 고음 위주, 날카롭지만 공간감 있는 소리
violet noise 초고음 강조된 노이즈
ambient noise 배경 환경음 전반
room tone 빈 방의 기본적인 공기 소리
air conditioner hum 에어컨 바람소리
fan noise 선풍기·환풍기 돌아가는 소리
computer fan hum 컴퓨터 팬 소음
refrigerator hum 냉장고 웅웅거림
distant traffic hum 멀리서 들리는 교통 소리
city ambience 도시 전반의 배경음
forest ambience 숲 속 바람·벌레소리 같은 공간음
ocean white noise 파도와 섞인 화이트노이즈
rain white noise 빗소리와 섞인 노이즈
wind noise 바람이 부는 공간 소리
waterfall ambience 폭포가 주는 지속적 공간음
HVAC noise 건물 환기 시스템 웅웅거림

네거티브 프롬프트

네거티브 프롬프트 설명
noise 잡음 제거
static 전파음 제거
low quality 저화질 소리 제거
distorted 왜곡된 소리 제거
speech 말소리 제거
talking 대화 제거
whispering 속삭임 제거
music 음악 제거
melody 멜로디 제거
singing 노래 제거
dogs barking 개 짖는 소리 제외
cats meowing 고양이 울음소리 제외
birds 새소리 제외
human voices 사람 목소리 제외
laughter 웃음소리 제외
footsteps 발자국 소리 제외
crowd 군중 소리 제외
traffic 교통 소음 제외
siren 사이렌 소리 제외
echo, reverb 메아리/잔향 제거

댓글 남기기