1. 영상 프레임 이미지 생성 프롬프트: Nano Banana와 GPT로 일관된 컷 만들기
영상에 쓸 프레임 이미지를 Nano Banana와 GPT 이미지 모델로 만드는 입문 교안. 프롬프트 기본 문법, 화면비·구도, 스타일 통일, 프레임 간 일관성을 통합 워크플로우로 다룬다.
동영상에 쓸 프레임 이미지를 Nano Banana와 GPT 이미지 모델로 만들어 봅시다.
한 장씩 따로 그리는 것이 아니라, 같은 인물·같은 분위기로 이어지는 여러 컷을 만드는 것이 목표입니다.
끝까지 따라 하면 프롬프트 기본 문법, 영상용 화면비·구도, 스타일 통일, 프레임 간 일관성까지 손에 익고, 같은 캐릭터가 등장하는 3컷 스토리보드를 완성할 수 있습니다.
도구를 켜기 전에 "프레임 이미지"가 영상 제작에서 어떤 자리인지 먼저 잡아 봅시다.
이 자리를 알아야 프롬프트에 무엇을 넣을지 감이 잡힙니다.
영상은 이미지가 시간 순으로 이어진 것입니다.
그래서 잘 만든 정지 이미지 한 장이 좋은 영상의 출발점이 됩니다.
같은 일을 하는 두 도구지만 강점이 다릅니다.
무엇을 어느 도구로 할지 정하려면 차이를 먼저 알아 둡니다.
gpt-image-1을 거쳐, 2026년 4월 21일 GPT Image 2(gpt-image-2)가 공개됐습니다. 화면비는 3:1(초광각)부터 1:3(세로)까지 지원하고 16:9·9:16·정방형을 포함하며, 최대 4096×4096까지(4K는 API 베타) 만듭니다. 한 번의 프롬프트로 인물·사물이 이어지는 이미지를 여러 장(최대 8장) 만드는 기능과 추론(reasoning) 능력이 특징입니다.두 도구 모두 "태그를 나열"하기보다 "장면을 문장으로 설명"하는 자연어 프롬프트에서 더 잘 동작합니다. 다음 장의 기본 문법이 두 도구에 공통으로 적용됩니다.
이미지 프롬프트는 검색어가 아니라 디자이너에게 건네는 "작업 의뢰서(브리프)"입니다.
다섯 요소를 순서대로 적는 습관을 들이면 두 도구 모두에서 결과가 또렷해집니다.
좋은 프롬프트는 적는 순서가 정해져 있습니다.
앞쪽에 적은 단어가 결과에 더 큰 영향을 주므로, 핵심부터 적습니다.
A quiet cafe by a window at golden hour, a young Korean man in his 20s reading a book at a wooden table, short black hair, navy sweater, a gentle relaxed smile, cinematic photorealistic style, warm soft window light, shallow depth of field, 16:9 aspect ratio. No text, no watermark, no extra people.
Wide shot, Medium shot, Close-up, Low angle, High angle.Golden hour, Soft light, Backlit, Rim light, Neon.85mm portrait lens, shallow depth of field.같은 장면이라도 적는 방식에 따라 결과가 크게 달라집니다.
"단어 나열"과 "문장 설명"의 차이를 눈으로 확인합니다.
man, cafe, book, coffee, window, light, cinematic, 4k, masterpiece, best quality
A man in his 20s sitting alone by a large window in a quiet cafe, reading a book with a cup of coffee on the table, soft warm afternoon light coming from the left, calm and cozy mood, cinematic photorealistic style, 16:9.
masterpiece, best quality 같은 옛 키워드 나열은 효과가 거의 없습니다.이제 같은 장면을 두 도구에 각각 넣어 봅시다.
같은 문장이 도구마다 어떻게 나오는지 비교하는 것이 목적입니다.
16:9를 고릅니다.16:9 aspect ratio, wide horizontal frame을 명시합니다.영상에 쓸 이미지는 "영상 화면에 맞는 비율과 구도"로 만들어야 합니다.
비율이 맞지 않으면 영상 단계에서 잘리거나 여백이 생깁니다.
영상은 보통 가로(16:9)나 세로(9:16)를 씁니다.
이미지도 처음부터 같은 비율로 만들어야 합니다.
16:9로 만듭니다. 두 도구 모두 16:9를 지원합니다.9:16으로 만듭니다.16:9 또는 9:16을 문장으로 적거나, 제공되는 비율 옵션을 고릅니다(3:1같은 인물이라도 어떻게 잡느냐(구도)에 따라 장면의 느낌이 달라집니다.
영상 편집을 고려해 여백도 미리 확보합니다.
Wide shot(전신·배경), Medium shot(상반신), Close-up(얼굴). 같은 인물로 와이드→미디엄→클로즈업 컷을 만들면 영상에 리듬이 생깁니다.Eye-level(평범·안정), Low angle(올려다봄·위압감), High angle(내려다봄·작아 보임).leave empty space on the upper third for a title(상단 1/3 비우기).subject positioned on the left third) 반대편에 자막을 넣기 좋습니다.slight space above the head)을 남기면 답답하지 않습니다.2.3에서 정한 기준 인물로 구도만 바꿔 봅시다.
인물·스타일은 그대로 두고 샷 크기만 바꾸는 연습입니다.
medium shot, from the waist up으로 바꿔 생성합니다.close-up of the face, slight space above the head로 바꿔 생성합니다.한 영상의 모든 컷은 같은 화풍·색감·빛이어야 한 작품으로 보입니다.
스타일을 "한 묶음"으로 정해 모든 프롬프트에 똑같이 붙이는 방법을 익힙니다.
스타일을 매번 새로 적으면 컷마다 분위기가 달라집니다.
한 번 정한 스타일 문장을 "블록"으로 만들어 재사용합니다.
cinematic photorealistic style, warm muted color palette, soft natural light, 85mm lens look, shallow depth of field, film grain
Avoid: text, watermark, extra fingers, distorted face, extra people, different outfit
영상의 분위기에 따라 스타일 블록을 한 번만 정합니다.
정한 뒤에는 끝까지 같은 블록을 씁니다.
warm, cozy, natural light), 차가운 도시 느낌(cool blue tone, neon, night), 잔잔한 다큐(muted colors, soft overcast light).warm 4800K, neutral 5200K처럼 색온도를 적으면 컷마다 색이 흔들리지 않습니다.같은 인물이 여러 컷에 똑같은 얼굴로 나와야 한 영상이 됩니다.
이 장이 이 교안의 핵심입니다. 두 도구의 일관성 기능을 함께 씁니다.
글로만 외모를 묘사하면 컷마다 얼굴이 바뀝니다.
가장 확실한 방법은 "이미지를 참조로 보여 주는 것"입니다.
A character reference sheet of the same Korean man in his 20s, three views in one image: front view, 45-degree view, and full side profile, neutral expression, plain gray background, consistent lighting, photorealistic.
참조 이미지를 못 쓰는 상황에서는 "단어"로 외모를 고정합니다.
한 번 정한 외모 단어를 모든 컷에서 글자 그대로 반복합니다.
the same man: short black hair, thick eyebrows, small mole under left eye, navy crew-neck sweater
thick eyebrows라고 적었으면 2번 컷에서도 thick eyebrows로 똑같이 적습니다. bushy eyebrows처럼 단어를 바꾸면 얼굴이 달라집니다.특히 이미지를 "수정(편집)"할 때, 바뀌면 안 되는 것을 분명히 적어야 합니다.
적지 않으면 도구가 전부 새로 그려도 되는 것으로 봅니다.
Same person, same face, same hairstyle, same background, same lighting. Only change the sweater color to dark green.
same character, same outfit, same lighting as the previous frame을 적어 연속성을 강제합니다.두 도구는 일관성을 돕는 기능이 조금 다릅니다.
상황에 맞게 골라 씁니다.
지금까지 배운 것을 모아 같은 인물의 3컷을 만들어 봅시다.
스타일·인물은 고정하고 장면·구도만 바꾸는 것이 핵심입니다.
The same man from the reference, wide shot walking into a quiet cafe, holding a tote bag, [스타일 블록], 16:9, leave space on the right third. [금지 블록]
The same man from the reference, medium shot sitting at a window table opening his laptop, same outfit, [스타일 블록], 16:9. [금지 블록]
The same man from the reference, close-up of his face smiling at the screen, same outfit, slight space above the head, [스타일 블록], 16:9. [금지 블록]
지금까지의 단계를 영상 제작 흐름 하나로 이어 봅시다.
이미지에서 확정한 것이 영상으로 그대로 넘어갑니다.
처음에 자주 겪는 문제와 해결법을 모았습니다.
결과가 이상하면 아래부터 점검합니다.
16:9(또는 9:16)을 명시했는지 확인합니다(3.1).no text, no watermark를 넣습니다(4.1).extra fingers, distorted face를 넣고, 클로즈업 등 다른 구도로 다시 생성합니다.이 교안에서 익힌 "5요소 프롬프트 + 화면비·구도 + 스타일 통일 + 프레임 일관성"으로 내 영상의 프레임 이미지를 만들다 막히면, 아래를 대화형 AI(ChatGPT·Claude·Gemini)에 붙여 넣어 실습 코치로 삼습니다. 답을 한꺼번에 받지 말고 한 컷씩 풀어 갑니다.
너는 영상 프레임 이미지 프롬프트 코치다. 나는 5요소 프롬프트(장면·주체·디테일·스타일·제약), 영상용 화면비·구도, 스타일 블록 고정, 참조 이미지·특징 단어로 프레임 간 일관성을 잡는 법을 배웠고, 같은 인물이 나오는 내 영상의 프레임 이미지 3컷을 직접 완성하려 한다. 답을 통째로 주지 말고 한 컷씩 물어 내가 채우게 한다.
[코칭 방식]
1. 먼저 어떤 영상의 어떤 인물·분위기인지 한 줄로 묻는다.
2. 스타일 블록과 금지 블록을 먼저 함께 정하게 한다(모든 컷 공통).
3. 1번 컷부터 장면→주체→구도→화면비 순으로 하나씩 물어 채우게 한다. 스타일·금지 블록은 고정으로 붙이게 한다.
4. 인물 일관성을 위해 참조 이미지 사용과 "the same person from the reference" 표기를 권한다. 외모를 길게 다시 묘사하면 일관성이 떨어진다고 알려 준다.
5. 한 컷을 완성하면 다음 컷은 구도·장면만 바꾸고 인물·스타일은 고정하도록 안내한다.
[내 상황]
- 만들 영상과 인물: {영상_인물}
- 막힌 부분: {막힌_부분}
준비됐으면 "어떤 영상의 어떤 인물·분위기인지 한 줄로 말해라"라고만 답한다.
{영상_인물} - 만들 영상과 등장 인물을 한 줄로, 예: 카페를 소개하는 브이로그, 20대 한국인 남성 한 명.{막힌_부분} - 막힌 지점, 예: 컷마다 얼굴이 달라진다 / 화면비가 자꾸 정방형으로 나온다.변수를 채운 예시는 아래와 같습니다. [내 상황]만 이렇게 바꿔 붙여 넣으면 됩니다.
[내 상황]
- 만들 영상과 인물: 카페를 소개하는 브이로그, 20대 한국인 남성 한 명
- 막힌 부분: 컷마다 얼굴이 달라진다