Nano Banana 프롬프팅 노트 — 생성에서 대화로
지난 1년간 이미지 모델을 쓰면서 가장 크게 바뀐 건 모델 성능이 아니라 작업의 무게중심이다. 예전엔 완벽한 한 장을 뽑으려고 프롬프트를 몇 번이고 다시 던졌다. 지금은 대충 뽑은 뒤 대화로 고친다.
구글의 Nano Banana 계열은 이 변화를 가장 잘 보여준다. 핵심은 생성이 아니라 편집이다.
Nano Banana가 뭔가
Nano Banana는 Gemini에 내장된 이미지 생성·편집 기능의 별칭이고, 실제로는 세 모델을 통칭한다.
| 별칭 | 실제 모델 | 성격 |
|---|---|---|
| Nano Banana Pro | Gemini 3 Pro Image | 전문 에셋용. “Thinking” 추론으로 복잡한 지시·고충실도 텍스트 |
| Nano Banana 2 | Gemini 3.1 Flash Image | 고효율·대량 처리. 512(0.5K) 해상도와 이미지 검색 그라운딩 추가 |
| Nano Banana (1세대) | Gemini 2.5 Flash Image | 저지연·대량 작업 |
세 모델 모두 출력에 SynthID 워터마크가 들어가고, Gemini 3 계열은 C2PA 출처 정보까지 담는다. 지식 컷오프는 2025년 1월이지만 웹 검색으로 실시간 정보를 반영할 수 있다는 게 다른 모델과 갈리는 지점이다.
최신 사양에서 눈에 띄는 것들: 참조 이미지 최대 14장, 2K/4K 출력, 구글 검색 그라운딩(사실이 정확한 인포그래픽·지도·차트), 다국어 텍스트 렌더링, 로컬 편집·조명·카메라 제어.
가장 중요한 원칙: 나열하지 말고 서술하라
이 모델의 핵심 강점은 깊은 언어 이해력이다. 그래서 흩어진 키워드 목록보다 서술적인 문단 하나가 거의 항상 더 일관된 결과를 낸다.
"고양이, 마법사 모자, 사진"이 아니라 — "푹신한 주황색 고양이가 부드러운 조명 아래 편안히 앉아 있고, 머리에는 작은 니트 마법사 모자를 쓰고 있다."
여기에 4대 모범 사례를 얹는다.
- 구체적으로. “판타지 갑옷”보다 “은박 잎사귀 무늬가 새겨진 엘프 판금 갑옷, 높은 깃과 매의 날개 모양 어깨 보호구”.
- 긍정형으로. “차 없음”이 아니라 “차량 통행 흔적이 전혀 없는 텅 빈 거리”(시맨틱 네거티브).
- 카메라를 통제. low-angle, aerial view, macro 등 사진 용어로 구도를 잡는다.
- 반복하며 다듬기. 한 번에 완벽을 기대하지 말 것.
요령 하나 더: 프롬프트를 강한 동사로 시작해 주요 작업을 먼저 알린다 — Create…, Edit…, Remove…, Transform…, Combine….
다섯 가지 프레임워크
가이드를 관통하는 다섯 가지 작업 틀. 외워두면 대부분의 작업이 여기 들어간다.
① 생성 (텍스트 → 이미지). [주체] + [동작] + [장소·맥락] + [구도] + [스타일]. 빈 캔버스 앞에선 당신이 감독이다. 참조 이미지를 섞으면 더 강력하다 — 예컨대 냅킨 스케치를 구조로, 패브릭 샘플을 질감으로 삼아 고품질 3D 안락의자 렌더로 변환하는 식이다.

② 편집 (텍스트 + 이미지 → 이미지). 여기가 본진이다. 생성과 사고방식이 다르다 — 무엇을 바꾸고 무엇을 그대로 둘지에 집중한다. “무엇을 똑같이 유지할지”를 반드시 명시할 것.
Using the provided image of a living room, change only the blue sofa to a
vintage brown leather chesterfield. Keep the rest of the room, including the
pillows and the lighting, unchanged.
③ 웹 검색 그라운딩. 가상의 장면을 꾸미는 대신, 실제 데이터를 가져와 시각화한다. [검색 요청] + [분석 작업] + [시각화]. 날씨·주가·최근 이벤트를 사실 그대로 그릴 수 있다.

샌프란시스코의 실제 날씨를 검색해 분위기에 반영하고, “컵 속 미니어처 도시”를 폰 UI 안에 그려낸 결과.
④ 텍스트 렌더링 & 현지화. 문구를 따옴표로 감싸고, 폰트를 지정하고, 출력 언어를 명시한다. 이커머스에서 메뉴·사인·패키지의 언어만 갈아끼우는 작업에 직결된다. 텍스트 우선 — 먼저 대화로 문구를 확정한 뒤 그 문구로 이미지를 요청하면 결과가 좋아진다.

같은 제품 컷의 카피만 영어·한국어·아랍어로 갈아끼운 결과 — 레이아웃은 그대로, 텍스트만 또렷하게 현지화된다.
⑤ 크리에이티브 디렉터처럼. 키워드 입력을 멈추고 네 가지 레버를 당긴다 — 조명 설계(three-point softbox / Chiaroscuro), 카메라·렌즈·초점, 컬러 그레이딩·필름 스톡, 재질·질감.
다듬기는 멀티턴 대화로
Nano Banana를 가장 잘 쓰는 방법은 한 번의 완벽한 프롬프트가 아니라 같은 대화 안에서 이어가는 후속 지시다.
“좋아요, 조명을 조금 더 따뜻하게.” “이 인포그래픽을 스페인어로 바꿔 줘. 다른 요소는 그대로.” “다 두고 표정만 더 진지하게.”
Gemini 3 계열은 멀티턴에서 추론 맥락을 유지하기 위해 응답에 thought_signature를 담는다. 다음 턴에 대화 기록을 보낼 때 받은 그대로 되돌려보내야 하며, 공식 Gen AI SDK의 chat 기능을 쓰면 자동 처리된다.
한 줄 요약
완벽한 한 장을 뽑으려 애쓰지 말 것. 대충 시작해서 대화로 고쳐라 — 무엇을 유지할지 명시하고, 텍스트는 먼저 확정하고, 다듬기는 멀티턴으로.
Google의 Gemini API 이미지 생성 가이드와 Ultimate Nano Banana Prompting Guide를 바탕으로 핵심을 추려 정리한 노트다.