Nano Banana 프롬프팅 노트 — 생성에서 대화로

2026. 5. 29. · 운장

지난 1년간 이미지 모델을 쓰면서 가장 크게 바뀐 건 모델 성능이 아니라 작업의 무게중심이다. 예전엔 완벽한 한 장을 뽑으려고 프롬프트를 몇 번이고 다시 던졌다. 지금은 대충 뽑은 뒤 대화로 고친다.

구글의 Nano Banana 계열은 이 변화를 가장 잘 보여준다. 핵심은 생성이 아니라 편집이다.

Nano Banana가 뭔가

Nano Banana는 Gemini에 내장된 이미지 생성·편집 기능의 별칭이고, 실제로는 세 모델을 통칭한다.

별칭	실제 모델	성격
Nano Banana Pro	Gemini 3 Pro Image	전문 에셋용. “Thinking” 추론으로 복잡한 지시·고충실도 텍스트
Nano Banana 2	Gemini 3.1 Flash Image	고효율·대량 처리. 512(0.5K) 해상도와 이미지 검색 그라운딩 추가
Nano Banana (1세대)	Gemini 2.5 Flash Image	저지연·대량 작업

세 모델 모두 출력에 SynthID 워터마크가 들어가고, Gemini 3 계열은 C2PA 출처 정보까지 담는다. 지식 컷오프는 2025년 1월이지만 웹 검색으로 실시간 정보를 반영할 수 있다는 게 다른 모델과 갈리는 지점이다.

최신 사양에서 눈에 띄는 것들: 참조 이미지 최대 14장, 2K/4K 출력, 구글 검색 그라운딩(사실이 정확한 인포그래픽·지도·차트), 다국어 텍스트 렌더링, 로컬 편집·조명·카메라 제어.

가장 중요한 원칙: 나열하지 말고 서술하라

이 모델의 핵심 강점은 깊은 언어 이해력이다. 그래서 흩어진 키워드 목록보다 서술적인 문단 하나가 거의 항상 더 일관된 결과를 낸다.

"고양이, 마법사 모자, 사진"이 아니라 — "푹신한 주황색 고양이가 부드러운 조명 아래 편안히 앉아 있고, 머리에는 작은 니트 마법사 모자를 쓰고 있다."

여기에 4대 모범 사례를 얹는다.

구체적으로. “판타지 갑옷”보다 “은박 잎사귀 무늬가 새겨진 엘프 판금 갑옷, 높은 깃과 매의 날개 모양 어깨 보호구”.
긍정형으로. “차 없음”이 아니라 “차량 통행 흔적이 전혀 없는 텅 빈 거리”(시맨틱 네거티브).
카메라를 통제. low-angle, aerial view, macro 등 사진 용어로 구도를 잡는다.
반복하며 다듬기. 한 번에 완벽을 기대하지 말 것.

요령 하나 더: 프롬프트를 강한 동사로 시작해 주요 작업을 먼저 알린다 — Create…, Edit…, Remove…, Transform…, Combine….

다섯 가지 프레임워크

가이드를 관통하는 다섯 가지 작업 틀. 외워두면 대부분의 작업이 여기 들어간다.

① 생성 (텍스트 → 이미지). [주체] + [동작] + [장소·맥락] + [구도] + [스타일]. 빈 캔버스 앞에선 당신이 감독이다. 참조 이미지를 섞으면 더 강력하다 — 예컨대 냅킨 스케치를 구조로, 패브릭 샘플을 질감으로 삼아 고품질 3D 안락의자 렌더로 변환하는 식이다.

스케치와 패브릭 샘플을 참조해 만든 3D 안락의자 렌더

② 편집 (텍스트 + 이미지 → 이미지). 여기가 본진이다. 생성과 사고방식이 다르다 — 무엇을 바꾸고 무엇을 그대로 둘지에 집중한다. “무엇을 똑같이 유지할지”를 반드시 명시할 것.

Using the provided image of a living room, change only the blue sofa to a
vintage brown leather chesterfield. Keep the rest of the room, including the
pillows and the lighting, unchanged.

③ 웹 검색 그라운딩. 가상의 장면을 꾸미는 대신, 실제 데이터를 가져와 시각화한다. [검색 요청] + [분석 작업] + [시각화]. 날씨·주가·최근 이벤트를 사실 그대로 그릴 수 있다.

샌프란시스코의 실제 날씨를 검색해 분위기에 반영하고, “컵 속 미니어처 도시”를 폰 UI 안에 그려낸 결과.

④ 텍스트 렌더링 & 현지화. 문구를 따옴표로 감싸고, 폰트를 지정하고, 출력 언어를 명시한다. 이커머스에서 메뉴·사인·패키지의 언어만 갈아끼우는 작업에 직결된다. 텍스트 우선 — 먼저 대화로 문구를 확정한 뒤 그 문구로 이미지를 요청하면 결과가 좋아진다.

같은 제품 광고를 영어·한국어·아랍어로 현지화한 결과

같은 제품 컷의 카피만 영어·한국어·아랍어로 갈아끼운 결과 — 레이아웃은 그대로, 텍스트만 또렷하게 현지화된다.

⑤ 크리에이티브 디렉터처럼. 키워드 입력을 멈추고 네 가지 레버를 당긴다 — 조명 설계(three-point softbox / Chiaroscuro), 카메라·렌즈·초점, 컬러 그레이딩·필름 스톡, 재질·질감.

다듬기는 멀티턴 대화로

Nano Banana를 가장 잘 쓰는 방법은 한 번의 완벽한 프롬프트가 아니라 같은 대화 안에서 이어가는 후속 지시다.

“좋아요, 조명을 조금 더 따뜻하게.” “이 인포그래픽을 스페인어로 바꿔 줘. 다른 요소는 그대로.” “다 두고 표정만 더 진지하게.”

Gemini 3 계열은 멀티턴에서 추론 맥락을 유지하기 위해 응답에 thought_signature를 담는다. 다음 턴에 대화 기록을 보낼 때 받은 그대로 되돌려보내야 하며, 공식 Gen AI SDK의 chat 기능을 쓰면 자동 처리된다.

한 줄 요약

완벽한 한 장을 뽑으려 애쓰지 말 것. 대충 시작해서 대화로 고쳐라 — 무엇을 유지할지 명시하고, 텍스트는 먼저 확정하고, 다듬기는 멀티턴으로.

Google의 Gemini API 이미지 생성 가이드와 Ultimate Nano Banana Prompting Guide를 바탕으로 핵심을 추려 정리한 노트다.

모든 에세이 · home