이미지 생성 버튼을 눌렀다. 화면에 노이즈가 나타난다.
그 노이즈가 서서히 이미지가 됐다.

처음엔 로딩 애니메이션이라고 생각했을 거다.
아니다. 그게 AI가 이미지를 만드는 실제 과정이다.
먼저 사진을 망가뜨렸다
2020년, UC버클리 연구팀이 논문 하나를 냈다. 조너선 호(Jonathan Ho), 아제이 자인(Ajay Jain), 피터 아벨(Pieter Abbeel)이 NeurIPS 2020에서 발표한 “Denoising Diffusion Probabilistic Models“가 지금 AI 이미지 생성의 토대다.
아이디어 자체는 단순했다. 이미지 수백만 장에 노이즈를 단계적으로 더한다. 조금씩, 계속. 완전한 노이즈가 될 때까지. 그 과정을 전부 기록한다.
왜? 이미지가 어떻게 무너지는지 공식으로 정의하면, 그 공식을 거꾸로 돌릴 수 있다. 노이즈가 이미지로 붕괴하는 경로를 알면, 노이즈에서 이미지로 복원하는 경로도 학습할 수 있다.
암실에서 필름 현상할 때 빛이 한 번만 새어들어도 필릅이 타버린다. AI는 반대로, 이미 타버린 필름에서 사진을 꺼내는 법을 배웠다.
한 가지 더. 이 모델은 매 스텝마다 “지금 이 노이즈에서 원래 이미지를 복원하려면 어떤 방향으로 노이즈를 제거해야 하는가”를 예측하도록 훈련된다. 수천만 장의 이미지를 망가뜨리고 복원하는 과정을 반복하면서, 모델은 이미지의 구조가 어떻게 생겼는지를 체득한다. 하늘은 위에 있고, 사람 얼굴에는 눈 코 입이 있고, 건물의 선은 수직·수평으로 흐른다는 것들을.
거꾸로 걷는다
생성할 때는 반대로 작동한다. 완전한 노이즈에서 시작해, 한 스텝씩 노이즈를 지운다.
Stable Diffusion처럼 생성 과정이 화면에 보이는 도구라면 직접 확인할 수 있다. 지직거리다 점점 선명해지는 것들. 그게 이 스텝들이다.
안개가 걷히면서 산이 나타나는 장면을 떠올려봐. 산이 새로 생기는 게 아니다. 원래 있던 게 드러난다. AI가 이미지를 만들 때도 비슷하다. 빈 곳에서 그리지 않는다. 노이즈 속에서 꺼낸다.
Stable Diffusion·ComfyUI 계열에서는 생성 스텝 수를 직접 조절한다. 커뮤니티 통용 기준으로 초안은 20~30스텝, 최종 품질은 40~50스텝을 쓰는 경우가 많다. Midjourney는 내부적으로 처리하므로 사용자가 직접 조정하지 않는다. 그렇다고 스텝이 많을수록 무조건 좋은 건 아니다. 구조가 확정된 이후 스텝들은 미미한 디테일 차이만 만들고, 생성 시간만 늘어난다.
AI는 픽셀이 아니라 개념 덩어리를 다룬다
여기서 많은 사람이 오해하는 부분이 있다. AI가 픽셀 하나하나를 건드려서 이미지를 만든다는 생각이다.
실제로는 다르다. 현대 Diffusion 모델 대부분은 픽셀 공간이 아니라 잠재 공간(latent space)에서 작동한다. 잠재 공간이란, 이미지를 픽셀 단위가 아니라 압축된 개념 단위로 표현한 공간이다.
비유하자면 이렇다. 512×512 이미지는 픽셀이 26만 개(512×512=262,144)다. 잠재 공간에서는 그 이미지를 64×64짜리 숫자 묶음으로 압축한다. 픽셀 수로는 64분의 1이지만, 이 압축된 표현 안에 이미지의 핵심 정보가 다 담겨 있다. “하늘이 있고, 건물이 있고, 빛이 오른쪽에서 온다”는 식의 구조적 정보가 숫자로 인코딩된 상태다.
노이즈 제거는 이 잠재 공간에서 일어난다. 픽셀 단위로 지직거리는 게 아니라, 개념 단위로 서서히 선명해지는 것이다. 그래서 생성 과정을 화면에서 보면 전체 구도가 먼저 잡히고 디테일이 나중에 채워지는 것처럼 보인다. 픽셀을 하나씩 채우는 게 아니라, 압축된 공간에서 전체 구조가 먼저 확정되고 나서 원래 해상도로 펼쳐지는 순서이기 때문이다.
이 구조가 만드는 실용적인 차이가 있다. Step을 늘려도 어느 시점 이후로는 품질 차이가 거의 없는 이유가 여기에 있다. 잠재 공간에서 이미지의 기본 구조가 확정되고 나면, 이후 스텝들은 디테일을 다듬는 일만 한다. 구조 자체는 초반 스텝에서 이미 정해진다.
텍스트가 어떻게 이미지 방향이 되는가
프롬프트에 “도시의 야경”이라고 쓴다. AI는 그 텍스트를 어떻게 이미지로 연결하는가.
여기서 CLIP이라는 구조가 등장한다. CLIP(Contrastive Language-Image Pre-training)은 2021년 OpenAI가 발표한 모델로, 텍스트와 이미지를 같은 수학적 공간에 올려놓는 방식을 학습했다.
보통 번역기를 생각하면 영어 문장을 한국어 문장으로 바꾸는 것처럼, 텍스트를 이미지로 변환한다고 상상한다. CLIP은 그렇게 작동하지 않는다. 텍스트와 이미지를 각각 숫자 벡터로 변환한 뒤, 같은 의미를 가진 텍스트와 이미지가 그 공간에서 가까운 위치에 놓이도록 훈련됐다.
“도시의 야경”이라는 텍스트와 실제 도시 야경 사진들이 같은 공간의 비슷한 좌표에 배치된다. “밝은 대낮”이라는 텍스트는 전혀 다른 좌표에 있다. AI는 이 좌표 정보를 노이즈 제거 방향을 잡는 데 쓴다.
실용적으로 무슨 의미인가. 당신이 프롬프트를 쓸 때 단어 하나를 바꾸면, 그 텍스트가 공간에서 가리키는 좌표가 바뀐다. “도시의 야경”과 “도시의 야경, 비 오는 날”은 같은 방향을 향하지만 좌표가 조금 다르다. AI는 그 차이만큼 노이즈를 다른 방향으로 걷어낸다. 프롬프트가 구체적일수록 좌표가 좁혀지고, 결과물이 그쪽으로 수렴한다.
반대로, AI가 텍스트를 오해하는 경우도 여기서 나온다. “차갑고 외로운 도시”처럼 추상적인 형용사들은 CLIP이 학습한 공간에서 명확한 좌표를 가지지 않는다. 수백만 장의 사진에 “외로운”이라고 태그된 게 얼마나 되겠는가. 애매한 좌표를 향해 노이즈를 걷어내면 결과물도 애매해진다.
프롬프트는 나침반이다
프롬프트는 이미지를 명령하지 않는다.
노이즈를 지울 방향을 조종한다.
AI는 상상하지 않는다. 학습 데이터 수백만 장의 평균을 낸다.
“도시의 야경”으로 태그된 사진 수백만 장을 떠올려보자. 그 사진 대부분은 야간, 불빛, 어두운 하늘, 높은 건물이라는 패턴을 공유한다. 이 패턴들이 겹치는 지점이 확률 분포의 중심이다. AI는 그 중심 쪽으로 노이즈를 걷어낸다.
매 스텝마다 AI는 하나의 질문을 한다. “이 노이즈 패턴이 ‘도시의 야경’이라는 분포의 중심 쪽으로 수렴하려면, 어떤 픽셀을 어떻게 바꿔야 하는가.” 스텝마다 조금씩 그쪽으로 당긴다. 결과물이 스톡 사진처럼 보이는 건 그 때문이다. AI는 가장 전형적인 “도시의 야경”을 만든다. 당신이 머릿속에 그린 특정한 장면이 아니라.
이게 디자이너한테 중요한 이유가 있다. AI 결과물이 특정 미감으로 쏠리는 건 모델의 버그가 아니다. 학습 데이터가 어떻게 생겼는가의 반영이다. Getty Images나 Shutterstock 류의 상업 사진이 훈련 데이터의 큰 비중을 차지했다면, AI는 그 미감을 전형으로 학습한다. 결과물이 스톡 사진처럼 보이는 건 그냥 자연스러운 귀결이다.
Seed는 출발점이고, 경로가 비슷하면 결과도 비슷하다
같은 프롬프트인데 결과가 매번 다른 이유가 여기에 있다. 어떤 노이즈에서 출발하느냐의 차이다. 이걸 Seed라고 부른다.
Seed를 고정한다는 건 단순히 같은 노이즈에서 시작한다는 의미가 아니다. AI가 그 노이즈를 제거하면서 걷는 경로가 고정된다. 경로가 같으면 목적지가 약간 달라져도 지나는 풍경은 비슷하다. 그래서 Seed를 고정하고 프롬프트를 조금 바꾸면, 구도와 분위기는 유지되면서 내용만 달라진다.
등산가서 정상에서 사진 찍을 때를 생각해보면, 같은 산에서 같은 위치에 서면 렌즈를 바꿔도 구도의 기본 틀이 유지된다. Seed는 그 위치다. 프롬프트는 어떤 렌즈를 쓸지에 가깝다.
마음에 드는 결과가 나왔다면 Seed 값을 메모해둬라. 그 경로에서 프롬프트를 다듬는 게 매번 새 노이즈에서 출발하는 것보다 훨씬 빠르다.
이걸 알면 설정이 달라진다
원리를 알고 나면 각 설정이 랜덤이 아니라 선택이 된다.
| 원리 | 무엇을 하는가 | Stable Diffusion | Midjourney | Adobe Firefly |
|---|---|---|---|---|
| 시작 노이즈 고정 | 같은 경로 재사용 | Seed 직접 입력 | --seed 번호 직접 입력 | 미지원 |
| 프롬프트 충실도 | 분포 중심으로 얼마나 강하게 당기는가 | CFG Scale 7~12 | --stylize 낮을수록 프롬프트에 충실, 높을수록 MJ 고유 감성 강해짐 | Guidance 슬라이더 |
| 결과 다양성 | 얼마나 예측 밖으로 나가는가 | Seed 교체 | --chaos 0~100, 높을수록 4장 간 차이 커짐 | 미지원 |
| 생성 정밀도 | 노이즈 제거 횟수 | Steps 20~50 | 내부 처리 | 내부 처리 |
CFG Scale에 대해 한 가지 더. 이 수치를 너무 높이면 결과물이 과포화되거나 부자연스러워진다. 왜냐하면 AI가 “이 프롬프트의 방향으로 강하게 당기라”는 신호를 과도하게 받아서, 그 방향의 특징을 지나치게 강조하기 때문이다. 색이 너무 진하거나, 윤곽이 너무 딱딱하거나, 구도가 어색하게 극단적으로 잡힌다.
한때 AI 이미지의 상징적 약점으로 꼽혔던 손가락 문제도 같은 원리에서 나왔다. 학습 데이터 안에서 손이 다양한 방향과 각도로 촬영되어 평균적인 손이 해부학적으로 불명확했다. “손”이라는 CLIP 좌표가 가리키는 확률 분포의 중심 자체가 어색했다. 2023년 Midjourney V5부터 크게 개선됐고, 2025년 기준 V7에서는 일반적인 포즈의 성공률이 85~90% 수준이다. 복잡한 손 동작이나 특이한 각도에서는 여전히 오류가 생긴다. 데이터가 더 정교해지고 모델이 커질수록 분포의 중심이 선명해지는 것이다.
마무리
원리를 모르면 프롬프트는 마법주문이다.
알고 나면 설계가 된다.
AI는 당신의 머릿속 이미지를 읽지 못한다. 학습 데이터가 만들어놓은 확률 지형을 탐색할 뿐이다. 그 탐색이 잠재 공간에서 일어나고, CLIP이 방향을 잡아주고, Seed가 경로를 고정하고, CFG가 조향력을 조절한다.
각각이 따로 노는 설정이 아니다. 하나의 원리에서 나온 다른 손잡이들이다.
그 지형을 알면, 어디로 밀어야 원하는 곳에 닿는지 보인다.
FAQ
Diffusion 모델은 이미지에 노이즈를 단계적으로 더하는 과정(Forward Diffusion)과 그 반대로 노이즈를 제거하며 이미지를 생성하는 과정(Reverse Diffusion)을 학습한 딥러닝 모델이다. 2020년 UC버클리 연구팀이 발표한 DDPM 논문(Ho et al., NeurIPS 2020)이 현재 AI 이미지 생성 도구들의 토대가 됐다.
잠재 공간(latent space)은 이미지를 픽셀 단위가 아니라 압축된 개념 단위로 표현한 수학적 공간이다. 512×512 픽셀 이미지를 64×64짜리 숫자 묶음으로 압축해서 다룬다. 노이즈 제거가 이 공간에서 일어나기 때문에, 생성 과정에서 전체 구도와 맥락이 먼저 잡히고 세부 디테일이 나중에 채워진다. Steps를 일정 수 이상 늘려도 품질 차이가 미미한 이유도 초반 스텝에서 구조가 이미 확정되기 때문이다.
CLIP(Contrastive Language-Image Pre-training)은 텍스트와 이미지를 같은 수학적 공간에 배치하도록 학습한 모델이다. “도시의 야경”이라는 텍스트와 실제 도시 야경 사진이 그 공간에서 비슷한 위치에 놓인다. AI 이미지 생성 도구들은 프롬프트를 이 공간의 좌표로 변환해 노이즈 제거 방향을 잡는다. 추상적인 형용사로 된 프롬프트가 잘 안 먹히는 이유는, 그런 단어들이 학습 데이터 안에서 명확한 시각적 패턴과 연결되지 않기 때문이다.
Seed는 생성 시작점의 노이즈 패턴을 정한다. 같은 노이즈에서 출발하면 AI가 그 노이즈를 제거하면서 걷는 경로도 비슷해진다. 프롬프트를 조금 바꿔도 같은 경로를 따르기 때문에 구도와 분위기가 유지된다. 방향 탐색이 끝났다면 Seed를 고정하고 프롬프트를 다듬는 게 효율적이다.
--stylize 값을 낮추면 된다. 기본값은 100이고, 0에 가까울수록 프롬프트를 더 그대로 따른다. 값을 높이면 Midjourney가 학습한 분포의 중심, 즉 Midjourney 고유의 미감이 강하게 개입한다. Stable Diffusion의 CFG Scale과 같은 역할이지만 설정 값은 반대로 동작한다.
프롬프트는 AI가 노이즈를 지울 방향을 조종하는 것이지, 이미지를 직접 명령하는 것이 아니다. AI는 프롬프트에 해당하는 학습 데이터의 확률 분포에서 가장 전형적인 픽셀을 선택한다. 당신이 머릿속에 그린 구체적인 장면과 학습 데이터 속 평균 이미지 사이에는 항상 간격이 있다. 그 간격을 좁히려면 추상적인 형용사보다 시각적으로 명확한 묘사가 효과적이다.
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

