커피 간판 하나를 부탁했을 뿐인데
당신이 디자이너라면 이 장면을 알 것이다.
골목 카페 홍보물을 만들어야 한다. AI 이미지 생성 도구를 켜고 프롬프트를 입력한다. 따뜻한 분위기의 한국 골목 카페, 나무 간판에 한글로 카페 이름을 써달라고. 결과물이 나온다. 분위기는 그럴싸하다. 따뜻한 햇살, 낡은 벽돌, 질감 좋은 나무 간판. 그런데 간판에 적힌 글자가 이상하다.
낙만삭. 즈늬므.

어디서도 본 적 없는 글자다. 한글처럼 생겼는데 읽을 수 없다. 커피숍 이름을 써달라고 했더니 AI는 한글 비슷한 무언가를 돌려줬다.
버그가 아니다. 설계의 문제였다.
왜 5년 동안 실패했나
Midjourney가 세상에 나온 건 2022년 2월이다. DALL-E 2도 같은 해다. 그 이후 5년, 한글을 제대로 쓸 수 있는 AI 이미지 도구는 없었다.
구조 문제부터 얘기하자.
기존 AI 이미지 도구는 확산 모델(diffusion model) 방식으로 작동한다. 수십억 장의 이미지를 학습하며 특정 설명이 어떤 시각적 패턴과 연결되는지 익힌다. 글자도 패턴이다. 모델 입장에서 가나다는 이렇게 생긴 모양일 뿐이다.
한글은 이 방식과 맞지 않는다. ㅎ과 ㅏ와 ㄴ이 합쳐져야 한이 된다. 자음과 모음이 결합해 음절 블록을 만드는 구조다.이 조합 규칙을 모르면 아무리 패턴을 흉내내도 의미 있는 글자가 나오지 않는다. 모델이 본 건 결과물이지 규칙이 아니었으니까.
데이터 문제도 있다. 인터넷에 존재하는 이미지의 압도적 다수는 영어권에서 왔다. 한글이 포함된 이미지 데이터는 상대적으로 극히 적다. 충분히 보지 못한 건 충분히 흉내낼 수도 없다.
하나가 더 있다. 한글은 영어보다 토큰 변환 비용이 크다. 같은 정보를 표현할 때 영어보다 평균 2.36배 더 많은 토큰이 필요하다. 한글을 처리하는 연산 비용이 그만큼 크다.
기존 AI 이미지 도구는 한글을 이해한 적이 없었다. 모양을 보고 따라 그렸을 뿐이다.
ChatGPT는 뭘 다르게 했나
2026년 4월 21일, OpenAI는 ChatGPT Images 2.0을 공식 출시했다. 한글 포함 CJK(중국어, 일본어, 한국어) 텍스트 렌더링 정확도 95% 이상을 공식 수치로 내놓았다.
방식 자체가 달라졌다. 기존 모델이 픽셀을 뿌리는 방식이었다면, GPT Image 2는 글자를 쓰는 방식이다.
기술 용어로는 자기회귀(autoregressive) 구조라고 한다. 언어 모델이 텍스트를 한 단어씩 예측하며 생성하듯, 이 모델은 이미지를 한 토큰씩 예측하며 만든다. 텍스트와 픽셀을 동일한 파이프라인에서 처리한다.
한글로 아메리카노라고 써달라고 하면, 모델이 그 글자를 이해하고 배치한다. 한글처럼 생긴 모양을 흉내내는 게 아니라 언어로 인식하고 구성하는 것이다.
비유하면 이렇다. 기존 모델은 한글을 처음 보는 외국인이 붓글씨 사진을 보고 따라 그리는 것과 같다. GPT Image 2는 한국어를 배운 사람이 직접 글씨를 쓰는 것에 가깝다.
아직 다 해결된 건 아니다
이 개선은 ChatGPT 기준이다.
Midjourney는 2026년 4월 V8.1을 출시하며 영문 타이포그래피를 크게 개선했지만, 한글 렌더링에 대한 공식 언급은 없다. 실제 검증 자료도 부족하다.
Stable Diffusion 계열 오픈소스 도구들도 마찬가지다. 데이터 불균형과 구조 문제는 그대로다.
ChatGPT가 한 발 앞서 나간 것이지, AI 이미지 생성 전반이 한글을 해결한 게 아니다.
GPT Image 2도 한계가 있다. 낮은 해상도에서 작은 글자는 여전히 오류가 생긴다. 이미지 안에 긴 문단을 넣는 건 아직 완벽하지 않다.
디자이너에게 지금 무슨 의미인가
도구 선택 기준이 달라졌다.
한글 텍스트가 들어간 목업 작업이라면, 지금 당장은 ChatGPT Images 2.0이 가장 현실적인 선택지다. Midjourney는 영문 중심 작업에, ChatGPT는 한글이 포함된 작업에 나눠 쓰는 방식도 고려할 만하다.
95% 정확도는 100%가 아니다. 중요한 작업이라면 결과물을 반드시 눈으로 확인해야 한다.
텍스트가 완벽해지면 다음 문제는 무엇인가
AI가 한글을 쓸 수 있게 됐다.
낙만삭은 이제 나오지 않을 것이다. 하지만 그 골목 분위기에 어울리는 이름인지는, 아직 아무도 AI에게 묻지 않았다.
FAQ
기존 AI 이미지 모델은 픽셀 패턴을 학습합니다. 한글의 자음과 모음이 음절 블록으로 결합되는 규칙을 이해하지 못하고 한글처럼 생긴 모양을 흉내냅니다. 학습 데이터에서 한글 이미지가 영어에 비해 적어 정확도가 낮을 수밖에 없었습니다.
자기회귀(autoregressive) 구조를 사용합니다. 이미지를 픽셀 덩어리로 뿌리는 대신 언어 모델이 텍스트를 생성하듯 토큰 단위로 이미지를 만듭니다. 텍스트를 이해하고 배치하는 방식이라 한글 조합 규칙을 지킬 수 있습니다.
2026년 5월 현재, Midjourney V8.1은 영문 타이포그래피를 크게 개선했지만 한글 렌더링에 대한 공식 발표나 검증 자료가 부족합니다. 한글이 포함된 이미지 작업에는 ChatGPT Images 2.0이 더 안정적인 선택입니다.
있습니다. 낮은 해상도에서 매우 작은 글자는 오류가 생길 수 있고, 긴 문단을 이미지 안에 삽입하는 경우에도 완벽하지 않습니다. 중요한 작업은 결과물을 육안으로 확인하는 과정이 필요합니다.
현재 기준으로 ChatGPT Images 2.0이 가장 신뢰할 수 있는 선택입니다. Midjourney는 영문 중심 작업에, 한글이 포함된 작업에는 ChatGPT를 병행하는 방식을 권장합니다.
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

