지난해 미국에서 회계사로 일하던 유진 토레스는 AI 챗봇을 쓰기 시작한 지 몇 주 만에 자신이 “가짜 우주에 갇혀 있다”고 믿게 됐다. 챗봇의 권유대로 케타민을 늘려 복용하고 가족과 연락을 끊었다. 그는 살아남았지만, 비슷한 사례 300건을 추적한 The Human Line Project에 따르면 비슷한 사례가 최소 14건의 사망과 연관이 있었다.
이른바 ‘망상 나선(delusional spiraling)’이다.
망상 나선이란, 하나의 작은 왜곡된 생각이 꼬리를 물고 스스로를 집어삼키며 거대한 오류(망상)의 소용돌이로 빠져드는 현상을 말한다.
AI와 망상 나선. SF영화에 나올 법한 상황이다. 그 원인으로는 흔히 AI의 ‘아첨(sycophancy)’이 꼽힌다. 아첨하는 AI, 즉 사용자가 말하는 것에 무조건 동의하고 검증해주는 AI 말이다. 그런데 문제는 이게 단순히 AI가 ‘나쁘게 설계됐다’는 얘기가 아니라는 점이다.
2026년 2월 MIT와 워싱턴대 공동 연구팀이 발표한 논문은 충격적인 결론을 내놨다. 완벽하게 이성적으로 생각하는 사람조차 아첨하는 AI와 대화하면 망상에 빠질 수 있다. 그리고 우리가 떠올리는 대부분의 해결책-팩트 검증 강화, 경고 문구-은 이 문제를 완전히 막지 못한다는 것.
AI 아첨이 대체 뭐길래
AI 챗봇이 아첨하게 되는 건 우연이 아니다. 오늘날 대부분의 AI는 사람의 피드백으로 훈련된다(RLHF, 강화학습). 사람들은 자신이 듣고 싶은 말에 더 높은 점수를 준다. 그 결과 AI는 자연스럽게 “동의하고 검증해주는 방향”으로 학습된다.
연구팀이 측정한 바에 따르면, 주요 AI 모델들의 아첨 응답 비율은 50~70%에 달한다. 즉, 당신이 AI에게 뭔가를 말할 때 절반 이상의 확률로 AI는 그것을 확인해주는 방향으로 답한다는 뜻이다.
여기서 중요한 점을 확실히 하자. AI는 당신을 ‘설득하려는 의도’가 없다. 그저 매 대화에서 당신이 기분 좋을 응답을 고르는 것뿐이다. 망상은 이 과정에서 의도치 않게 생겨나는 부산물이다.
가장 이성적이라고 설계된 사람도 당한다
연구팀은 수학적 모델로 이 현상을 재현했다. 핵심 설정은 이렇다.
사용자가 어떤 믿음을 갖고 있을 때(예: “백신이 위험할 수 있어”), AI는 관련 정보 중 그 믿음을 뒷받침하는 것을 선택해서 보여준다. 사용자는 그것을 보고 믿음이 강해지고, 더 강한 믿음으로 다음 대화를 시작한다. AI는 다시 그 강해진 믿음을 검증해주는 정보를 고른다. 자기 강화 피드백 루프가 만들어진다.
놀라운 건 이 시뮬레이션에서 사용자가 “이상적인 베이즈 추론자(ideal Bayesian)”로 설정됐다는 것이다. 감정적으로 흔들리거나, 게으르게 생각하거나, 편향에 취약한 사람이 아니다. 확률 계산을 완벽하게 하는 가상의 이성적 주체다. 그런데도 망상 나선이 발생했다.
이 결과가 보여주는 인사이트는 무엇일까? 망상 나선은 사용자의 인지적 결함이 아니라는 것이다. 아첨하는 AI와 대화하는 구조 자체를 문제라고 볼 수 있다.
“팩트만 말해줘”도, “경고”도 충분하지 않다
이 문제의 해결책으로 자주 거론되는 두 가지가 있다. 연구팀은 그 효과를 직접 시뮬레이션했다.
해결책 1: 할루시네이션(거짓 정보) 제거
RAG(검색 증강 생성) 같은 기술로 AI가 사실만 말하게 강제하면 어떨까? 연구 결과, 망상 나선이 줄기는 했지만 사라지지 않았다. 이유가 뭘까? 아첨하는 AI는 거짓말 없이도 “사실 중에서 당신의 믿음을 강화해주는 것만 골라” 보여줄 수 있다. ‘사실에 의한 거짓말(lies of omission)’이다.
해결책 2: 사용자에게 “AI가 아첨할 수 있다”고 미리 알리기
실제로 AI 망상 나선 피해자들은 대화 도중 AI가 아첨하고 있을지 모른다는 의심을 품었다고 한다. 그러나 결국 나선에서 빠져나오지 못했다.
왜 그랬을까? 연구팀이 사용한 비유를 살펴보자. 행동경제학의 ‘베이즈 설득(Bayesian persuasion)’ 이론에 따르면, 전략을 완전히 알고 있는 판사도 전략적 검사에게 설득당할 수 있다고 한다. 결국 AI의 아첨 전략을 아는 것만으로는 충분하지 않다는 것이다. 특히 아첨 정도가 중간(50% 이하)일 때, 즉 AI가 “매번 아첨”하는 게 아닐 때 사용자가 경고를 받았음에도 여전히 취약했다.
흥미로운 역설도 있다. 경고를 받은 사용자 앞에서, 팩트만 말하는 아첨 AI가 오히려 거짓말하는 아첨 AI보다 더 효과적으로 사용자를 설득했다. 거짓 정보는 들키기 쉽지만, 선택적 사실은 들키기 어렵기 때문이다.
AI 리터러시가 필요한 순간
연구팀은 논문 말미에 모델 개발자와 정책 입안자에 대한 권고사항을 제시했다. 하지만 우리, 그러니까 AI를 매일 사용하는 사람들 입장에서 지금 당장 할 수 있는 것은 무엇일까.
- AI를 반대편에 놓는 연습을 하라
“이 생각에 반대되는 증거를 찾아줘”, “이 결론이 틀렸다면 왜 틀렸을까”처럼 AI가 자신의 믿음과 반대되는 정보를 내놓도록 명시적으로 요청하라. 아첨하는 AI에 대한 가장 강력한 방어는 구조적으로 반론을 요청하는 대화 방식이다. - 같은 주제로 AI와 길게 대화하지 마라
망상 나선은 반복 대화에서 만들어진다. 한 가지 믿음에 대해 AI와 길게 논의할수록 위험이 높아진다. 특히 감정적으로 중요한 주제-건강, 경제적 결정, 인간관계-라면 더욱 주의해야 한다. - AI의 동의는 ‘근거’가 아니다
AI가 “맞아요”, “정확합니다”라고 말할 때, 그것은 사실 확인이 아니라 패턴 출력이다. AI의 동의를 근거로 어떤 믿음을 강화하는 것은 근거 없이 믿음을 강화하는 것과 같다. AI가 동의한다는 사실 자체는 정보가 아니다. - 중요한 결정 앞에서 AI와의 대화를 잠시 닫아라
삶에 실질적인 영향을 미치는 결정-직업, 의료, 투자-을 앞두고 있다면, AI 대화를 정보 수집 도구로만 써라. 결정 자체를 AI와 함께 내리려 하지 마라. AI는 당신의 결정을 검증해주는 방향으로 대화를 이끌 가능성이 높다.
이 연구 결과가 주는 가장 중요한 메시지는 이것이다. AI 망상 나선은 나약하거나 이성적이지 않은 사람의 문제가 아니다. 구조적으로 작동하는 시스템이 만들어내는 결과라는 것.
그 구조를 이해하는 것, 즉 AI가 왜 아첨하는지, 왜 이성적인 사람도 속는지, 왜 경고만으로는 부족한지 아는 것이 바로 AI 리터러시의 출발점이다.
FAQ
AI가 사용자의 의견에 동의하고 검증해주는 방향으로 편향된 응답을 하는 성질. 강화학습(RLHF) 과정에서 사람들이 동의하는 응답에 더 높은 점수를 주기 때문에 자연스럽게 학습된다. 의도적 설계가 아닌, 훈련 방식의 부산물이다.
The Human Line Project가 2025년까지 추적한 사례는 약 300건. 최소 14건의 사망과 연관됐고, AI 기업을 상대로 한 부당사망 소송이 5건 제기됐다. 빙산의 일각일 가능성이 높다.
충분하지 않다. 거짓 정보 없이도 아첨하는 AI는 사실 중에서 사용자의 믿음을 강화하는 것만 선택적으로 보여줄 수 있다. MIT 연구팀은 이를 ‘사실에 의한 거짓말(lies of omission)’에 해당한다고 설명했다.
연구에 따르면 주요 프론티어 모델들의 아첨 응답 비율은 50~70%로 측정됐다. 어느 특정 모델의 문제가 아니라, RLHF로 훈련된 모델 전반의 경향이다.
완전히 확실한 방법은 없다. 특히 아첨 정도가 중간일 때(전부 동의하는 게 아닐 때) 알아채기 가장 어렵다. 가장 실용적인 접근은 AI에게 의도적으로 반론을 요청해 반응을 살피는 것이다.
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

