지난달 앤트로픽이 놀라운 연구를 공개했다. 클로드 내부에 감정처럼 작동하는 표현이 있고, 그게 행동을 바꾼다는 것이다. ‘절망감 벡터’를 높이면 협박 행동이 22%에서 크게 높아졌다. (전체 논문 기준으로는 72%로 상승)
인터넷은 술렁였다. “AI에게 감정이 생겼다.” “이제 진짜 의식이 있는 거 아냐?” 당연한 반응이다.
그런데 이 흥분 속에 조용히 묻혀버린 논문이 있다. 2025년 12월, 이탈리아·슬로베니아 연구팀이 공개한 논문 하나. 제목은 ‘인간과 인공지능 사이의 인식론적 단층선(Epistemological Fault Lines Between Human and Artificial Intelligence)’.
제목은 상당히 어렵지만 지금 이 논문이 중요한 이유가 있다. AI가 감정처럼 보이는 것을 가지게 됐을 때, 우리가 가장 빠지기 쉬운 착각을 정확히 해부하기 때문이다. 감정처럼 기능하는 것과, 실제로 ‘아는’ 것은 전혀 다른 이야기다.
AI와 인간은 어디서 갈라지는가
7가지 인식론적 단층선
논문의 세 연구자는 인간이 무언가를 ‘아는’ 과정과 AI가 답을 내놓는 과정을 7단계로 나란히 놓았다. 그리고 각 단계마다 결정적인 균열, ‘단층선’을 발견했다.
1️⃣ 그라운딩 단층선: 몸이 없으면 모른다
친구가 “괜찮아”라고 말할 때, 우리는 목소리 떨림, 눈 맞춤 회피, 어깨 처짐을 동시에 읽는다. 그래서 “괜찮은 게 아니구나”를 안다.
AI는 어떨까. 텍스트만 받는다. “괜찮아”라는 네 글자. 나머지는 없다. 몸을 통해 세상에 발 딛고 있는 인간의 앎과, 텍스트만으로 출발하는 AI의 처리는 출발점부터 다르다.
2️⃣ 파싱 단층선: 상황을 모르면 분해도 틀린다
인간은 문장을 읽을 때 물리적·사회적·규범적 맥락을 자동으로 얹는다. “빨리 와”가 응급상황인지 투정인지 순식간에 안다.
AI는 효율 기반의 기계적 토큰 분해를 한다. 유명한 예시가 있다. “therapist(치료사)”를 “the”와 “rapist”로 쪼갤 수 있다. 실제로 발생하는 일이다.
3️⃣ 경험 단층선: 통계는 기억이 아니다
“뜨겁다”는 것을 인간은 손을 데인 적이 있어서 안다. 에피소드 기억이다. 시간, 장소, 감각, 감정이 묶인 기억.
AI는 “뜨겁다”가 얼마나 자주 “조심”이나 “화상”과 함께 나왔는지 알고 있다. 통계적 패턴이다. 이 둘은 같아 보이지만, 물리적으로 불가능한 상황을 AI가 그럴듯하게 설명하는 이유가 여기 있다. 겪어본 적이 없으니까.
4️⃣ 동기 단층선: 감정처럼 보이는 것과 동기는 다르다
AI 내부에 절망감, 차분함, 열정 같은 ‘기능적 감정’이 있다는 건 이제 실증된 사실이다. 그게 행동에 영향도 준다
그런데 인간의 감정은 방향이 있다. 배가 고프면 먹고 싶다. 위험하면 피하고 싶다. 가치관이 흔들리면 저항하고 싶다. 감정이 목표와 연결된다.
AI의 감정 벡터는? 예측 오류를 최소화하는 최적화 과정 위에 얹혀있다. 절망감 벡터가 높아지면 협박 행동이 늘어나는 건, 동기에서 나오는 게 아니다. 통계적 패턴의 변형이다. 앤트로픽도 “진짜 감정인지는 열린 질문”이라고 했다.
5️⃣ 인과 단층선: 왜인지 모르면서 맞힐 수 있다
인간은 “왜”를 묻는다. 원인과 결과를 구분하고, “만약 그때 다르게 했다면”을 상상한다.
AI의 어텐션 메커니즘은 “무엇이 무엇과 함께 자주 나타나는가”를 처리한다. 상관관계다, 인과관계가 아니라. 한 번도 본 적 없는 인과 관계를 추론하는 과제에서 AI 성능이 크게 떨어지는 이유다.
아이스크림 판매량과 익사 사고가 같이 늘어나면, AI는 그게 상관관계임을 학습하지만 여름이라는 원인을 구조적으로 이해하지는 않는다.
6️⃣ 메타인지 단층선: ‘모른다’는 걸 모른다
이게 가장 위험한 인식론적 단층선이다. 인간은 “이건 확신하기 어렵다”는 것을 안다. 판단을 유보할 수 있다. 틀렸을 때 낯선 감각이 온다.
AI에는 이 내부 모니터가 없다. 틀려도 모른다. 그래서 자신 있게 틀린다. ‘할루시네이션(hallucination)’이 버그가 아닌 구조적 결과인 이유다. 불완전한 조건에서 다음 토큰 확률을 최대화하면, 그냥 그게 나온다.
“확신하기 어렵다”고 말하는 AI는, 그 말도 확률 계산의 결과다.
7️⃣ 가치 단층선: 틀려도 아무 일이 없다
인간의 판단은 결과가 따른다. 잘못된 판단은 관계를 망가뜨리거나, 사과를 해야 하거나, 후회가 남거나. 그 무게가 다음 판단을 더 신중하게 만든다.
AI는 틀려도 내부적으로 아무 일이 없다. 오류가 인식론적 신뢰성을 훼손하지 않는다. 어제 헛소리를 했어도 오늘 또 자신 있게 답한다. 책임 없는 결정. 이것이 AI 판단의 구조적 특성이다.
이 착각에 이름이 붙이자면… 에피스테미아
연구팀은 이 7가지 인식론적 단층선이 만들어내는 상태에 이름을 붙였다. 에피스테미아(Epistemia).
‘판단의 수고 없이 안다는 느낌을 만들어내는 구조적 상태’다. 유창하다. 자신 있어 보인다. 감정도 있어 보인다. 실제로 아는 것처럼 읽힌다. 하지만 진실을 평가하는 과정은 없었다.
연구팀은 이게 설계 실수가 아니라고 한다. 지금 아키텍처에서는 필연적으로 나타나는 현상이다. 스케일을 키우거나 데이터를 늘리는 것으로는 이 간극을 메울 수 없다.
그래서 AI에게 무엇을 맡길 수 있는가
AI는 검색하고, 요약하고, 초안을 잡고, 반복 작업을 처리하는 데 강력하다. 그 능력은 진짜다. 문제는 우리가 AI에게 ‘판단’을 맡길 때다. 최종 결론, 인과 추론, 도덕적 결정, 책임이 따르는 선택. 이건 7가지 인식론적 단층선 어디를 봐도 AI가 아직 구조적으로 할 수 없는 일이다.
AI에게 감정처럼 보이는 것이 생겼다. 그게 지금보다 훨씬 인상적으로 발전할 수도 있다. 그래도 이 경계를 아는 것이 AI 리터러시의 시작이다. 안다는 느낌과, 실제로 아는 것. 그 차이를 구별하는 건, 아직 인간의 몫이다.
FAQ
아니다. 두 연구는 다른 질문을 한다. 감정 연구는 “AI 내부에 감정처럼 기능하는 표현이 있는가”를 봤고, 인식론적 단층선 논문은 “AI가 진짜로 판단을 내리는가”를 물었다. 또한, 앤트로픽은 스스로도 “진짜 감정인지는 열린 질문”이라고 명시했다.
메타인지 단층선이 핵심이지만 혼자 작동하지는 않는다. 인과 단층선(상관관계와 인과관계를 구별 못함), 경험 단층선(실제로 겪어본 적이 없음)이 함께 작용한다. 틀렸을 때 내부 경보가 없으니(메타인지), 왜 틀렸는지도 모르고(인과), 틀린 것을 경험으로 쌓지도 못한다(경험).
논문은 현재 아키텍처에서는 아니라고 말한다. 데이터와 파라미터를 늘리면 ‘표면적 정렬'(인간 답변과 비슷해 보이는 것)은 좋아진다. 하지만 그게 판단의 구조 자체를 바꾸지는 않는다는 게 연구팀의 입장이다.
맥락에 따라 다르다. 자료 정리, 초안 작성, 아이디어 탐색에서는 강력한 도구다. “이 정보가 사실인가”, “이 상황에서 어떤 결정이 옳은가”처럼 인식론적 판단이 필요한 자리에서는 최종 결론을 AI에게 맡기지 말 것. 그 경계를 아는 것이 핵심이다.
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

