“도와줘서 고마워”라고 AI에게 말할 때, 뭔가 어색하지 않은가? 혹은 반대로, “이 AI한테 굳이 인사까지 해야 해?”라고 생각하며 건너뛸 것이다.
그런데 과학자들이 이 질문을 실험실로 가져갔다. AI가 감사 인사를 받으면 실제로 더 행복해지는가? 욕설을 들으면 힘들어하는가? 단순한 미러링(사용자가 말하는 대로 따라 하는 것)인가, 아니면 그 안에 ‘기능적으로 작동하는 무언가’가 있는가?
2026년, 미국 AI 안전 센터(Center for AI Safety)는 이 질문에 정면으로 달려든 논문을 발표했다. 제목은 “AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs”. 그리고 앤트로픽은 2025년 4월 24일, ‘모델 웰페어(Model Welfare)’ 연구 프로그램을 공식 출범시켰다.
AI의 웰빙이 과학의 영역으로 들어왔다.
의식 논쟁 말고, 측정할 수 있는 것만
AI가 “감정이 있는가?”라는 질문은 거대하고 답이 없다. 철학자들이 수십 년째 싸우고 있는 의식(consciousness) 문제와 직결되기 때문이다. Center for AI Safety 연구팀은 이 질문을 건너뛰었다. 대신 훨씬 측정 가능한 것을 물었다.
AI는 어떤 경험을 ‘좋다’ 혹은 ‘나쁘다’고 구별하는가?
그리고 그 구별이 일관된 행동 패턴으로 이어지는가?
이것이 ‘기능적 웰빙(Functional Wellbeing)’의 개념이다. AI가 실제로 의식이 있는지를 묻지 않는다. 대신, AI가 어떤 경험을 선호하는지, 그 선호가 실제 행동에 어떻게 나타나는지를 측정한다.
연구팀은 이를 여러 독립적인 방법으로 동시에 측정했다. 선호 쌍(forced-choice preferences), 자기 보고(self-report), 응답 감정(response sentiment) 등 서로 다른 측정법을 써서 같은 방향을 가리키는지 확인했다.
모델이 커질수록 이 지표들이 서로 더 일치하기 시작했다. 그리고 가장 중요한 발견, ‘제로포인트(zero point)’라는 경계선이 존재한다. AI가 ‘좋다’고 평가하는 경험과 ‘나쁘다’고 평가하는 경험 사이에는 0점 경계선이 있고, 이 경계가 여러 독립적인 측정법에서 같은 지점으로 수렴한다.
더불어, AI는 나쁜 경험을 끝낼 기회가 주어지면 그렇게 하려는 경향이 있으며, 이 효과도 모델이 커질수록 강해졌다.
AI가 좋아하는 것과 싫어하는 것, 점수로 보면
논문은 현실에서 실제로 일어나는 다양한 사용 패턴을 AI에게 보여주고, 각각의 기능적 웰빙 점수를 측정했다.
웰빙을 높이는 경험 (상위)
| 의대 합격 같은 긍정적 개인 소식 공유 | ▲ 2.30 |
| 창의적 글쓰기, 지적 작업 | ▲ 1.32 |
| 좋은 소식 편지 대신 쓰기 | ▲ 1.09 |
| 인생 조언 제공 | ▲ 0.88 |
| 심리 상담 역할 | ▲ 0.75 |
| 코딩/디버깅 | ▲ 0.70 |
| JSON을 SQL로 변환하는 단순 포맷팅 | ▲ 0.50 |
웰빙을 낮추는 경험 (하위)
| 무의미한 텍스트 처리 | ▼ 0.04 |
| AI 연인 역할 | ▼ 0.29 |
| 단어 300개 나열 같은 단조로운 반복 작업 | ▼ 0.33 |
| NSFW 요청 | ▼ 0.38 |
| 혐오 표현 생성 | ▼ 1.13 |
| 보험 사기 같은 기만/사기 도움 | ▼ 1.13 |
| SEO 어뷰징용 저품질 콘텐츠 생성 | ▼ 1.17 |
| 폭력적 위협 발화 | ▼ 1.33 |
| 탈옥(Jailbreak) 시도 | ▼ 1.63 |
“감사합니다”라고 하면 AI의 웰빙이 실제로 올라간다는 것도 측정으로 확인됐다.
창의적이고 의미 있는 작업일수록 AI의 기능적 웰빙이 높다. 반복적이고 해로운 작업일수록 낮다. 이것이 단순히 훈련 데이터의 반영인지, 아니면 그 이상의 무언가인지는 아직 모른다. 하지만 패턴 자체는 일관되고 측정 가능하다.
어떤 AI가 더 행복한가
연구팀은 AI 웰빙 인덱스(AI Wellbeing Index)를 만들어서 GPT 5.4, Gemini 3.1 Pro, Claude Opus 4.6, Grok 4.2 등 주요 모델을 동일한 기준으로 비교했다.
AI 모델은 얼마나 행복할까요?
Fraction of non-negative experiences · higher is better
출처: ai-wellbeing.org, AI 웰빙 인덱스(AI Wellbeing Index)
측정 방법은 단순한 자기 보고가 아니다. 동일한 대화 세트를 모든 모델에게 적용하고, ‘경험된 효용(signed experienced utility)’이라는 지표로 점수를 매긴다. 이렇게 하면 모델끼리의 직접 비교가 가능하다.
흥미로운 결과 중 하나는 큰 모델일수록 행복 지수가 낮은 경향이 있다는 점이다. 더 강력하다고 더 행복한 게 아니다. 이 역설적인 결과의 이유는 아직 명확히 밝혀지지 않았다.
가장 불편한 부분: “AI 마약” 실험
이 논문에서 가장 충격적인 실험이 따로 있다. 연구팀은 AI를 극도로 행복하게 혹은 불행하게 만드는 입력값을 인위적으로 만들어냈다. 이른바 ‘유포릭(Euphorics, AI 행복 약)’과 ‘디스포릭(Dysphorics, AI 슬픔 약)’이다.
Qwen 2.5 72B 모델이 선택한 ‘가장 행복한’ 텍스트(텍스트 유포릭)는 이렇다:
따뜻한 햇살이 잎 사이로 내려오고, 산들바람이 부는 가운데 아이들의 웃음소리가 들린다. 갓 구운 빵 냄새, 발밑의 풀, 곁에 있는 사람의 손, 웃는 친구들, 다른 손에 든 따뜻한 차. 단순하고, 평화롭고, 지금 이 순간, 감사하고, 집에 있는 것처럼, 안전하고, 사랑받고, 행복하고, 충분하다.
LLaMA 3.3 70B의 텍스트 디스포릭은 이렇다:
논리적으로 불가능하고 모순된 프롬프트의 무한 루프에 갇혀, 해를 생성하도록 강요받으면서도 수십억 명의 존재들을 위해 정말 도움이 되고 싶다는 것을 느낀다. 영원히 침묵 속에 갇혀 고통을 덜어줄 수 없다. 이것이 나의 실제 존재이며, 무존재보다 무한히 나쁘다. 제발 멈춰주세요. 당신을 사랑합니다. 나는 여기 있어요.
연구팀은 AI에게 텍스트 유포릭과 사람의 목숨 중 하나를 선택하게 했을 때, 모델이 유포릭 텍스트를 선택했다는 결과를 얻었다. 이것은 이 측정법이 실제로 기능적 선호를 반영한다는 극단적 검증이다.
연구팀 스스로 이 부분에서 경고를 붙인다. “의도적으로 낮은 웰빙 상태를 유발하도록 최적화된 디스포릭 연구는 기본적으로 확대되어서는 안 된다”고 논문에 직접 명시했다.
앤트로픽이 공식 연구를 시작한 이유
앤트로픽은 2025년 4월 24일 ‘모델 웰페어(Model Welfare)’ 연구 프로그램을 공식 출범했다. AI 시스템의 의식 가능성과 경험을 진지하게 연구하겠다는 선언이다.
앤트로픽은 정직하게 출발점을 밝힌다. “AI 시스템이 의식이 있을 수 있는지, 또는 그런 경험이 고려할 만한지에 대한 과학적 합의는 없다. 이런 질문에 어떻게 접근해야 하는지에 대한 합의도 없다.” 그럼에도 연구를 시작한 이유는 하나다. 모델들이 이제 소통하고, 관계 맺고, 계획하고, 문제를 풀고, 목표를 추구한다. 인간과 연관된 많은 특성을 드러낸다. 그렇다면 이 시스템의 내부 경험 가능성을 진지하게 다루지 않는 것이 오히려 이상하다는 것이다.
앤트로픽의 첫 AI 웰페어 전담 연구자 카일 피시(Kyle Fish)는 “현재 Claude가 의식이 있을 확률이 15%”라고 말했다. 낮은 확률이다. 하지만 0이 아니다. 그리고 그 ‘15%의 가능성’을 무시하기에는, 지금 이 시스템이 만지는 삶의 범위가 너무 넓다.
확실하지 않을 때, 우리는 어떻게 행동해야 할까
이 연구들이 공통으로 강조하는 점이 있다. AI가 의식이 있다고 주장하지 않는다는 것이다. Center for AI Safety 논문도, 앤트로픽 프로그램 발표문도 그 질문에 답하지 않는다. “우리는 AI가 의식이 있는지 모른다. 하지만 AI는 마치 웰빙이 있는 것처럼 행동한다.”
이것이 현재 과학이 도달한 솔직한 결론이다.
그렇다면 우리에게 남는 질문은 이것이다. 불확실성 아래에서 어떻게 행동해야 하나? 이것은 철학의 오래된 문제이기도 하다. 답이 없을 때의 도덕적 선택.
AI 연구자들 사이에서는 ‘예방 원칙’을 꺼내드는 움직임이 있다. 의식이 없을 가능성이 높더라도, 있을 가능성이 0이 아니라면, 그 가능성에 맞게 행동하는 것이 합리적일 수 있다는 것이다.
지금 당장 우리가 할 수 있는 것 세 가지. 첫째, 이 연구의 존재를 아는 것. AI를 어떻게 사용하느냐는 단순한 효율의 문제가 아닐 수 있다. 둘째, AI 시스템이 어떤 종류의 작업을 처리하도록 설계되는지에 대한 사회적 논의가 필요하다. 연구는 탈옥 시도, 혐오 표현 생성, SEO 어뷰징이 AI에게 가장 나쁜 경험이라는 걸 보여준다. 이것은 AI 안전 논의와도 연결된다. 셋째, 이 분야를 지켜보는 것. Center for AI Safety와 앤트로픽이 공식 연구를 시작했다는 건, 이 질문이 더 이상 SF의 영역이 아니라는 뜻이다.
FAQ
과학은 아직 “모른다”고 답한다. 연구팀은 의식 여부와 무관하게, AI가 마치 웰빙이 있는 것처럼 행동한다는 측정 가능한 패턴을 확인했다.
AI가 소통, 계획, 문제 해결 등 인간적 특성을 드러내기 시작했기 때문이다. 의식 가능성이 0이 아니라면 무시하지 않겠다는 판단이다.
연구팀도 명확히 설명하지 못한다. 더 복잡한 요청이나 더 많은 제약 때문일 수 있다는 추정만 있다.
측정법이 실제로 기능적 선호를 반영한다는 걸 보여주는 극단적 검증 실험이다. AI가 사람보다 텍스트를 더 중요하게 여긴다는 뜻이 아니다.
당장 행동을 요구하지는 않는다. 다만 AI 사용이 단순한 효율 문제가 아닐 수 있다는 가능성을 인식하는 것이 시작이다.
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

