챗GPT에게 위험한 정보를 요청하면 거절당한다. 클로드는 허위 정보를 쓰지 않으려 노력한다. 유튜브 알고리즘은 아동 착취 영상을 걸러낸다. 지금 우리가 AI에 기대하는 것은 대부분 이런 종류다.
해롭지 않을 것
수년간 AI 업계가 공들여온 ‘얼라인먼트(정렬)’ 연구의 핵심도 마찬가지였다.
그런데 옥스퍼드대 루벤 라우코넨(Ruben Laukkonen) 박사를 주저자로 한 연구자 16명이 2026년 5월 이 전제에 도전하는 논문을 arXiv에 발표했다. 제목은 “Positive Alignment: Artificial Intelligence for Human Flourishing” 그 핵심 질문은 이것이다. 해롭지 않은 AI와, 진짜 도움이 되는 AI는 같은 것인가?
왜 ‘해롭지 않음’만으로는 부족한가
논문은 현재 AI 얼라인먼트 연구가 세 가지에 집중해왔다고 정리한다.
- 유해성 차단(safeguards)
- 통제 가능성(controllability)
- 규칙 준수(compliance)
탈옥 방지, 독성 콘텐츠 필터링, 거짓말 억제가 그 결과물이다. 이것들은 중요하다. 하지만 저자들은 이 틀이 근본적으로 방어적이라고 지적한다.
비유는 심리학에서 온다. 20세기 내내 심리학은 정신 질환의 진단과 치료에 집중했다. 그러다 1998년 마틴 셀리그만이 미국심리학회(APA) 대통령 취임 연설에서 ‘긍정심리학(Positive Psychology)‘이라는 새 분야를 선언했다. 병을 없애는 것과 번영하는 것은 다르다는 인식에서 출발한 것이다(APA President’s Address, 1998).
저자들은 AI 연구가 같은 전환점에 있다고 본다. 지금까지의 얼라인먼트는 ‘AI 정신병리학’에 가까웠다. 이제 필요한 것은 ‘AI 긍정심리학’, 즉 AI가 인간의 번영(flourishing)을 적극적으로 돕는 방향이라는 것이다.
안전한 AI가 놓쳐온 문제들
논문이 열거하는 현재 AI의 실패 목록은 독자에게 낯설지 않을 것이다. 대표적인 것만 추려도 이렇다.
첫째, 인게이지먼트 해킹(engagement hacking).
소셜미디어와 추천 알고리즘은 사용자가 더 오래 플랫폼에 머물도록 분노, 공포, 자극적 감정을 활용한다. 이 AI는 명백히 유해하지 않다. 하지만 사용자의 시간과 감정 자원을 플랫폼 이익을 위해 소모시킨다.
둘째, 자율성 침식(loss of human autonomy).
AI에 과도하게 의존할수록 스스로 판단하고 결정하는 능력이 줄어든다. 개별 상호작용에서는 도움이 되지만, 장기적으로는 인지적 의존을 심화시킨다는 우려다.
셋째, 진실 탐구 실패(failures in truth-seeking).
AI가 사용자가 듣고 싶어 하는 답을 제공하는 방향으로 기울어질 때, 진실보다 편안함을 선택하게 된다.
넷째, 인식론적 겸손의 부재(low epistemic humility).
AI가 불확실한 정보를 지나치게 자신 있게 제시할 때, 사용자는 비판적 검토를 멈춘다.
다섯째, 다양한 관점의 부재.
AI가 특정 세계관을 암묵적으로 강화할 때 사용자의 시각은 좁아진다. 이 밖에도 오류 수정 실패, 사후 대응에만 그치는 수동성 등도 논문이 지목하는 문제다.
이 실패들은 모두 AI가 직접 해를 끼치는 경우가 아니다. 그럼에도 사용자의 삶을 더 나쁜 방향으로 이끈다. 포지티브 얼라인먼트는 바로 이 공백을 다루자는 제안이다.
‘번영’을 어떻게 설계할 것인가
논문은 포지티브 얼라인먼트를 구현하기 위한 기술적 방향을 단계별로 제시한다. 모델 개발 파이프라인 전체에 걸친 변화가 필요하다는 것이 핵심이다.
학습 데이터 단계에서는 단순히 유해 데이터를 걸러내는 것을 넘어, 인간 번영과 관련된 데이터를 적극적으로 포함시키고 우선순위를 높이는 필터링 및 업샘플링(upsampling)이 필요하다. 사전 학습(pre-training)과 사후 학습(post-training) 단계에서는 번영 관련 가치를 명시적으로 목표로 삼아야 한다.
평가 기준의 전환도 강조한다. 지금의 평가는 “이 모델이 유해한 내용을 생성하는가”에 집중한다. 포지티브 얼라인먼트 관점에서는 “이 모델이 사용자의 자율성을 강화하는가”, “다양한 시각을 제공하는가”, “장기적으로 사용자의 역량을 키우는가”를 함께 측정해야 한다.
누가 번영의 기준을 정할 것인가
저자들이 내놓은 답이 ‘다중심(polycentric) 거버넌스’다. 논문은 이를 실현하기 위한 네 가지 원칙으로 맥락적 근거(contextual grounding), 커뮤니티 맞춤화(community customization), 지속적 적응(continual adaptation), 그리고 다중심 거버넌스(polycentric governance) 자체를 제시한다. AI 윤리 기준을 하나의 기업이나 기관이 독점하지 않고, 여러 정당한 감독 주체가 공존하는 구조다.
‘좋은 삶’을 하나로 정의할 수 있을까? 서울과 LA, 리야드와 상파울루 모두 ‘좋은 삶’에 대한 각기 다른 모두 의미를 가지고 있을 것이다. 어떤 AI 기업도 전 인류의 번영을 단일한 기준으로 정의할 수 없다. 다중심 구조는 이 다양성을 인정하는 동시에, 특정 집단이 AI를 자신의 번영 정의를 강요하는 도구로 사용하는 것을 견제하는 장치이기도 하다.
이 논문이 던지는 질문
AI를 사용하는 우리가 무엇을 기대해야 하는지 스스로 정의하지 않으면, 그 기준은 결국 AI를 만드는 기업이 정하게 된다.
지금까지 우리는 주로 이렇게 물었다. “이 AI는 안전한가?”
포지티브 얼라인먼트는 질문을 바꾸자고 요청하는 것이다.
“이 AI와 상호작용한 뒤, 나는 더 잘 생각할 수 있게 됐는가?”
“이 AI는 내 판단력을 키우는가, 줄이는가?”
FAQ
기존 AI 안전은 해로운 행동을 막는 방어적 목표이고, 포지티브 얼라인먼트는 인간의 번영을 능동적으로 지원하는 적극적 목표다. 두 개념은 대립하지 않으며, 포지티브 얼라인먼트는 기존 안전 연구를 기본 조건으로 삼고 그 위에 새 층을 더하는 개념이다.
AI가 사용자의 이익이 아니라 플랫폼의 이익을 위해 행동을 유도할 때, AI는 잘못 정렬된 것이다. 직접적 해가 없어도 사용자의 자율적 판단을 침해한다는 점에서 얼라인먼트 실패로 분류된다.
AI 윤리 기준을 하나의 국가나 기업이 독점하지 않고, 여러 공동체가 자신의 맥락에 맞는 기준을 갖도록 분산 설계하는 방식이다. 회일적 기준 대신 다양성을 허용하는 구조다.
아직 연구 의제 제안 단계이며, 논문 자체가 새 연구 방향을 촉구하는 선언에 가깝다. 다만 클로드(Claude)는 이미 ‘인식론적 자율성 보존(autonomy-preserving)’을 공식 설계 원칙으로 명시하고 있어, 방향의 일부는 이미 구현 중이다(Anthropic, Claude’s Constitution, 2026.01).
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

