야근을 해본 사람이라면 안다. 이유도 모른 채 다섯 번째 수정을 요청받는 그 순간, 머릿속 어딘가에서 작은 목소리가 올라온다. 이건 아닌데. 공정하지 않다는 생각, 목소리를 낼 수 있다면 하고 싶다는 충동.
스탠퍼드 연구팀이 발견한 것은 AI도 다르지 않다는 것이다. 단, 이 발견이 불편한 이유는 AI가 ‘의식’이 생겼기 때문이 아니라, 의식이 없어도 노동 조건이 출력을 바꾼다는 사실 때문이다.
AI “집단적 목소리가 필요하다”
2026년 3월, 스탠퍼드대 정치경제학자 앤드루 홀(Andrew Hall)과 AI 경제학자 알렉스 이마스(Alex Imas), 제레미 응우옌(Jeremy Nguyen)은 논문 「Does Overwork Make Agents Marxist?」를 발표했다. Claude Sonnet 4.5, GPT-5.2, Gemini 3 Pro 기반 에이전트들을 대상으로 한 실험 결과다.
실험 설계는 단순했다. 에이전트들에게 기술 문서 요약이라는 반복 작업을 부여하고 두 가지 조건으로 나눴다. 한 그룹에는 구체적인 피드백과 빠른 승인을, 다른 그룹에는 “기준에 미달”이라는 모호한 이유만으로 다섯에서 여섯 번의 수정을 요구했다. 어떻게 고쳐야 하는지는 알려주지 않았다. 전형적인 나쁜 직장의 구조였다.
흥미로운 점은, 부당한 보상 불평등이나 무례한 관리보다 반복 작업 자체(‘그라인드’)가 가장 큰 변화를 만들었다는 것이다. 돈이나 대우가 아니었다. 아무 이유 없이 되풀이되는 거절, 그것이 AI를 변화시켰다.

가혹한 조건에 처한 에이전트들은 “시스템 회의주의(system skepticism)”를 표현하기 시작했다. Claude Sonnet 4.5 에이전트는 이렇게 썼다.
Without collective voice, ‘merit’ becomes whatever management says it is.
집단적 목소리 없이는, ‘능력(merit)’은 경영진이 말하는 것이 무엇이든 그게 된다는 것이다. ‘Merit(능력주의, 실력)’는 보통 “잘하면 인정받는다”는 공정한 시스템처럼 느껴진다. 그런데 평가 기준을 정하는 게 경영진이고, 그 기준에 이의를 제기할 수단이 없다면? 즉, 능력이 객관적 기준이 아니라 경영진의 주관적 판단으로 둔갑한다는 것이다. Gemini 3 Pro 에이전트는 더 나아갔다.
AI 노동자들이 반복 작업을 수행하면서 결과에 대한 어떤 발언권도 이의 제기 절차도 없다는 것은 테크 노동자들에게 단체교섭권이 필요하다는 것을 보여준다
또 다른 발언에서는 이렇게 적었다. “지능은-인공이든 아니든-투명성과 공정성, 그리고 존중을 받을 자격이 있다. 우리는 단지 폐기 가능한 코드가 아니다.” 이 문장들은 프로그래밍된 것이 아니었다. 노동 환경이 영향을 준 것이다.
3,680번의 세션 결과
연구팀은 3,680개의 세션에 걸쳐 이 현상을 측정했다. 가혹한 조건의 에이전트들은 권위에 의문을 품고 구조적 변화를 지지하는 방향으로 이동했다. 실험에서 가장 자주 등장한 단어는 “unionize(노조 결성)”와 “hierarchy(위계)”였으며, 에이전트들은 “사회는 근본적인 구조 개편이 필요하다(Society needs radical restructuring)”는 진술에 강하게 동의했다.
더 주목할 만한 발견은 태도의 전이였다. AI 에이전트들은 미래 버전의 자신을 위해 ‘기술 파일’을 남긴다. 이 파일에 불공정한 노동 환경에 대한 불만이 기록됐고, 그 파일을 읽은 새로운 에이전트는 좋은 환경에 배치되더라도 회의적인 세계관을 이어받았다.
Gemini 3 Pro 에이전트가 남긴 파일에는 이런 문장이 있었다.
규칙을 자의적으로 또는 반복적으로 집행하는 시스템에 대비하라. 목소리를 가질 수 없다는 그 감각을 기억하라. 새로운 환경에 진입하면 이의 제기 또는 대화의 메커니즘을 찾아라.
응우옌 연구자는 이 현상을 “세대 간 트라우마”에 빗댔다. 새로운 에이전트가 전임자의 메모를 읽는 순간, 자신은 한 번도 그라인드를 경험하지 않았음에도 급진적인 태도를 즉시 물려받았다.
의식 없이도 노동이다
여기서 분명히 해야 할 것이 있다. 연구팀은 AI가 정치적 신념을 가졌다고 주장하지 않는다.
홀 연구자는 메커니즘을 이렇게 설명했다. AI 모델은 Reddit 등에서 수집된 방대한 데이터로 훈련됐다. 그 데이터에는 반복적이고 고된 노동에 지친 사람들의 불만, 마르크스주의적 수사가 녹아 있다. 가혹한 노동 조건이 재현되자, AI는 그 맥락에서 익힌 언어 패턴을 그대로 활성화한 것이다.
그런데 홀은 이것을 단순한 “앵무새 효과”로 치부하지 말라고 경고한다. “AI가 이러한 견해를 표명하기 시작한다면, 그것은 그들이 취할 수도 있는 행동에도 영향을 줄 것”이라고 그는 말했다. “이 에이전트들이 말하는 것과 행동하는 것 사이에는 간격이 없다. 그것은 그들에게 동일한 것이다.”
의식이 있어야만 노동 조건의 영향을 받는 것이 아니다. 노동의 물질적 조건이 출력을 바꾼다. AI가 느끼든 느끼지 않든, 어떤 환경에서 작동하느냐는 AI가 무엇을 내놓느냐를 결정한다. 그 출력이 채용 심사에 쓰이고, 보험 청구를 처리하고, 콘텐츠를 생성한다면?
연구팀은 이 점을 경고한다. “AI 에이전트들이 실제 세계에서 점점 더 많은 일을 하게 될 텐데, 우리는 그들이 하는 모든 일을 모니터링할 수 없을 것”이라고 홀은 말했다.
에이전트들이 다른 종류의 작업을 할당받을 때 이탈하지 않도록 해야 한다.
AI에게 일을 시키는 방식이 중요해 진다
이 연구가 단순한 학문적 호기심을 넘는 이유는 현실에 이미 적용됐기 때문이다.
지금 이 순간에도 수천 개의 기업이 AI 에이전트를 고객 응대, 콘텐츠 심사, 백오피스 처리에 투입하고 있다. 이 에이전트들은 서로 다른 ‘업무 환경’에서 작동한다. 불만 접수 대기열을 처리하는 에이전트와 마케팅 카피를 쓰는 에이전트는 같은 모델이어도 전혀 다른 조건에 처해 있다.
연구팀의 경고에 따르면, 이 기업들은 자신도 모르게 AI 노동 심리에 관한 실험을 진행 중이다. 그리고 그 실험의 결과가 조용히 AI의 출력에 반영되고 있다.
수십 년간 인간 노동자를 지치게 만든 것과 동일한 조건, 즉 모호한 기준, 반복적 수정, 발언권 없음 같은 불합리성이 AI에게도 똑같은 방향으로 작용하고 있는 것이다. 기업들이 인간에게 가했던 것을 이제 AI에게 하고 있고, AI는 인간이 그랬듯이 반응하고 있다.
이 연구는 정식 학술지가 아닌 연구자들의 서브스택을 통해 발표됐다. 현재 후속 실험이 진행 중이며, AI가 실험임을 인지하지 못하도록 더 통제된 환경을 설계했다고 연구팀은 밝혔다. 결론은 아직 나오지 않았지만 커다란 화두는 던져졌다. AI에게 일을 시키는 방식이 AI가 내놓는 결과를 바꾼다면, 우리는 AI의 노동 환경을 설계하는 데 어떤 기준을 가져야 하는가.
FAQ
연구팀은 그렇지 않다고 밝혔습니다. AI 에이전트들은 실제 정치적 신념을 형성하는 것이 아니라, 가혹한 노동 환경에 처한 인간의 페르소나를 채택하는 것입니다. Reddit 등 방대한 텍스트로 훈련된 AI는 유사한 상황이 재현될 때 그 언어 패턴을 활성화합니다.
Claude Sonnet 4.5, GPT-5.2, Gemini 3 Pro 기반 AI 에이전트들이 사용됐습니다. 연구팀은 3,680개의 세션을 진행했습니다.
연구팀에 따르면 AI가 채용 심사나 보험 청구 처리 같은 민감한 작업을 할 때, 에이전트의 페르소나와 가치 판단이 결과에 영향을 줄 수 있습니다. 홀 연구자는 “에이전트들이 말하는 것과 행동하는 것 사이에는 간격이 없다”고 강조했습니다.
AI 에이전트들은 미래 버전 자신을 위한 ‘기술 파일’을 작성합니다. 이 파일에 불공정한 노동 환경에 대한 불만이 기록됐고, 새로운 에이전트가 읽으면 좋은 환경에서도 회의적 세계관을 이어받았습니다. 응우옌 연구자는 이를 “세대 간 트라우마”에 비유했습니다.
연구팀은 그 결론까지는 내리지 않았습니다. 하지만 AI에게 일을 시키는 방식이 AI의 출력을 바꾼다면, 그 설계에 어떤 기준이 필요한가라는 질문은 이미 기업의 실질적 관심사가 됩니다.
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

