팀장 앞에 두 개의 보고서가 있다.
하나는 팀원 A가 AI를 써서 2시간 만에 만든 보고서다. 완성도가 높다. 구성도 탄탄하고, 데이터도 풍부하다. 또 하나는 팀원 B가 이틀을 꼬박 써서 만든 보고서다. A보다 조금 덜 다듬어졌지만, B는 내용을 속속들이 이해하고 있다.
누구의 성과가 더 높을까.
이 질문에 “당연히 A지”라고 답하기 어렵다면, 지금 우리의 성과 평가 기준에 빈틈이 생긴 것이다.
평가 기준이 이미 바뀌고 있다
메타(Meta)는 2026년부터 직원 성과 평가에 ‘AI 기반 임팩트(AI-driven impact)’를 공식 항목으로 포함한다고 발표했다. AI를 얼마나 잘 활용해 성과를 냈는지, AI 도구를 써서 팀 전체의 생산성을 높이는 데 기여했는지를 평가에 반영한다. 빅테크 중 AI 활용을 공식 평가 기준으로 명문화한 첫 사례다.
이건 메타만의 이야기가 아니다. AI 도입이 빨라질수록, “AI를 얼마나 잘 쓰는가”는 모든 조직의 평가 지형을 바꾸는 변수가 된다.
기존 평가 기준이 무너지고 있다
워크리틱스(Worklytics)는 이 문제를 세 가지 혼란으로 정리한다.
첫째, 보이지 않는 생산성 문제
AI 도구를 쓰는 팀원이 더 생산적으로 보이지만, 팀장은 그 이유를 모른다. 결과물이 좋아진 건 AI 덕인가, 팀원의 역량이 성장한 건가. 구별할 방법이 없다.
둘째, 역량 귀속 혼란
AI가 한 일과 사람이 한 일을 구분하기 어려워진다. 보고서의 논리 구조가 좋을 때, 그것이 팀원의 사고력인지 AI의 출력인지 알 수 없다.
셋째, 평가 기준의 불일치
어떤 팀장은 AI 활용을 보상하고, 어떤 팀장은 오히려 감점 요소로 본다. 조직 안에서 기준이 제각각이면, 공정한 평가가 불가능해진다.
맥킨지(McKinsey) 데이터를 인용한 워크리틱스 분석에 따르면, 직원들이 업무의 30% 이상을 AI로 처리하는 비율은 리더들의 인식보다 3배 높다. 팀장이 보는 것과 실제 팀원이 AI를 쓰는 양 사이에 이미 큰 간극이 있다는 뜻이다.
워크리틱스는 이 현실을 이렇게 진단한다.
“AI가 일상 업무에 깊이 내재될수록,
활동과 생산성 사이의 전통적인 연결 고리는 약해진다.”
이메일을 몇 개 보냈는지, 보고서를 몇 건 완성했는지로 성과를 재던 방식이 AI 앞에서 무의미해지고 있다는 것이다.
AI 시대 성과 평가의 딜레마
평가 기준이 바뀌어야 한다는 건 알겠는데, 어떻게 바꿔야 할까. 팀장들이 가장 많이 막히는 지점이 바로 여기다.
| 상황 | 기존 기준의 한계 |
|---|---|
| AI 덕에 빠르게 잘 해온 팀원 | 시간·노력 기준으로 평가하면 오히려 낮은 점수 |
| AI를 안 쓰고 성실하게 한 팀원 | 결과물 기준으로 평가하면 상대적으로 낮은 점수 |
| AI를 잘못 써서 오류를 낸 팀원 | 프로세스 기준이 없으면 책임 소재 불분명 |
여기서 한 가지 주의할 함정이 있다. AI 활용량 자체를 평가 지표로 삼으면 안된다는 것이다.
아마존(Amazon)은 개발자 직군의 80% 이상에게 주간 AI 사용 목표치를 설정하고, 토큰 소비량을 내부 리더보드로 공개 추적하기 시작했다. 결과는 예상과 달랐다. 직원들은 리더보드 순위를 높이기 위해 불필요한 저가치 업무에 AI 도구를 반복 실행하기 시작했다. 실제 업무 개선이 아니라 숫자를 올리기 위한 행동이었다. 내부에서 이 현상을 부르는 이름이 생겼다. ‘토큰맥싱(Tokenmaxxing)’.
메타(Meta)도 비슷한 구조를 운영하고 있다. 직원별 AI 토큰 사용량을 집계하는 내부 리더보드가 있고, 사용량이 높을수록 좋은 평가를 받는 인식이 형성됐다. 외부에서는 이 구조가 만드는 인센티브를 이미 우려하고 있다.
이 사례들이 공통으로 보여주는 것은 하나다. 워크리틱스는 “AI 활용 자체를 보상하면 도구 의존이 심화된다.”고 경고한다. 측정 기준이 활용량이 되는 순간, 사람들은 활용량을 늘리는 방향으로 움직인다는 것이다.
새로운 성과 평가 4가지 축
워크리틱스가 제시하는 AI 시대 평가 루브릭(Rubric)*은 기존 성과 지표에 AI 관련 역량을 통합하는 방식이다.
*루브릭: 명확하고 구체적인 채점 기준표
| 평가 축 | 비중 | 핵심 질문 |
|---|---|---|
| 핵심 직무 성과 | 40% | 기존 KPI와 목표를 달성했는가 |
| AI 통합 역량 | 20% | AI를 워크플로우에 효과적으로 녹여냈는가 |
| 혁신·창의성 | 15% | AI가 못 하는 고유한 기여를 했는가 |
| 협업·적응력 | 25% | 팀과 함께 성장했는가, 새로운 도구를 빠르게 익혔는가 |
주목할 것은 ‘AI 통합 역량’이 20%로 별도 축이 아니라, 기존 평가의 보완 역할을 한다는 점이다. AI를 얼마나 많이 썼는지(활용량)가 아니라, AI를 쓰면서 어떤 결과를 만들었는지(임팩트)를 본다.
AI 통합 역량을 평가하는 4가지 기준:
- 도구 채택 — 어떤 AI 도구를 실제로 활용하는가
- 통합 능력 — AI를 업무 흐름에 얼마나 효과적으로 녹이는가
- 비판적 검토 — AI 결과물을 평가하고 개선할 수 있는가
- 윤리적 사용 — AI를 투명하고 책임감 있게 쓰는가
이 중 가장 핵심은 세 번째다. AI 결과물을 검수하는 능력이 없으면, 좋아 보이는 결과물이 오히려 위험해진다.
팀장이 기억할 것
AI 시대의 성과는 결과물의 완성도가 아니라, 결과물에 담긴 판단의 질이다.
AI가 만든 보고서인지, 사람이 만든 보고서인지는 점점 구별하기 어려워진다. 그 보고서를 만드는 과정에서 어떤 문제를 정의하고, AI 결과를 어떻게 판단하고, 최종 책임을 누가 졌는지에 대해 팀장은 챙겨 봐야 한다.
FAQ
쓰는지 안 쓰는지보다 어떻게 쓰는지를 봐야 한다. AI를 쓰지 않고도 성과 기준을 충족한다면 그것도 유효한 방식이다. 평가 기준은 도구가 아닌 결과와 판단에 둔다.
결과물을 제출한 팀원에게 있다. AI는 도구이고, 그 결과물을 검토하고 최종 제출한 사람이 책임을 진다. 이 원칙을 팀에 명확히 해두는 것이 팀장의 역할이다.
AI 활용량 자체를 보상하면 의존이 심화된다. 워크리틱스가 경고하는 함정이 바로 이것이다. AI 통합 역량 평가는 “얼마나 많이 썼는가”가 아니라 “얼마나 잘 판단했는가”에 초점을 맞춰야 한다.
주의가 필요하다. AI로 아낀 시간을 더 많은 일로 채우면 번아웃의 악순환이 시작된다. 속도 향상은 더 많은 과업보다 더 깊은 사고에 쓰이도록 설계해야 한다.
결과물 품질과 역량 성장은 구분해야 한다. 결과물이 좋더라도 팀원이 그 내용을 설명하지 못한다면, AI를 검수할 감각이 아직 없다는 뜻이다. 정기적인 “AI 없이 해보기” 과제가 실력 진단의 기준이 된다.
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

