2026년 4월 30일, 사이언스(Science)에 논문 하나가 실렸다. 하버드, 스탠퍼드 공동 연구팀이 오픈AI의 o1 모델에 보스턴의 실제 응급실 케이스 76건을 투입한 후 전문의와 성과를 비교한 결과, AI가 의사를 능가했다는 내용이었다. 초기 트리아지(triage, 환자 분류) 단계에서 o1의 진단 정확도는 67.1%였고 전문의 두 명은 각각 55.3%와 50.0%에 그쳤다. 임상 추론 완벽 점수를 받은 케이스 비율은 o1이 98%, 전공의는 35%였다.
그러나 같은 날 같은 주제로 다른 데이터도 있다. 의료 정보 매체 라디올로지 비즈니스(Radiology Business)는 2026년 의료 현장 최대 안전 위협으로 “AI 진단 딜레마”를 꼽았고 별도 연구를 인용했다. 기계학습(ML) 모델들이 중증, 악화 케이스를 66% 탐지하지 못했다는 내용이었다. 앞 연구와 지금 연구 결과의 수치는 모두 사실이다. 문제는 이 수치들이 같은 질문에 대한 답이 아니라는 점이다.
무엇을 측정했는가
사이언스 연구는 명확한 전제가 있었다. 텍스트 기반, 단일 진단 과제, 통제된 평가 환경이다. 연구팀은 실제 응급실 케이스를 식별할 수 없는 텍스트로 변환해 AI와 의사에게 동시에 제시했다. AI가 받은 것은 증상 기술, 검사 수치, 병력 요약이었다. AI가 보지 못한 것은 환자의 얼굴, 목소리, 호흡 패턴, 진료실에서 의사가 즉각적으로 포착하는 비언어적 신호들이었다.

논문은 이 한계를 명시적으로 인정하며 “다음 단계는 멀티모달 AI를 감독하는 임상 환경에서 평가하는 것”이라고 썼다. 즉, 논문 자체가 이번 결과를 시작점으로 정의했다. 따라서 “AI가 의사를 이겼다”고 보도하는 헤드라인은 호기심을 자극할 만하지만 지나친 과잉 해석인 셈이다.
두 번째 연구에서 중증 케이스를 탐지하지 못한 66%는 무엇을 측정한 것인가. 이 연구는 현장에 이미 배포된 다양한 머신러닝 기반 의료 AI 시스템을 대상으로 했다. 실험실이 아니라 현실 병원에서 작동 중인 AI들이다. 통제된 텍스트 케이스를 받은 o1과 실제 임상 흐름 속에서 작동하는 배포 모델 사이의 차이가 바로 이 두 수치가 충돌하는 이유다.
두 연구는 상호 모순이 아니다. 하나는 “이 모델이 이 과제를 이 조건에서 얼마나 잘 수행하는가”를 측정했고, 다른 하나는 “배포된 AI가 실제로 얼마나 작동하는가”를 측정했다. 작업이 달랐다. 그래서 이 두 연구를 묶어 하나의 결론을 내는 것은 과잉이다.
배포 속도가 평가 방법론을 추월하고 있다
사이언스가 “AI가 의사처럼 추론할 수 있다면, 다음은 무엇인가?”라는 제목으로 발표한 해설은 이렇게 오버한 지점을 정확하게 짚는다. 논문은 “AI 시스템의 배포 속도가 평가 방법론을 추월하고 있다(deployment is outpacing evaluation)”고 명시했다. 이것은 경고다. 성과를 보고하고는 있지만 그 성과를 근거로 성급하게 현장에 투입하지는 말라고 브레이크를 거는 것이다.
2024년 미국 의학협회지(JAMA) 인공지능 서밋 보고서는 여기서 한 단계 더 나아가 단순한 경고를 넘어, 효과성, 형평성 중심의 평가 생태계가 비어 있다는 점을 구조적 문제로 지적했다. 요지는 “배포가 평가를 앞지른다”는 말이 아니라, “의료 AI는 이미 널리 채택됐지만, 실제 건강 효과는 평가가 어렵거나 요구되지 않아 정량화되지 않는 경우가 많고, 기존 책임 기준도 효과성 입증을 충분히 다루지 못한다.”는 것이다. 그래서 패널은 네 가지를 촉구했다. 임상의, 환자, 규제 당국, 개발자의 조기 협력, 결과 데이터를 통한 실세계 효과성 검증, 다양한 인구 집단에 걸친 성과를 연구할 수 있는 국가 데이터 인프라 구축, 그리고 형평성을 목표로 한 평가를 유도하는 투명성 인센티브. 하나같이 이미 배포된 시스템을 사후 검증하는 데 필요한 것들이다.
입력이 줄어들면 성능도 줄어든다
2026년 5월, 메디컬 엑스프레스(Medical Xpress)가 새로운 연구 결과를 보도했다. 환자들이 AI 의사에게 정보를 더 적게 제공한다는 것이다. 개인정보에 대한 걱정과 AI를 신뢰하기 어렵다는 이유가 원인으로 지목됐다. 환자들은 여전히 인간 의사를 선호했고 AI와 대화할 때는 증상을 더 간략하게 덜 구체적으로 진술하는 경향을 보였다.
이것은 작은 뉴스처럼 보이지만 사이언스 연구의 전제를 정면으로 들이 받는다. 연구에서 o1이 받은 것은 완전히 기술된 케이스, 즉 의사가 이미 청취하고 정리한 텍스트였다. 실제 진료 상황에서 AI가 받게 되는 것은 환자가 자발적으로 말하는 내용이다. 환자가 AI에게 말을 줄인다면 모델이 아무리 정확해도 입력 자체가 불완전해진다. 정확한 알고리즘과 불완전한 입력의 조합은 정확한 오답을 생성할 수 있다.
이것은 기술 문제가 아니라 신뢰 아키텍처의 문제다. AI 진단 시스템의 성능을 높이려면 모델 자체만큼 환자-AI 인터페이스 설계가 중요하다. 어떻게 묻는가, 얼마나 투명하게 데이터 사용을 설명하는가, 환자가 AI와의 대화에서 얼마나 통제권을 갖는다고 느끼는가. 이 변수들이 모델 파라미터 수만큼이나 진단 정확도에 영향을 미칠 수 있다.
목표 달성과 충분함은 다른 질문이다
사이언스 논문과 그 주변 담론이 충돌하는 이유는 무엇을 근거로 증명했느냐 하는 것이다. “AI가 이 과제를 수행할 수 있는가”라는 질문과 “AI를 지금 당장 임상에 배포해도 되는가”라는 질문은 전혀 다른 얘기다. 수행할 수 있는가에 대한 답이 “예스”라고 해서 당장 배포해도 되는가 라는 질문의 답이 자동으로 “예스”가 되지 않는다.
논문 저자들이 제안한 것은 의사 훈련 체계를 모방한 AI 임상 인증 경로다. 의학 지식 확인 > 전문 과제 수행 > 감독 하의 임상 실습 > 자율적 진료 범위 확대. 이것은 “지금 당장 배포”가 아니라 “검증을 거친 단계적 배포”다. 연구팀은 자신들이 증명한 성과를 즉각 배포의 근거로 사용하기를 거부했다.
한국에서 이 인증 경로가 어떻게 작동할 수 있는지는 별도의 분석이 필요하다. 한국의 의료 AI 규제는 식품의약품안전처 허가, 신의료기술평가, 건강보험 급여 결정이라는 세 단계를 거친다. 사이언스가 제안한 단선 인증 모델이 이 다층 구조에서 어떻게 이식될 수 있는가는 아직 논의된 적이 없다.
한국에서 이 인증 경로가 어떻게 작동할 수 있는지는 별도의 분석이 필요하다. 한국의 의료 AI 규제는 식품의약품안전처 허가, 신의료기술평가, 건강보험 급여 결정이라는 세 단계를 거친다. 사이언스가 제안하는 “단선 인증 모델”은 의사 수련처럼 한 줄의 단계(지식 확인 > 과제 수행 > 감독 실습 > 범위 확대)를 통과하면 다음 단계로 넘어가는 비교적 단순한 인증 경로를 뜻한다. 모델이 한국의 다층 구조에서 어떻게 이식될 수 있는가는 아직 논의된 적이 없다.
두 수치를 다시 나란히 놓고 보자. o1의 임상 추론 완벽 점수 98% vs 배포된 ML 모델의 중증 케이스 미탐지 66%. 첫 번째 수치는 잘 설계된 실험에서 측정된 것이고 두 번째 수치는 실세계 배포 이후 관찰된 것이다. 그 사이에는 환자의 침묵, 시스템의 관성, 평가 방법론의 부재가 있다. 어떤 경우 수치 면에서 AI가 의사를 이겼다는 것은 사실이다. 그러나 그것이 의미하는 바가 무엇인지는 아직 결정되지 않았다.
FAQ
통제된 텍스트 기반 과제(초기 트리아지 등)에서 특정 모델이 특정 집단의 의사보다 높은 점수를 받았다는 뜻이지, 실제 진료 전 과정에서 의사를 대체할 만큼 안전하다는 뜻은 아니다.
모순이 아니라 측정 대상이 다르다: 하나는 통제된 평가 환경의 단일 모델 성능이고, 다른 하나는 현장에 배포된 다양한 의료 AI가 실제 임상 흐름에서 놓친 사례 비율이다.
성능 보고가 늘어날수록 현장 도입도 빨라지는데, 그 속도를 따라갈 검증(안전성, 효과성, 형평성)이 부족하면 작은 오류가 큰 피해로 번질 수 있다.
많은 의료 AI가 실세계에서 환자 결과를 실제로 개선하는지(효과성), 그리고 다양한 집단에 공정하게 작동하는지(형평성)를 충분히 입증하지 못한 상태에서 도입, 확산되고 있다는 점이다.
의사 수련처럼 지식 확인 > 과제 수행 > 감독 실습 > 범위 확대 같은 단계들을 한 줄로 밟아가며, 단계 통과를 조건으로 권한/적용 범위를 넓히는 비교적 단순한 인증 경로를 말한다.
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

