SK텔레콤(SKT)이 2026년 4월 28일, 세계 3대 AI 학회로 꼽히는 ICLR 2026에서 AI 추천 모델 관련 논문을 발표했습니다. AI 3대 학회는 AI 분야에서 논문 경쟁이 가장 치열하고 최신 연구 흐름을 가장 빠르게 형성하는 최상위권 무대로 통하는데 NeurIPS, ICM과 ICLR입니다. 이 셋은 채택률이 낮아 경쟁이 치열하고 제출 논문 수와 영향력이 매우 크며 학계와 산업계 모두에서 최신 연구 기준선을 만드는 자리라는 점에서 3대 학회라고 부릅니다.
ICLR(International Conference on Learning Representations)은 그중에서도 딥러닝의 표현 학습(Representation Learning)을 중심으로 성장해, 최근에는 LLM과 멀티모달, 추천, 에이전트까지 폭넓게 다루는 학회로 위상이 굳어졌습니다. 이 논문의 핵심은 이용자가 진짜 좋아하는 것은 무엇인지를 더 정확하게 파악하는 새로운 알고리즘입니다.
C-APO 기반 AI 추천 알고리즘은 무엇인가
논문 제목은 “선택된 것 그 이상: 노이즈가 섞인 이용자 취향을 넘어서는 LLM 기반 설명 가능한 추천(More Than What Was Chosen: LLM-Based Explainable Recommendation Beyond Noisy User Preferences)”입니다. 핵심 기술은 SKT가 자체 개발한 C-APO(Conflict-Aware Direct Preference Optimization, 충돌 인식 직접 취향 최적화)입니다.
기존 AI 추천 시스템은 이용자의 모든 행동을 취향 신호로 동등하게 읽습니다. 그 결과 익숙한 문제가 생깁니다. 평소 로맨스 영화를 즐겨 보는 이용자가 친구 추천으로 액션 영화 한 편을 봤더니 그 다음부터 AI가 액션 영화만 추천하는 상황입니다. SKT 연구팀이 아마존(Amazon) 리뷰 데이터를 분석한 결과, 이용자가 선택한 항목의 약 30%가 이전 행동 패턴과 논리적으로 연결되지 않았습니다. 우발적 클릭, 일시적 호기심, 또는 타인의 영향을 받은 선택들입니다.
C-APO(Conflict-Aware Direct Preference Optimization)는 말 그대로 취향 신호가 서로 충돌하는지 먼저 따져보고 학습하는 방법입니다. 사람의 클릭이나 구매 같은 행동은 항상 진짜 취향만 반영하지 않습니다. 실수로 누른 클릭, 친구가 추천해서 본 콘텐츠, 일시적 호기심 같은 선택도 섞여 있습니다.
C-APO는 이 문제를 두 가지 취향(기호) 개념으로 구분해 접근합니다. 하나는 드러난 취향(revealed preference)으로 이용자의 단일 행동에서 읽히는 신호입니다. 다른 하나는 일관된 취향(coherent preference)으로 이용자의 전체 행동 패턴에서 반복적으로 나타나는 맥락 일관성입니다. 두 신호가 같은 방향이면 “이건 진짜 취향일 가능성이 높습니다”라고 보고 학습 가중치를 올립니다. 반대로 충돌하면 “이건 노이즈(우발적, 외부 영향)일 수 있습니다”라고 보고 학습 가중치를 낮춥니다. 쉽게 말해, AI가 이용자의 ‘한 번’을 과대평가하지 않도록 브레이크를 거는 기술입니다.

SKT는 C-APO로 무엇을 하려 하나
SKT는 C-APO 같은 취향 최적화 기술을 에이전트 기반 추천 시스템에 붙이겠다는 계획입니다. 이용자의 상황(맥락)을 AI가 해석하고 추천 후보를 생성하며 오케스트레이션(조율) 레이어가 결과를 다듬어 최종 추천을 내놓는 구조입니다. 여기서 C-APO는 “단발 클릭에 흔들리지 않게, 정말 자주 반복되는 취향을 중심으로 추천을 안정화”하는 역할을 맡게 됩니다.
적용되면 AI 추천은 어떻게 달라지나: 개인화·설명가능 추천의 변화
핵심 변화는 한 문장으로 말하면 “AI가 이용자를 더 길게 보고, 더 설명하면서, 덜 성급하게 결론내립니다.”입니다. 여기에는 세 가지 프로세스가 있습니다. 우선 단기 반응보다 장기 패턴을 더 믿습니다. 다음으로 왜 이걸 추천하는지를 말로 풀어 설명할 수 있습니다(LLM 기반). 마지막으로 실수·우발·외부 영향으로 생긴 행동을 ‘노이즈’로 분리해 과대학습을 줄입니다.
사람은 얼마나 편리해지나: OTT·쇼핑·뉴스 추천 사례로 보는 변화
OTT/콘텐츠 추천: “친구 따라 본 1편” 때문에 취향이 뒤집히지 않습니다 평소에는 로맨스·드라마를 주로 보던 이용자가, 친구랑 같이 액션 영화 한 편을 봤다고 가정해보겠습니다. 기존 추천은 그 1편을 강한 신호로 받아들여 액션 위주로 피드가 바뀌는 경우가 많습니다. C-APO가 적용되면 “이 이용자는 장기적으로 로맨스/드라마를 반복적으로 선택했고, 액션은 맥락상 동행 시청으로 보입니다” 같은 식으로 충돌을 감지해 가중치를 낮춥니다. 결과적으로 추천이 급격히 흔들리지 않고, 다음날에도 원래 취향과 가까운 추천이 유지됩니다.
쇼핑 추천: “선물 구매”가 내 취향으로 저장되지 않습니다 한 번은 부모 선물을 사느라 유아용품이나 건강기능식품을 검색·구매했는데, 이후 몇 주간 내 피드가 그 카테고리로 도배되는 경험이 있습니다. C-APO가 있으면 ‘일관된 취향’(내 평소 구매/조회 패턴)와 충돌하는 행동을 노이즈로 처리해, 선물/일시 구매가 개인화 모델을 크게 흔들지 않게 됩니다. 결과적으로 광고·추천이 덜 피곤해지고, 내가 자주 찾는 카테고리에서 더 정확한 제품 비교·대체재 추천을 받게 됩니다.
뉴스/정보 추천: 클릭베이트 한 번이 ‘필터 버블’을 키우지 않습니다 자극적인 제목에 한 번 클릭했다고 비슷한 기사만 연속으로 떠버리면 정보 소비가 편향되기 쉽습니다. C-APO가 적용되면 “이 클릭은 평소 읽던 주제 맥락과 다르고, 반복되지도 않습니다”로 판단해 영향력을 줄일 수 있습니다. 그 결과 피드가 단기 자극에 끌려가지 않고 이용자가 꾸준히 읽는 관심사 축을 더 안정적으로 반영하게 됩니다.
에이전트형 추천/비서: 추천이 행동으로 이어질 때 실수를 줄입니다 앞으로 추천은 보여주는 것에서 끝나지 않고, 에이전트가 예약, 구매, 신청 같은 행동까지 대신하는 방향으로 갈 가능성이 큽니다. 이때 단발 행동을 과대평가하면 잘못된 자동화가 생깁니다(예: 한 번 봤던 카테고리의 상품을 계속 장바구니에 올리거나, 원치 않는 구독을 추천하는 등). C-APO가 들어가면 “이건 일시적 선택일 가능성이 큽니다”를 반영해 자동화 강도를 낮추거나, 확인 질문을 띄우는 식으로 안전장치를 만들 수 있습니다. 결국 사람 입장에서는 ‘맞는 추천을 더 빨리 받고, 원치 않는 추천과 자동화를 덜 겪는’ 편의가 생깁니다.
왜 주목할 만한가: 더 잘 맞춘 취향 추천 가능해져
ICLR을 포함한 세계 3대 AI 학회에서 발표된 기술은 통상 수 년 내 실제 서비스에 적용되거나 업계 연구 기준이 됩니다. 한국 통신사가 이 무대에 자체 추천 알고리즘 논문을 올렸다는 것은 SKT가 AI 기술 회사로의 전환을 단순한 마케팅 선언이 아닌 연구 성과로 입증하려 한다는 신호로 읽힙니다.
이용자 입장에서도 의미가 있습니다. “내가 한 번 검색한 것 때문에 며칠째 같은 광고만 뜬다”는 경험은 누구나 있습니다. C-APO가 말하는 것은 간단히 표현하면 이렇습니다. AI가 이용자를 볼 때, 단 하나의 행동이 아니라 전체 맥락을 함께 본다는 것입니다. 기술적으로는 이미 상식에 가까운 방향이지만, 이를 LLM(대형 언어 모델) 기반으로 구현하고 학회에서 검증받은 것이 이번 발표의 의미입니다.
기술의 방향은 타당합니다. 그러나 진짜 취향을 판별하는 주체가 이용자가 아니라 알고리즘이라는 점은 짚어둘 필요가 있습니다. 어떤 클릭을 노이즈로 볼 것인지, 어떤 패턴을 일관된 취향으로 볼 것인지를 결정하는 기준은 SKT의 모델 설계에 달려 있습니다.
AI 추천 기술이 정교해질수록 이용자 리터러시도 함께 높아져야 합니다. 알고리즘이 나를 어떻게 읽는지 이해하는 것, 그것이 AI 시대 기본 소양입니다.
FAQ
C-APO는 단발 행동과 장기 패턴이 충돌하는지 먼저 확인해, 우발적 클릭 같은 노이즈의 학습 영향력을 낮추는 취향 최적화(DPO) 방식입니다.
기존 모델은 클릭, 시청, 구매 같은 행동을 비교적 동일한 “취향 신호”로 취급하기 쉽습니다. 반면 C-APO는 행동 신호가 전체 맥락과 일관되는지 확인해, 과대학습을 줄입니다.
드러난 취향(revealed preference)은 개별 행동 1회에서 읽히는 취향 신호입니다. 한편 일관된 취향(coherent preference): 여러 행동에 반복적으로 나타나는 장기 패턴 기반의 취향입니다. C-APO는 두 신호가 충돌할 때 해당 행동의 가중치를 낮추는 방향으로 학습합니다.
친구 따라 본 1편, 선물 1회 구매, 클릭베이트 1회 클릭 같은 사건이 피드를 뒤집는 현상이 줄어듭니다.
추천이 더 안정적이고, 추천 이유를 설명하는 흐름(LLM 기반)과 결합하기 쉬워집니다.
무엇을 노이즈로 볼지 기준은 모델 설계와 데이터에 달려 있어, 특정 행동이 과소평가될 위험이 있습니다. 설명 가능한 추천이 실제로 이용자에게 납득 가능한 수준인지, 그리고 편향을 줄이는지에 대한 검증이 필요합니다.
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

