메타 저작권 침해 의혹으로 소송
2026년 5월 5일, 미국 5대 출판사와 베스트셀러 작가 한 명이 메타(Meta)와 마크 저커버그를 상대로 집단소송을 냈다. 책과 학술 논문 수백만 종을 해적 사이트에서 무단으로 내려받아 AI 모델 라마(Llama) 학습에 사용했다는 게 이유다.
원고는 출판사 다섯 곳과 작가 스콧 터로다. 피고는 메타 플랫폼스(Meta Platforms)와 마크 저커버그 개인. 사건명은 ‘Elsevier v. Meta’이고, 접수된 곳은 미국 뉴욕 남부지방법원이다.
이번 사건이 이전 AI 저작권 소송들과 다른 점은 두 가지다. 첫째, CEO가 개인 자격으로 피고에 올라갔다. 둘째, 소장이 “메타가 어떻게 데이터를 가져왔는가”를 단계별로 적시했다. 저작권 침해를 의심하는 정황이 아니라, 의도적으로 그 길을 선택한 흔적이 소장에 그대로 들어가 있다는 뜻이다.
책 수백만을 해적 사이트에서 받아 AI 라마 학습에 썼다
소장에 따르면 메타는 LibGen(라이브러리 제네시스, 책과 학술 논문을 무단으로 공유하는 대형 해적 사이트)과 Anna’s Archive 같은 사이트에서 책과 논문을 토렌트로 내려받았다. 분량은 267테라바이트(TB), 수백만 종에 이르는 출판물에 해당한다.
문제는 다운로드만이 아니다. 소장은 메타가 저작물에 따라붙는 저작권 정보(저자명, 출판사, 라이선스 조건 같은 메타데이터)를 의도적으로 삭제했다고 주장한다. 출처를 흐리고 사용 흔적을 줄이려는 조치였다는 해석이다.
이렇게 가공된 데이터는 메타의 대규모 언어 모델 라마 학습에 들어갔다. 침해됐다고 적시된 작품 중에는 원고 중 한 명인 스콧 터로의 1987년 데뷔작 「Presumed Innocent(무죄추정)」를 비롯한 여러 베스트셀러, 그리고 다수의 학술 저널과 대학 교과서가 포함되어 있다.
저커버그의 라이선스 협상은?
이 사건의 진짜 무게중심은 메타의 내부 의사결정 기록이다. 소장에는 메타가 처음부터 해적판을 노린 게 아니라, 라이선스 협상을 시도하다 도중에 방향을 꺾은 흔적이 단계별로 정리되어 있다.
2023년 1월부터 4월까지 메타는 데이터 라이선스 예산을 본격적으로 키우는 방안을 검토하고 있었다. 기존 1,700만 달러였던 예산을 최대 2억 달러까지 늘리는 안이 논의됐고, 대형 출판사들과의 라이선스 계약이 진행 대상이었다. 메타는 2022년 아프리카 언어권 출판사 4곳과 라이선스를 맺은 적이 있고, 그 후 폭스뉴스·CNN·USA투데이 같은 매체와도 콘텐츠 계약을 체결해왔다. 라이선스를 처음 시도하는 회사가 아니었다.
방향이 꺾인 건 4월 초였다. 라이선스를 받을 것인지, 해적판을 쓸 것인지의 문제가 저커버그에게 결재로 올라갔고, 그 직후 사업개발팀에 “라이선스 협상을 중단하라”는 구두 지시가 내려갔다. 소장에 인용된 한 직원의 진술에 따르면 그 논리는 단순했다. 한 권이라도 라이선스를 받으면, 받지 않은 나머지 책에 대해서도 같은 기준을 적용해야 한다. “AI 학습은 공정 이용이다”라는 법적 입장을 끝까지 끌고 가려면, 처음부터 어디서도 라이선스를 받지 않는 편이 낫다는 판단이었다.
8개월 뒤인 2023년 12월 13일 작성된 메타 내부 메모에는 위험을 인지하면서도 진행한 정황이 더 또렷이 드러난다. 메모에는 LibGen 사용의 법적 위험이 정리되어 있었고, “우리가 해적판이라고 알고 있는 데이터셋”이라는 표현이 그대로 들어가 있었다. 거기에 “라마 학습에 LibGen 데이터셋을 사용한 사실은 공개하지 않겠다”는 문장도 함께 적혀 있었다.
AI 저작권 침해 소송 선례
작년 6월, 메타는 비슷한 소송에서 한 차례 승소했다. 작가 사라 실버맨 등이 제기한 ‘Kadrey v. Meta’ 사건에서 캘리포니아 북부지방법원의 빈센트 차브리아 판사는 AI 학습이 “원작과 다른 새로운 목적에 쓰이는 행위”이며 따라서 공정 이용에 해당한다고 판단했다.
다만 판결문에는 단서가 길게 붙었다. 이 판결은 메타의 행위가 합법이라는 뜻이 아니라, 원고들이 제대로 된 논거를 내놓지 못했다는 의미일 뿐이라는 것이다. 판사는 원고들이 “AI 학습 때문에 원작의 판매가 줄어든다”는 논거를 가져왔다면 결과가 달랐을 수 있다고 적었다.
다른 한쪽에는 합의 사례가 있다. 같은 LibGen 데이터를 학습에 썼다는 혐의로 제기된 ‘Bartz v. Anthropic’ 사건은 작년 9월 15억 달러 합의로 마무리됐다. 미국 역사상 최대 저작권 합의로, 약 50만 권에 대해 권당 약 3,000달러를 배상하는 구조였다. 합의 조건에는 다운로드한 원본 파일을 모두 파기하는 항목이 들어갔다.
앤트로픽(Anthropic)은 합의로 매듭을 지었고, 메타는 같은 출발선에서 다른 길을 택한 셈이다. 미국 저작권법은 침해 작품 한 권당 최저 750달러, 고의로 침해했다고 인정되면 최대 15만 달러의 배상을 정하고 있다. 소장이 적시한 침해 대상이 수백만 종이라는 점, 그리고 라이선스 협상을 의도적으로 중단했다는 내부 기록이 함께 다뤄지면, 배상 규모가 앤트로픽 합의금을 크게 넘어설 수 있다.
한국의 AI 저작권 영역은?
그렇다면 한국은 어떨까? 한국은 미국과 달리 AI 학습 데이터의 출처가 정당한지 직접 묻는 법조항이 아직 없다. 2026년 1월 22일 시행된 「인공지능 발전과 신뢰 기반 조성 등에 관한 기본법」(약칭 AI 기본법)의 학습용데이터 조항은 정부가 학습용 데이터의 생산과 활용을 지원해야 한다는 진흥 조항에 가깝다. 출처 정당성을 따지는 부분은 비어 있다.
그 공백을 메우려는 움직임은 다른 통로에서 진행 중이다. 문화체육관광부와 한국저작권위원회는 2026년 2월 26일 「생성형 인공지능의 저작물 학습에 대한 저작권법상 ‘공정이용’ 안내서」를 발간했다. AI 개발사가 학습 데이터를 어떻게 수집·활용해야 한국 저작권법상 공정이용에 해당하는지 판단하는 네 가지 기준을 제시했고, 구체적 사례도 함께 실었다.
아직 한국은 AI 기본법으로 큰 틀을 깔아두고, 저작권 영역의 회색지대를 안내서와 개정안으로 채워가는 단계에 있다. 미국에서 메타가 어떻게 다뤄지느냐는, 이 채워가는 작업이 어느 방향으로 굳어질지에 직접 영향을 준다. 차브리아 판사가 단서로 남긴 “원작 판매 잠식” 논거가 이번 소송에서 어떻게 다뤄지는지, 그리고 의도성이 어디까지 인정되는지가 앞으로 1년의 가장 중요한 관전 포인트다.
FAQ
미국 출판사 다섯 곳(엘스비어, 센게이지, 해셰트, 맥밀란, 맥그로힐)과 작가 스콧 터로가 집단소송을 제기했습니다. 메타가 책과 학술 논문 수백만 종을 해적 사이트에서 무단으로 내려받아 AI 모델 라마 학습에 사용했다는 혐의입니다.
소장에 따르면 메타는 LibGen(라이브러리 제네시스)과 Anna’s Archive 같은 대표적인 책·논문 해적 사이트에서 데이터를 가져왔습니다.
직접적인 법적 영향은 제한적이지만, 정책적 영향은 큽니다. 아직까지는 학습 데이터 출처를 직접 규제하는 조항이 없습니다. 다만 박수현 의원이 학습 데이터 출처 공개 의무화를 담은 AI 기본법 개정안을 발의해 둔 상태입니다.
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

