신철호 | OGQ 대표, 연세대학교 정치외교학과 겸임교수

AI 발전을 위한 인프라 중에서도 데이터 인프라가 가장 해결하기 어려운 난제이자 핵심이다. 전기는 발전소를 지으면 되고, GPU도 구매하면 되지만, 데이터는 수많은 저작물과 저작권자가 얽혀 있어 개별적으로 협상하고 가격을 조율하는 방식으로는 민간 기업 단독으로 해결할 수 없는 구조적 한계가 있기 때문이다.
글로벌 AI 기업들이 직면한 데이터 확보 문제는 천문학적인 비용과 예측 불가능한 법적 리스크를 동시에 초래하고 있다. 미국의 앤트로픽(Anthropic)은 책 데이터를 확보하기 위해 1조 5000억 원 규모의 계약을 최근 체결했다. 이는 데이터가 얼마나 고비용 자원인지를 상징적으로 보여준다. 심각한 것은 소송 리스크이다. 앤트로픽은 수백만 권의 불법 복제 도서를 다운로드했다는 혐의로 고소당했고, 재판 결과에 따라 최대 1조 달러(약 1460조 원)에 달할 수 있는 손해배상 부담을 안게 될 가능성 때문에 합의에 과도한 압박을 받았다고 토로했다. 결국 앤트로픽은 합의를 위해 15억 달러(약 2조 842억 원)를 지급하기로 했으며 이는 도서 약 50만 권을 대상으로 책당 3000달러(약 417만 원)를 지급하는 형태였다. 이처럼 AI 학습용 데이터는 단순한 기업 리스크 관리를 넘어 AI산업의 흥망을 결정짓는 고위험 자원이 되었음을 방증한다.
다른 글로벌 기업들 역시 마찬가지이다. 마이크로소프트는 논픽션 도서 학습을 위해 저자에게 책당 2500달러 수준을 제안했고, 구글은 레딧과 연간 수천만 달러 규모의 데이터 계약을 체결했다. 데이터 중개업체는 이미지 한 장당 1~2달러, 텍스트는 단어당 0.001달러 수준으로 책정해 판매하는 등 데이터 자체가 새로운 자원 시장으로 재편되고 있다.
이러한 상황에서 가장 큰 문제는 법적·제도적 불확실성이다. 미국 저작권법의 ‘공정이용(fair use)’ 조항이 변형적 이용을 허용하지만 그 경계가 모호하여, 기업들은 위험을 감수한 채 데이터를 사용하고 나중에 합의금이나 벌금으로 정리하는 구조가 형성되고 있다. 이는 규정을 준수하는 기업이 비용 부담 때문에 불리해지는 시장 왜곡을 낳고, 창작자가 막대한 부가가치에도 불구하고 아무런 보상을 받지 못하는 윤리적 문제를 야기하며 사회적 신뢰를 해친다.
한국이 이러한 국제적 혼란 속에서 경쟁력을 확보하기 위해서는 데이터 인프라를 국가 공공자원으로 전환하는 과감한 전략이 필요하다. GPU나 전력처럼 자본으로 해결되지 않는 데이터 문제를 국가가 체계적으로 관리해야 한다.
첫째, 현재 행정 지원 기구에 머물러 있는 한국저작권위원회를 데이터인공지능청으로 격상시켜야 한다. 이는 사실상 ‘데이터 관리의 한국은행’ 같은 역할을 수행하도록 진화하는 것을 목표로 한다. 데이터인공지능청은 저작권 등록과 현행 UCI 코드 발급을 국가 단일 체계로 통합하여, UCI 기반의 ‘권리 메타데이터’를 단일화함으로써 데이터 라이선스 비용과 시간을 대폭 절감할 수 있다. 또한, AI 서비스 기업의 데이터 이용 및 수익 배분을 감시·감독하는 감사 기능을 강화하고, 고의 위반 시 과징금 부과 및 데이터 접근 중지 명령을 내릴 수 있는 권한을 신설해야 한다. UCI+ 체계는 권리자 ID, 허용 용도, 가격 밴드, 정산 지갑 등 상세한 권리 정보를 포함하여 국경 간 이전 및 만료 관리를 가능하게 하며, AI 기업이 이용 범위를 선택하면 자동 견적 및 계약서가 생성되는 원스톱 라이선스 포털을 통해 학습데이터 유통, 감사, 정산까지 한 곳에서 보증하는 국가 단일 허브 역할을 수행할 수 있다.
둘째, AI 기업이 막대한 학습 비용을 개별 협상으로 감당하는 현재의 비효율적 구조를 해결하기 위해 저작권보험심사평가원을 설립해야 한다. 평가원은 창작물(이모티콘, 사진, 일러스트레이션, 작품이미지, 동영상, 웹툰, 웹소설, 문학, 논픽션, 뉴스, 학술, 프로그램코드, AI에이전트 등)을 카테고리별로 평가하여 공정한 기준가를 책정해야 한다. 이 기준가는 창작물의 시장가치, 희소성, 최신성, 품질지표(정제/라벨링), 민감도 등의 가중치를 반영한 산식으로 결정할 수 있다. 국가가 보험적 성격의 기금을 마련하여 학습용 데이터 구매 가격을 저작권자에게 보험금처럼 선지급함으로써, 창작자에게 공적 기금 보장을 제공하고, 기업은 단일 창구에서 합법적으로 대량 학습권을 구매할 수 있는 이중 안전망을 구축한다. 나아가, 평가원을 통해 합법적으로 확보된 한국산 ‘보증데이터 팩(익명화·정제·권리보증)’은 해외 AI 기업에 수출되어, 국가 재원을 환수하고 권리자에게 추가 로열티를 제공하는 국부 창출 효과를 낳게 할 수 있다. 재원은 정부 출연, 업계 분담금, 과징금 전입, 그리고 데이터 수출 수익으로 마련된다.
셋째, 생성 AI가 도출한 결과물(답변, 이미지, 영상,악보, 음악 생성 등)이 어떤 원저작물에 기반했는지를 추적하여 자동적으로 수익을 배분하는 법적 체계를 마련해야 한다. 이는 저작권자에게 자신의 작품이 AI 학습·생성 과정에서 얼마만큼의 수익을 내는지 실시간으로 확인할 수 있는 투명성을 제공한다. 마치 유튜브의 콘텐츠 ID 시스템처럼, AI가 답변이나 창작물을 도출할 때 원저작물이 인용·참조되면 자동적으로 수익이 배분되는 KContent ID for AI와 같은 구조를 목표로 해야 한다. ‘AI 생성물 투명성·정산법’을 통해 상용 AI 서비스는 ①출처 표시(가능 범위), ②사용량 및 영향도 기록, ③월 단위 로열티 정산을 의무화해야 한다. 기술적으로는 직접 인용 수준의 ‘결정론적 매칭’과 임베딩 유사도 같은 ‘확률적 기여 추정’을 결합한 2계층 어트리뷰션(Attribution) 기술을 활용할 수 있다. 저작권청 정산국은 로열티 라우터(Royalty Router)를 통해 서비스 수익에 각 출처의 기여 가중치를 곱한 분배액을 계산하고, 월말 클리어링을 통해 권리자의 지갑으로 자동 지급되도록 하여, 공정하고 투명한 정산 구조를 확립할 수 있다.
데이터는 더 이상 무형의 부산물이 아니다. 이는 새로운 전기이자 석유이며, 국가 경제의 기초 자원이다. GPU나 통신망은 자본으로도 살 수 있지만, 데이터는 국가가 체계적으로 관리하고 보호하지 않으면 결국 사라지거나 해외 자본에 종속될 수밖에 없다. 한국이 데이터인공지능청 승격, 저작권보험심사평가원 설립, 실시간 수익 배분 체계 법제화라는 3단계를 선제적으로 구축한다면, 한국은 창작자의 권리를 보장하면서도 합법적이고 지속 가능한 데이터 인프라를 확보한 최초의 국가로 자리매김할 수 있다. 데이터를 새로운 국부로 직시할 때, 비로소 대한민국은 미래 AI 경쟁에서 단순한 소비국이 아닌, 진정한 인프라 강국으로 도약할 수 있다.
신철호
OGQ 대표. 연세대학교 정치외교학과 겸임교수. AI, 데이터, 플랫폼 등 분야에서 활동하고 있다.











