최정현 특허법인 펜타스 파트너 변리사
생성형 AI 개발 및 대중화가 가속화되면서, AI 대규모 언어 모델(LLM)의 학습 데이터셋에 대한 저작권 침해 논란이 이어지고 있다. 이는 LLM이 저작권 보유된 자료(이하 저작물)를 학습함으로 인해, 생성형 AI 결과물이 기존 저작물의 저작권을 침해할 수 있다는 것이다. 생성형 AI가 발전하기 위해서는 양질의 학습데이터를 이용한 학습이 필수적이므로, 저작권 이슈는 생성형 AI와 직결된 논쟁적 현안이라 할 것이다.
이와 관련하여, 2023년 12월 27일 미국 뉴욕타임스는 미국 주요 언론사 중 최초로, 오픈AI와 마이크로소프트(MS)를 상대로 저작권 침해소송을 제기하였다. 뉴욕타임스는 피고 회사들의 AI 기술이 챗GPT등을 훈련하기 위해 수백만 건의 뉴욕타임스 기사를 불법 복제했다고 주장하였다.
뉴욕타임스는 저작물 불법 복제 및 사용과 관련하여 피고들에게 수십억 달러의 손해에 대한 책임 및 저작물을 사용하는 AI 챗봇 모델과 훈련 데이터를 삭제할 것을 요구하였다.
이에 대해, 오픈AI는 자사의 블로그를 통해, “공개적으로 이용할 수 있는 인터넷 자료를 사용해 AI 모델을 학습시키는 것은 오랫동안 널리 쓰인 판례로 뒷받침되는 공정 이용”이라고 항변하였다.
공정이용은 저작권자의 허가를 구하지 않고서 저작물의 제한적 이용을 허용하는 법적 개념이다. AI 업계는 인터넷상에서 구할 수 있는 출판물은 공정이용 법리에 따라 AI 훈련에 사용할 수 있다고 보고 있다.
그러나, 뉴욕타임스 대리 법무팀은 “오픈AI와 MS는 허가나 대가 지불 없이 대체품을 만들기 위해 저널리즘을 위한 신문사의 투자에서 이익을 취하고 있기 때문에 어떤 기준으로도 공정 이용이 아니다”라고 반박하였다. 향후, 뉴욕타임스의 소송을 통해, 대규모 데이터셋 학습에 기반한 생성형 AI 기술들의 저작권 침해 여부에 대한 법적 윤곽이 드러날 것으로 보인다.
우리나라에서도, 사단법인 한국인터넷신문협회가 2024년 1월 11일 ‘AI 시대 뉴스 저작권 보호 및 인터넷 뉴스 생태계 발전을 위한 의견서’를 통해, 인터넷 뉴스의 저작권이 보호될 수 있는 환경 조성을 촉구하고, AI 테크기업과 뉴스 이용자의 이익을 균형있게 조화시켜 AI 환경에서 인터넷 신문들이 유익한 기사 생산에 매진할 수 있도록 하는 법적·제도적 지원을 요청한 바 있다. 향후 국내외적으로 초거대 AI와 저작권의 보호 및 이용이 조화를 이룰 수 있는 정책, 규범 및 법리가 정립되어가기를 기대해본다.
최정현 특허법인 펜타스 파트너 변리사