인공지능의 관건은 데이터다. 질 좋은 데이터를 더 많이 학습시킬수록 AI의 성능을 고도화해 정확한 입력값을 도출할 수 있다. 학습한 빅데이터를 기반으로 추론해 새로운 콘텐츠를 만드는 생성형 AI는 특히 데이터세트 관리가 중요하다.
그러나 국내 AI 업계는 학습용 데이터를 확보하기 어렵다고 토로한다. 가장 큰 문제는 한국어 데이터의 양이 절대적으로 부족하다는 점이다. AI업계 관계자 A씨는 “기본적으로 인터넷상 정보를 학습하는데, 영어 데이터를 학습시키는 오픈AI나 구글에 비해 한글 데이터는 적다”고 토로했다.
장병탁 서울대학교 AI 연구원장도 지난달 28일 ‘코리아 인더스트리얼 AI 공동포럼’에서 “AI는 데이터로 학습하기 때문에 (데이터가) 중요하다”며 “촉각·후각·미각, 광도·온도·습도, 압력·힘·속도 등 제조업에 필요한 물리적인 데이터가 부족하다”고 했다.
학습 데이터를 구매하기 위한 비용 부담도 만만치 않다. AI업계 관계자 B씨는 “신생 기업은 보유한 데이터가 없어 학습용 데이터를 다른 곳에서 사와야 한다”며 “데이터는 다 돈이다”라고 했다. 업계 관계자 C씨도 “공공데이터는 무료로 얻을 수 있지만 이걸로는 부족하다”고 했다.
과학기술정보통신부와 한국데이터산업진흥원이 지난달 30일 발표한 ‘2023년 데이터산업 현황조사’에 따르면, 사업체가 데이터를 거래할 때 애로사항 중 ‘구매 데이터의 가격 부담’이 39.4%로 가장 높았다. 그다음으로 ‘쓸만한 양질의 데이터 부족’이 31.3%, ‘데이터 소재파악 및 검색의 어려움’이 29.3%로 집계됐다.
업계에서는 정부가 국내 AI 산업 부흥을 위해 학습용 공공 데이터를 적극 지원해야 한다는 의견이 제기됐다. 공공 데이터는 저작권에 저촉되지 않으면서 접근하기 쉬운 정제된 데이터이기 때문이다. 업계 관계자 A씨는 “특히 뉴스 저작권 문제가 대두하면서 데이터 확보하기가 까다로워지고 있다”며 “양질의 공공데이터를 정부가 더 적극적으로 개방해주면 데이터 확보가 수월해질 것”이라고 말했다.
과기정통부는 ‘공공데이터의 제공 및 이용 활성화에 관한 법률’에 따라 공공 데이터를 개방해 민간 기업에서 활용하도록 하고 있다. 공공데이터는 공공기관이 직무상 전자적으로 처리·작성·취득해 관리하는 문자·음성·영상 등 모든 종류의 데이터다. 과기정통부는 교육·국토관리·공공행정·산업고용 등 카테고리를 구분해 제공하고 있다. 다만, 공공 데이터 일부가 ‘아래아한글’ 문서파일로 제공돼 생성형 AI가 이를 데이터화하지 못한다는 한계도 여전히 있다.