시작부터 순탄치 않았다. 가명정보 처리 테스트베드 이용 신청을 위해 개인정보보호위원회의 홈페이지에 접속했다. 테스트베드 신청 페이지가 언뜻 눈에 들어오지 않았다. 화면을 맨 밑으로 내리자 ‘개인정보 보호 포털’이라는 메뉴가 나왔고, ‘지원 마당-데이터 안전활용-가명정보 기술지원허브-테스트베드’라는 여러 단계를 거쳐 이용 신청서를 작성할 수 있었다.
이투데이는 지난 5일 송파구 소재 개인정보위의 가명처리 테스트베드에 직접 방문했다. 개인정보위는 가명처리 테스트베드를 운영, 실제로 가명정보가 어떻게 처리되는지 체험해볼 수 있도록 지원하겠다고 수차례 밝혀온 바 있다. 해당 테스트베드는 지난해 11월 운영을 시작했다. 가명정보의 범위와 활용 방법에 대해 잘 알지 못하는 기업ㆍ기관들이 테스트베드를 통해 얼마나 도움을 받고 있을지 살펴봤다.
최근 문을 연 시설답게 매우 깔끔했다. 5개 LAB실에서 최대 20명이 이용할 수 있다. 보안이 최우선순위로 꼽히는 시설인 만큼 담당자의 인솔 없이 이동이 불가능했다. 임시로 발급받은 ID와 비밀번호를 입력, 데이터를 가명정보로 변환할 수 있는 프로그램에 접속했다.
실제 테스트베드는 초보적 수준에 그쳤다. 개인정보위는 테스트베드에서 의료ㆍ통신ㆍ금융 3종의 샘플 데이터를 활용할 수 있다 수차례 전해왔다. 프로그램에서 데이터를 불러오자 해당 데이터들을 열람할 수 있었다. 각 분야별로 약 1만7000개의 데이터셋이 마련돼 있었다.
해당 데이터셋은 모두 재현 데이터였다. 재현 데이터는 실제 데이터가 아닌 만들어낸 가상의 데이터다. 데이터 작성 당시부터 테스트베드에 활용될 용도로 만들어지기 때문에 특수한 케이스나 가명정보 처리 시 고려해야 할 까다로운 부분들은 대부분 사라져 있었다.
이에 대해 개인정보위 관계자는 “재현데이터의 한계는 다들 알고 있다. 그냥 한번 해보는 차원”이라며 “테스트베드의 기능 자체가 실습”이라고 설명했다.
의료 데이터를 선택하니 가상의 이름, 나이, 개인 전화번호, 주소, 질병 등이 기록된 데이터가 펼쳐졌다. ‘박소은’이라는 데이터를 ‘박*은’이라고 가명정보 처리하기 위해 매우 번거로운 절차를 거쳐야 했다. ‘이름’ 항목을 선택하고, ‘왼쪽에서 두 번째 글자’라고 별표화할 위치를 설정해야 했다. 이름이 4글자인 특수 경우는 인식하지 못해 따로 수정해야 할 것처럼 보였다.
테스트베드에서 재현 데이터가 아닌 기업·기관이 보유하고 있는 데이터를 가져와 분석할 수 없는지 물었다. 실제 데이터보다 재현 데이터가 지나치게 정형화된 것처럼 보여서다.
개인정보위 관계자는 “실제 데이터를 만지려면 개인정보 침해 영향평가를 해야 한다. 이런 보완장치를 해야 해 지금 당장은 어렵다”라며 “빠르면 3분기부터 가져올 수 있도록 하려 한다”라고 말했다.
테스트베드에서 비정형 데이터를 아예 다룰 수 없는 점 또한 한계로 비쳤다. 의료·통신·금융 데이터처럼 수치로 정리된 데이터가 아닌 음성이나 텍스트, 영상 등을 가명정보 처리하는 기능은 전혀 제공하고 있지 않았다.
업계 관계자는 “비정형 데이터의 경우 전 세계적으로 가명정보 처리할 수 있는 기술 자체가 아직 개발되지 않은 상황”이라고 설명했다.
가명정보 처리를 끝낸 이후도 애매했다. 가명정보 처리 가이드라인에서는 처리한 가명정보가 특정 개인을 알아볼 수 있는지 판단 후 결합전문기관에 반출을 요청하라고 명시하고 있다. 테스트베드는 결합전문기관과 연계가 일절 없다. 생성한 가명정보가 어느 정도로 적절한지, 반출 가능성이 높은지 따져볼 기회가 없는 셈이다.
이투데이가 방문한 가명처리 테스트베드에서는 주어진 정형 데이터의 일부를 가리는 기능 외에 추가적인 내용을 다뤄볼 수 없었다.