과기정통부, KT 유·무선 네트워크 장애 원인분석 결과 발표
전국적으로 발생한 KT의 유·무선 네트워크 장애 사고의 원인이 라우팅(네트워크 경로 설정) 설정 시 명령어 하나를 누락한 결과라는 조사 결과가 나왔다. 이렇게 발생한 오류가 KT 내부 네트워크를 타고 전국으로 퍼지면서 ‘먹통’ 사태가 발생했단 설명이다.
과학기술정보통신부(과기정통부)는 조사 결과를 바탕으로 향후 네트워크 안정성 확보를 위한 대책을 마련할 방침이다.
과기정통부는 KT 유·무선 네트워크 장애사고와 관련해 사고조사반과 함께 사고 원인을 조사·분석한 결과를 29일 발표했다. 조사반은 정보보호, 네트워크 전문가로 구성됐다.
지난 25일 오전 11시 16분경부터 약 89분간 KT 유·무선 네트워크에 오류가 발생했다. 이에 따라 전화와 인터넷 등 통신망 일체가 ‘먹통’이 되면서 많은 시민이 불편을 겪었고, 이어 오후 12시 45분경 KT의 복구조치가 마무리됐다.
KT는 이같은 사고 원인에 대해 ‘라우팅’ 오류라고 설명한 바 있다. 전날 구현모 KT 대표는 “망 고도화 작업을 위해 새로운 장비를 설치했고 그 장비에 맞는 라우팅 정보를 입력하는 작업이 있었다”며 “부산에서 야간에 해야 하는 작업을 주간에 해 문제가 생겼다”고 언급했다.
이와 관련해 과기정통부는 한 개 라우터의 경로를 잘못 업데이트해 전국 라우터에 연쇄적인 오류가 발생한 것으로 파악했다고 밝혔다. 1만 개 수준의 정보를 주고받는 내부 라우터 경로를 잘못 설정해 수십만 개 수준의 경로정보가 전송되며 오류가 발생했고, 이어 내부망에서 이런 오류를 빠르게 전달하면서 전국적인 장애가 발생했단 것이다.
이 과정에서 발생한 관리적·기술적 문제점도 드러났다. 당초 야간에 진행하려던 기업망 장비 작업을 주간에 수행한 데다, 작업 관리자 없이 KT 협력업체 직원들만 라우팅 작업을 수행하는 등 작업관리체계가 부실했단 지적이다. 또한 기술 부분에서는 사전검증 과정에서 설정 오류를 파악하지 못했고, 네트워크를 연결한 채 작업을 진행하면서 가상 테스트배드 없이 작업을 진행해 오류가 전국적으로 퍼지는 것도 막지 못했다.
조경식 과기정통부 제2차관은 “관리소홀로 발생한 인터넷 장애가 전국으로 확산했다”며 “이번 네트워크 장애를 엄중히 인식하고 유사 사례가 재발하지 않도록 방지책을 마련하고 통신 장애 모니터링 체계를 강화하겠다”고 말했다.
과기정통부에 따르면 인터넷 서비스를 제공할 때 PC, 스마트폰 등 개인 접속단말을국내외 네트워크와 정상적으로 연결하기 위해 필요한 것이 바로 라우터다. 라우터는 네트워크 경로정보를 구성하기 위해 최신 경로정보를 라우터끼리 교환하는 ‘프로토콜’을 사용한다.
KT는 내부와 외부 네트워크 경로를 구성하는 경우와 내부간 경로를 구성하는 경우의 프로토콜을 각각 다르게 쓰고 있다. 각각 교환해야 하는 경로정보의 총량이 다르기 때문이다. 내부와 외부를 연결하는 경우 BGP 프로토콜을 사용해 수십만 개 수준의 경로정보를 교환한다. 반면 내부 네트워크 경로를 구성할 때는 IS-IS 프로토콜을 이용한다. 내부 라우터간 경로 정보를 주고받기 때문에 1만 개 이하의 경로정보만이 IS-IS 프로토콜을 통해 교환된다.
과기정통부는 사고 라우터를 확인한 결과, 라우팅 설정 명령어 입력을 마무리하는 부분에서 ‘exit’ 명령어가 누락된 것으로 확인됐다고 설명했다. 이에 따라 BGP 프로토콜에서 교환해야 했던 수십만 개의 정보가 IS-IS 프로토콜로 전송됐다. 이에 따라 라우팅 경로에 오류가 발생했고, 이 오류가 KT 네트워크를 타고 연쇄적으로 퍼지면서 전국적인 장애가 발생하게 됐단 것이다.
과기정통부는 “KT 네트워크 안에 있는 라우터를 연결하는 IS-IS 프로토콜이 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있다”며 “결국 한 개 라우터의 잘못된 라우팅 경로 업데이터가 전국 라우터에 연쇄적으로 일어나며 장애가 전국적으로 확대된 것”이라고 지적했다.
다만 IPTV 서비스망 및 음성전화・문자 서비스망의 경우 인터넷 서비스망과 별도로 구성돼 있다고 설명했다. 이 경우 인터넷 서비스 장애로 인해 전화와 문자 이용이 늘고, 단말 전원을 다시 켜면서 트래픽이 늘어나 부하가 가중됐을 것으로 추정한다고 덧붙였다.
과기정통부와 조사반은 당초 KT가 사고 원인으로 지목한 디도스(DDos·서비스 분산) 공격 여부를 조사한 결과 “확인되지 않았다”고도 했다. KT는 사고 발생 직후 “KT 네트워크에 대규모 디도스 공격으로 (장애가) 발생했다”고 밝힌 바 있다.
통상 디도스 공격이 발생하면 도메인 주소를 IP 주소로 변환하는 DNS 서버에 트래픽이 몰린다. 1개 IP가 다량 또는 비정상 도메인을 DNS 서버에 질의하는 시스템 자원 공격과 대량의 네트워크 패킷을 DNS 서버에 전송해 서비스 대역폭을 채우는 네트워크 대역폭 공격의 두 가지 유형이 나타나기 때문이다. 25일에는 KT의 중앙 1차 DNS에 평시 대비 22배 이상, 2차 DNS에 4배 이상의 트래픽 증가가 나타났다.
하지만 과기정통부는 “당시 개별 IP의 DNS 질의는 최대 15개 이내 수준으로 다량의 도메인 질의가 없었고, 존재하지 않는 비정상적인 도메인에 대한 반복적인 질의도 없어 시스템 자원 디도스 공격은 없었다”며 “네트워크 대역폭 공격의 경우도 대역폭 대비 충분히 수용가능한 수준으로 네트워크 대역폭 공격은 아닌 것으로 판단된다”고 설명했다.
이용자 피해보상과 관련한 방안도 마련한다. 먼저 KT는 이용자 피해현황 조사 및 피해구제 방안을 만들기로 했다. 구 대표가 전날 “기존 보상 관련 약관이 마련된 지 오래됐고, (이전과 달리) 데이터 통신에 (고도로) 의존하는 현재 그 부분이 개선돼야 한다고 본다”고 언급한 데다 이날 긴급 이사회도 진행한 만큼, 기존 약관을 넘어서는 보상안을 마련할 것이란 예측이 나온다.
또한 방송통신위원회(방통위)는 이용자 피해구제 방안 이행여부를 점검할 예정이다. 통신장애 발생시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안도 마련한다.
아울러 과기정통부는 이번 조사 결과를 바탕으로 ‘네트워크 안정성 확보방안’을 마련해 주요 통신사업자 네트워크의 생존성과 기술적·구조적인 대책을 세운다.
먼저 단기 대책으로는 △주요통신사업자의 네트워크 작업체계, 기술적 오류확산 방지체계 등 네트워크 관리체계 점검 △주요통신사업자가 네트워크 작업으로 인한 오류여부를 사전에 진단할 수 있는 시뮬레이션 시스템 도입 △주요통신사업자가 승인된 작업계획서의 내용 및 절차가 준수되는지에 대해 네트워크관제센터에서 기술적 점검 체계 구축 △주요통신사업자 라우팅 작업 시 업데이트하는 경로정보 개수 일정 수준으로 제한 등을 검토한다.
중장기 대책으로는 △주요통신사업자의 통신장애 대응 모니터링 체계 강화 △네트워크 안정성과 복원력을 높이는 기술개발 △안정적인 망 구조 등 네트워크의 생존성 확보를 위한 구조적 대책 마련 등을 담는다.