
자율주행 로봇은 주변 환경을 인식하고 다양한 작업을 처리하기 위해 여러 개의 AI 인코더를 함께 사용해 왔다. 인코더는 로봇이 카메라, 라이다(LiDAR) 등의 센서를 통해 수집한 데이터를 AI 모델이 처리할 수 있는 형태로 변환하는 장치다.
디바인은 이때 필요한 여러 인코더들을 하나로 통합한 범용 인코더로, 이미지 이해부터 공간 및 사람 인식까지 다양한 시각 AI 기능을 모두 지원할 수 있다. 기존에는 위치 추정, 깊이 계산, 공간 이해, 사람 인식 등 작업마다 각각의 AI 모델이 별도의 인코더를 활용해 동일한 입력 데이터를 여러 번 중복 처리해 왔고, 이에 메모리 사용량과 연산량이 과도하게 증가하는 문제점이 있었다.
네이버랩스 유럽은 각 전문 인코더가 학습한 정보 처리 능력의 핵심을 하나의 인코더에 통합하는 ‘다중 교사 증류(multi-teacher distillation)’ 방식을 활용해 이 문제를 해결했다. ‘다중 교사 증류’는 이미지, 공간, 사람 인식 등 각 분야에 특화된 전문가 ‘교사’ 모델들로부터 핵심적인 지식만 추출해 하나의 ‘학생’ 모델에 이식하는 방식이다.
이렇게 만들어진 학생 모델을 활용하면 여러 개의 대형 전문가 모델을 두지 않고도 다양한 분야를 두루 처리할 수 있다. 가령 디바인의 경우 2D 이미지 이해와 3D 공간 재구성, 사람 인식 등을 각각 전문으로 처리하는 여러 인코더의 기능을 하나로 응축한 것으로, 로봇에 여러 개의 서로 다른 인코더를 탑재할 필요 없이 디바인 하나만으로 다양한 AI 작업을 할 수 있다.
사람과 로봇이 공존하는 환경에서는 주변 상황을 빠르게 인식하고 즉각적으로 대응하는 것이 중요하다. 이때 디바인은 하나의 인코더로 다양한 AI 작업을 처리할 수 있게 해 제한된 컴퓨팅 자원으로도 로봇이 주변 환경을 빠르게 인식하도록 돕는다. 실제 실험 환경에서 디바인을 동작시킨 결과 연산 부담은 줄어드는 반면 성능은 극대화됐다. 여러 개의 인코더를 탑재했을 때 대비 인코더 메모리 사용량은 90%가량 절감됐으며 인코딩의 처리 속도는 최대 12배 향상된 것으로 확인됐다.
또한 로봇의 전반적인 메모리 사용량은 약 62% 줄어들고, 시스템 처리 속도는 최대 4배까지 향상됐다. 기존의 로봇용 AI모델은 방대한 연산량으로 인해 주로 서버 환경이나 고성능 컴퓨팅 장비에서 구동돼왔지만 디바인은 적은 메모리와 연산량으로도 이러한 AI 기능을 실행할 수 있어 온보드 환경에서의 활용성을 높인다.
따라서 더욱 다양한 형태의 로봇에 고성능 AI를 적용할 수 있는 기반이 될 것으로 기대된다. 즉, 비싸고 무거운 연산 장치를 갖춘 대형 하드웨어가 없어도 ‘빠르고 똑똑한 뇌’인 디바인을 장착하면 스스로 상황을 파악해 다양한 작업을 수행하는 자율주행 AI 로봇을 얼마든지 운용할 수 있는 것이다. 새로운 AI 기능 또한 쉽게 추가할 수 있도록 설계돼 AI 모델이 업그레이드될 때마다 해당 모델이 적용된 새로운 로봇을 도입하지 않더라도 기존 로봇에 탑재된 디바인을 업데이트하면 성능을 손쉽게 끌어올릴 수 있다.
네이버랩스 비전그룹 이동환 리더는 “전세계적으로 피지컬 AI의 상용화를 위해 로봇 두뇌 경량화가 주요 화두로 떠오르고 있다”며 “디바인은 일상 및 산업 현장 전반에 걸쳐 AI 로봇 도입 장벽을 낮추는 데 기여할 것”이라고 말했다.




