코로나19 능동감시부터 콜센터까지…음성인식 AI 주목해야 하는 이유

입력 2020-12-30 11:13

  • 작게보기

  • 기본크기

  • 크게보기

#. “안녕하세요 성남시 보건소입니다. 코로나19 관련해서 증상 어떠신지 확인하려고 전화드렸어요. 통화 가능하신가요?”

- 예.

“혹시 지금 발열 증상이 있으세요?”

- 없어요.

“기침이나 호흡곤란 증상이 있으세요?”

- 없어요.

“이동하실 때는 마스크 꼭 착용하시고 손 소독 잘해주시고요. 혹시라도 추가적인 이상 있으시면 바로 보건소로 연락 부탁드리겠습니다.”

AI와 코로나19 능동감시자의 대화다. 경기 성남시는 3월 네이버와 협약을 맺고 ‘인공지능(AI) 케어콜 상담 서비스’를 제공했다. 네이버의 AI 시스템인 ‘클로바’에서 능동감시자에게 하루에 두 번 전화를 걸어 코로나19 증상을 확인하는 서비스다. AI 상담 결과는 보건소 담당 직원에게 이메일로 전달되고 기록된다.

네이버는 ‘클로바 AI콜’뿐 아니라 다양한 음성인식 AI를 시도하고 있다. ‘클로바 보이스’를 활용하면 40분 가량의 음성 데이터를 활용해 만들어진 AI 상담원이 고객 응대를 할 수 있다. 이외에도 사람의 음성을 텍스트로 96.9% 정확하게 변환하는 ‘클로바 스피치’ 등이 있다. 클로바 스피치를 활용하면 음성 인식 전자 의무 기록 시스템을 통해 환자의 의료 관련 정보를 입력할 수도, 차량 내 음성 인식을 통해 조작을 도울 수도 있다.

▲국내 인공지능 시장 전망이다. 음성인식 AI에 해당하는 ‘자연어 처리’의 연평균 성장률은 37.3%로 전망된다. (사진=한국신용정보원 ‘AI 기술 · 시장 동향: 핵심기술, 시장규모, 사업리스크 중심으로’ 보고서 발췌)

음성인식 AI 시장에 관심이 쏠리는 이유는 무엇일까. 업계는 ‘생산성’을 꼽았다. 한국신용정보원이 22일 발간한 ‘AI 기술‧시장 동향: 핵심기술, 시장규모, 사업리스크 중심으로’ 보고서에 따르면 세계 인공지능 시장규모 중 ‘자연어처리’(음성인식 AI) 분야의 연평균 성장률은 37.3%에 달한다. 현재 89.5억 달러 규모로, 2021년 122.9억 달러, 2022년 168.8억 달러에 달하는 시장이 될 것으로 전망된다.

업무 효율을 증진할 수 있다는 점도 강점이다. 음성인식 AI가 결합된 제품의 경우 터치나 텍스트 입력이 필요 없어 멀티태스킹이 가능하다. 운전이나 쇼핑, 요리 중 전자기기 화면을 조작할 필요 없이 음성으로 즉각 필요한 기능을 활용할 수 있다.

2016년 설립된 음성인식 AI 기업 아틀라스랩스도 업무 효율 향상에 초점을 맞춘 사례다. 콜센터 상담원과 고객이 통화 시 실시간으로 오디오가 텍스트로 변환된다. 업무상 녹음한 회의 내용도 텍스트로 손쉽게 변환할 수 있어 일일이 확인해야 하는 번거로움을 덜었다. 아틀라스랩스가 자체 개발한 STT(Speech To Text) 엔진과 음성인식 AI 기술 ‘제로스(ZEROTH EE)’는 현재 포스코ICT, 오뚜기, 예스24 등에 전문 솔루션으로 채택돼 활용 중이다.

아틀라스랩스 관계자는 “주로 부동산, 금융 서비스, 건설, 교육, 치료 등 고부가가치 서비스나 사람 간의 신뢰가 필요한 비즈니스의 경우 대화가 중요한 역할을 한다”며 “기존에는 B2B 중심의 사업이 많이 진행됐다면, AI 기술을 큰 기업이 아닌 일반인들도 활용해 편리함과 생산성을 누릴 수 있도록 돕고자 한다”라고 전했다.

▲아틀라스랩스의 음성인식 AI 서비스 ‘스위치’의 이용 화면이다. 실시간 대화가 텍스트로 변환돼 업무 내용을 확인할 수 있다. (사진제공=아틀라스랩스)

한편 ‘인식률’ 제고가 음성인식 AI 시장의 과제로 남겨졌다. 인식률은 음성인식 AI가 사람의 음성을 얼마나 정확하게 변환하는지를 나타내는 비율이다.

네이버의 클로바 스피치는 인식률이 96.9%에 달하지만 이는 조용한 환경에서 근거리 스마트폰을 활용했을 때 나온 수치다. 아틀라스랩스의 제로스 또한 정확히 발음하는 앵커 음성의 인식률은 97%에 달하지만, 배경 노이즈와 부정확한 발음이 포함된 음성의 경우 인식률이 확연히 떨어진다.

아틀라스랩스 관계자는 “현재 음성인식 기술의 최대 화두는 다화자(multi-speaker)가 참여하는 대화를 실시간으로 인식하는 것이다. 두 명 이상의 화자가 한 오디오 채널에 섞여 있다면 실시간 음성 인식률이 떨어진다”라며 “오디오 수집 환경에서의 전처리부터 다양한 조건들을 고려하며 필요한 연구 개발을 진행 중”이라고 전했다.

  • 좋아요0
  • 화나요0
  • 슬퍼요0
  • 추가취재 원해요0
주요뉴스
댓글
0 / 300
e스튜디오
많이 본 뉴스
뉴스발전소