내용 |
최근 Microsoft社는 음성인식 기술력을 접목시켜 음성인식에 대한 정확도를 향상시킬 수 있다는 주장이 제기되어 관련 내용을 살펴보고자 한다. Microsoft社의 기술전문가인 Xuedong Huang씨에 의하면, 음성인식 정확도와 관련한 최신 테스트 결과, 휴먼 패러티 수치가 종전의 5.9퍼센트에서 5.1퍼센트로 개선되는 오류율을 기록한 것으로 나타났다고 한다. 여기서 일컫는 휴먼패러티는 기기가 인간의 음성을 인지하여 판독할 때 발생하는 에러비율을 의미하는 것으로 볼 수 있는데, 대게 사람과 사람과 사이의 대화에서 발생하는 오류율이 4퍼센트인 점을 감안해볼 때, 기기가 인간의 음성을 인지하는 정확도가 매우 높은 수준으로 개선되었다 볼 수 있다. 상기 결과는 표준형 교환기테스트를 기반으로 실시된 사안이며, 테스트 중인 기기를 활용해 기기에서 발생하는 대화에 얼마만큼의 혼란이 발생하는지를 기준으로 측정되었다고 한다. 특히 음향모델링 방식을 개선하기 위해 쌍방향 장단기 메모리와 결합된 나선형 신경망 네트워크인 CNN-BLSTM 모델을 추가로 도입하였으며, 다중 음향모델의 예측을 결합하기 위해 프레임과 단어수준 모두를 활용한 것으로 나타났다. 상기 시스템은 주제와 문맥의 이해도를 개선하기 위해 차후 어떠한 말을 진행할지 보다 잘 예측할 수 있도록 개개인의 이전 대화들에 대한 언어모델을 보다 잘 이해할 수 있도록 조율된 상황이라고 한다. 물론 시끄러운 환경적 소음이나 멀리 떨어진 마이크로폰, 이상한 억양 등 보다 근본적으로 언어습관이나 언어에 따라 제한된 시험용 데이터가 부족하여 추후 정확도를 높이기 위한 보다 많은 테스트가 진행되어야 할 것으로 예상되고 있다. 추가적으로 컴퓨터가 사람이 말한 단어를 해석할 수 있을 뿐 아니라 그 의미를 이해하고 문맥화시킬 수 있는지 여부가 중요한 이슈로서 컴퓨터가 인간의 단어를 보다 잘 이해하는 법을 배워야 하는 추가적인 연구과제가 남아있는 상황이라고 한다. 이에 음성인지에서 음성이해로 전환하는 기술이 음성인식기술의 다음 과제가 될 것으로 보인다. |