[헤럴드경제= 정태일 기자]지난해 출시된 아이폰4S의 시리(siri)에 이어 갤럭시S3ㆍ베가레이서2 등 최근 공개된 신작 스마트폰 모두 주요기능으로 음성인식을 채택하면서 목소리로 스마트폰을 작동시키는 기능이 하나의 트렌드로 굳어지고 있다.
하지만 사용자의 언어를 모두 이해하거나 사람마다 다른 발음 상의 차이를 인식하기까지는 상당 시일이 걸릴 것으로 보인다. 손으로 터치하듯 말로 정교하게 사용하는 이른바 ‘말하는대로 폰’이 되기에 현재 음성인식 수준은 아직 초기 단계란 평가다.
8일 업계에 따르면 삼성전자, 팬택이 채택한 음성인식 기능은 모두 별도의 서버를 구축하고 서버에서 사용자의 음성을 받아들여 해당 단말기로 명령하는 방식이다. 이 서버는 각 제조사들이 별도로 관리한다. 음성인식 소프트웨어를 제공받는 곳은 블링고로 모두 동일하다.
서버를 운영하다보니 음성으로 스마트폰을 조작하기 위해서는 네트워크망이 필수다. 따라서 네트워크망이 불안전한 경우 음성을 제대로 인식하기 힘들다. 또 단말기가 음성을 직접 수신하는 형태가 아니라 서버를 한 번 거쳐 들어오다보니 주변 소리에 영향을 받을 수도 있다.
반면 LG전자의 옵티머스LTE2는 자체 개발한 소프트웨어를 탑재해 단말기가 직접 음성을 인식하지만 이는 사진촬영에만 사용된다는 제한이 있다.
이와 달리 갤럭시S3의 S보이스는 통화, 알람, 사진 촬영, 음악감상 등 음성인식 기능 용도가 다양하다. 베가레이서2의 스마트보이스 또한 메시지, 인터넷검색, SNS, 전화, 애플리케이션 작동 등 많은 부분을 음성으로 통제할 수 있다.
하지만 이 기능들은 미리 지정된 특정 키워드나 어휘 중심으로 작동해 같은 의미지만 전혀 다른 표현으로 명령을 내릴 경우 인식이 안 될 수 있다. 팬택 관계자는 “서버에 기 구축된 단어 중심으로 설정이 되있어 이를 벗어나는 표현까지 잡아내진 못할 것”이라며 “대신 사람마다 메세지, 메시지 등 발음이 다 다른데 이 차이를 좁혀 인식률을 높이도록 설계됐다”고 설명했다.
결국 사용자가 음성인식 스마트폰을 많이 구매해서 이 기능을 자주 사용해야 인식률이 올라가는 것이다. 삼성전자 관계자도 “초기 출시됐을 때보다 사용자들이 사용하는 빈도가 늘며 서버에 많은 데이터가 축적돼야 정확도가 상승한다”고 말했다.
이에 따라 인식 가능한 어휘를 늘리는 것은 발음 문제를 해결한 다음에야 가능할 것으로 보인다. 삼성전자 관계자는 “새로운 어휘를 추가하는 것은 블링고와 협의해서 기기를 업그레이드할 때 새로운 단어를 생성하는 방식으로 접근할 수 있다“고 말했다.
killpass@heraldcorp.com