UPDATED. 2018-12-10 15:26 (월)
[포춘US]아마존·애플·구글의 음성인식 기술 경쟁
[포춘US]아마존·애플·구글의 음성인식 기술 경쟁
  • Brian Dumaine 기자
  • 승인 2018.12.04 10:30
  • 댓글 0
이 기사를 공유합니다

아마존과 애플, 구글이 ‘음성 인식(Voice Recognition)’을 인터넷과의 주요 의사소통 방식으로 만들기 위해 수십 억 달러를 투자하고 있다. 음성 인식은 스티브 잡스가 아이폰을 출시한 이후 최대 IT 혁신기술이 될 전망이다. By Brian Dumaine

4년 전만 해도 아마존은 단지 성공한 온라인 소매업체이자 기업용 온라인 웹호스팅 시장의 강자였다. 그 외에 전자책 단말기 킨들 Kindle을 포함한 소비재 전자기기들도 판매했다(차세대 서점이라는 선구적 역할을 한 킨들은 다소 무모했지만 충분히 칭찬할 만한 제품으로 성장했다). 그리고 요즘엔 스마트 스피커 에코 Echo와 음성 인식 AI 알렉사 Alexa가 널리 보급되면서, 스티브 잡스가 아이폰을 선보인 이후 개인 컴퓨터와 커뮤니케이션 부문에서 가장 큰 혁신을 일으키고 있다.

처음에는 모든 것이 매우 신기해 보였다. 2014년 11월, 아마존은 고도의 기술을 접목한 음성 스피커 에코를 시장에 선보였다(AI를 탑재한 이 스피커는 인간으로부터 질문을 받으면, 인터넷과 연결된 데이터베이스에서 수 백만 단어를 검색해 심오한 답에서부터 평범한 답까지 제공한다). 현재까지 대략 4,700만대의 에코를 팔았다. 아마존은 동유럽의 알바니아부터 아프리카 잠비아까지 전 세계 80개국 소비자들의 질문에 답하고 있다. 하루 평균 1억 3,000만 개 질문을 처리하고 있다. 이집트 알렉산드리아 Alexandria의 고대 도서관 이름에서 따온 알렉사는 음악 신청을 받고, 날씨 정보와 스포츠 경기 결과도 알려준다. 사용자의 집안 온도를 원격으로 조정할 수도 있다. 농담도 하면서 시시콜콜한 질문에 답하고, 평범한 (심지어 유치한) 장난도 칠 수 있다(굳이 해야만 한다면, 알렉사에게 방귀를 뀌라고 해보라).

그러나 아마존이 음성 인식 기술을 개발한 건 아니었다. 이 기술은 이미 수십 년 동안 존재해왔다. 게다가 아마존은 음성 인식을 적용한 제품을 대중에게 소개한 최초의 IT 대기업도 아니었다. 애플 시리 Siri와 구글 어시스턴트 Assisant가 알렉사보다 몇 년 더 일찍 시장에 나왔다. 마이크로소프트의 코타나 Cortana도 비슷한 시기에 출시됐다. 하지만 에코의 대중적 성공에 힘입어 아마존은 스마트 홈 기기를 잠재적으로 PC나 심지어 스마트폰 만큼이나 중요한 제품 반열에 올려 놓았다. 그에 따라 ’스마트‘ 홈 기기 시장을 차지하기 위한 치열한 경쟁이 촉발되었다. 구글의 검색 알고리즘이 정보 소비를 혁신하고 광고 산업을 뒤흔든 것처럼, AI 중심의 음성 기술이 비슷한 변화를 기약하고 있다. 알렉사의 수석 개발자 로힛 프라사드 Rohit Prasad는 “우리는 고객의 불편함을 해소하려 했다”며 “가장 자연스러운 수단이 음성이었다. 그것은 단순히 수 많은 검색 결과 가운데 ’하나를 선택‘하는 검색엔진이 아니다. 대신 당신에게 정답을 말해준다”고 설명했다.

AI와 새로운 음성 기반 사용자 경험의 결합은 큰 효과를 내고 있다. 그래서 크리스마스 시즌 때 ’최고의 인기 제품‘ 자리를 두고 벌이는 단순한 싸움보다 더 큰 경쟁이 펼쳐지고 있다(물론 크리스마스 시즌을 겨냥한 경쟁의 측면도 있다). 구글과 애플, 페이스북, 마이크로소프트, 그리고 다른 기업들 모두 경쟁 제품 개발에 돈을 쏟아 붓고 있다. 실제로, 벤처 캐피털 업체 루프 벤처스 Loup Ventures의 진 먼스터 Gene Munster는 “거대 IT기업들이 연간 R&D 예산 가운데 10%에 해당되는 총 50억 달러 이상을 음성 인식 기술에 쓰고 있다”고 추정했다. 그는 음성 기술의 도래를 “엄청난 변화”라고 말했다. 그리고 키보드나 스마트폰 대신 음성 명령이 “우리가 인터넷과 소통하는 가장 일반적인 방식”으로 빠르게 전환할 것이라 예상했다. 

큰 이권이 걸려있기 때문에 경쟁이 치열한 건 당연한 일이다. 리서치업체 캐널리스 Canalys에 따르면, 아마존의 ‘커넥티드’ 스피커는 전 세계 시장의 42%를 점유하며 초반 선두를 달리고 있다. 에코와 비슷한 구글 어시스턴트가 탑재된 구글 홈 기기들은 34%를 차지하고 있다. 최근에는 아마존의 판매량을 앞서고 있다. 다소 비싼 후발주자 애플 홈팟 Homepod은 1, 2위와 큰 격차를 보이며 3위에 머물러 있다. 그 밖에도 페이스북은 지난 10월 포털Portal이라는 오디오ㆍ비디오 제품군을 선보였다. 시장점유율이 높은 다른 경쟁사 제품들에 비해 포털은 일부 기능만 수행한다. 하지만 알렉사가 탑재된 건 주목할 만하다. 

커넥티드 스피커 및 유사 기기들의 시장은 상당한 규모를 보이며 계속 성장 중이다(그러나 거대 IT기업들 입장에선 이 하드웨어 기기들은 음성 관련 시장에서 반드시 가장 매력적인 기회는 아니다). 시장조사업체 글로벌 마켓 인사이트 Global Market Insights는 2017년 기준 글로벌 스마트 스피커 매출을 45억 달러로 추산하고 있다. 이 규모가 2024년에는 300억 달러까지 성장할 것으로 전망되고 있다.

그러나 대체로 하드웨어 매출은 주요 관심사가 아니다. 예를 들어 아마존은 에코를 원가나 그 이하 가격에 팔고 있다. 지난 할인 행사기간에는 보급형 에코닷 Echo Dot을 29달러에 판매했다. ABI리서치는 이 가격이 부품값에도 못 미치는 것으로 보고 있다. 그 대신, 각 주요 기업은 고객들을 자사의 다른 제품과 서비스에 묶어 둔다는 더 큰 전략적 목표를 갖고 있다. 예컨대 아마존은 에코 제품군을 이용해 아마존 프라임 AmazonPrime 구독 서비스/*역주: 연회비를 내면 아마존닷컴 쇼핑 시 무료 배송 등 혜택을 주는 멤버십 제도/의 가치를 높이려 하고 있다. 구글은 음성 검색을 통해 이미 대규모인 데이터를 더 확충, 궁극적으로 광고 사업을 신장시키려 하고 있다. 애플은 시리를 이용해 스마트폰과 컴퓨터, TV리모콘 그리고 자동차 회사들의 제어 시스템(Onboard System)에 설치되는 소프트웨어를 하나로 통합할 방법을 모색하고 있다.

현재 단행되고 있는 모든 투자와 빠른 속도로 전개되는 혁신을 고려하면, 승자를 예측하는 건 아직 시기상조다. 하지만 관련 산업이 하나의 개념으로 수렴하는 것만큼은 분명하다: 최근 AI의 발전으로 음성 기술이 미래의 사용자 인터페이스(UI)가 되고 있다는 것이다. 그리고 그 기술은 초보자와 전문가를 갈라 놓았던 산업에 (간극을 메우는) 공정한 영향을 미칠 것으로 보인다. 구글 어시스턴트와 서치 Google Assistant and Search의 제품과 디자인을 총괄하는 닉 폭스 Nick Fox 구글 부사장은 “음성 기술은 모든 종류의 일을 가능하게 한다”며 “컴맹들도 시스템을 이용할 수 있고, 운전하는 사람들도 도움을 받을 수 있다. 요리를 하면서 조리법을 들을 수도 있다. 기술 분야에선 가끔씩 구조적인 변화가 일어나는데, 우리는 음성 인식이 그 중 하나라고 생각한다”고 설명했다. 

그럼에도 음성 인식은 여전히 걸음마 수준에 머물러 있다. 음성 연구자들이 기대하는 방향에 비해 응용 기술은 초보 단계이다. 그리고 음성과 연관된 매우 불안한 요소도 있다. IT 기업들이 고객의 소리를 얼마나 많이 엿듣고 있는지에 대한 합당한 우려가 그것이다. 수집하는 대화 정보 데이터로 그들이 얼마나 많은 영향력을 축적하고 있는지도 걱정스럽다. 워싱턴대학 전기공학과 교수 겸 언어 기술 분야의 세계적 석학인 마리 오스텐도르프 Mari Ostendorf는 “AI 음성 인식 덕분에 우리는 ‘복엽기(Biplane) 시대’에서 ‘제트기(Jet Plane) 시대’로 진화할 수 있었다”고 설명했다. 그녀는 컴퓨터는 간단한 질문에 답을 잘하지만, 여전히 실제 대화는 상대적으로 형편없다고 지적하기도 했다. “AI는 많은 단어와 명령어를 식별하고 이해할 수 있다. 이런 측면에서 거대 IT기업들의 성과는 정말 인상적이다. 하지만 우리는 아직 로켓(Rocket) 시대에 진입하지 못했다.”

음성 인식은 수십 년 동안 차세대 ‘킬러 앱 Killer App’/*역주: 등장하자마자 다른 경쟁 제품을 몰아내고 시장을 완전히 재편할 정도로 인기를 누리는 상품이나 서비스/의 지위를 누려왔다. 우선 벨 연구소는 1950년대에 음성 인식 컴퓨터인 오드리 Audrey 시스템을 만들었다. 이 컴퓨터는 1부터 9까지의 숫자를 음성으로 인식할 수 있었다. 1990년대에는 PC 사용자들이 드래곤 내추럴리스피킹 DragonNaturallySpeaking이라는 프로그램을 설치했다. 이 프로그램은 간단한 대화를 처리할 수 있었기 때문에, 말하는 사람이 한 단어를 말한 후 어설프게 멈출 필요가 없었다. 하지만 2010년 애플이 시리를 탑재한 아이폰을 출시하고 나서야, 소비자들은 거대한 연산 능력을 가진 음성 인식 엔진이 무엇을 할 수 있는지를 실감할 수 있었다. 그리고 비슷한 시기에 TV 드라마 스타 트렉 Star Trek 마니아들로 가득한 (그리고 진정한 스타 트렉 팬 제프 베이조스가 이끄는) 아마존이 스타십 엔터프라이즈 Startship Enterprise에 승선한 ‘말하는 컴퓨터’를 복제하는 꿈을 꾸기 시작했다. 대화형 AI와 그 밖의 다른 주제들에 대해 100편 이상의 과학적 글을 발표한 아마존의 프라사드는 “우리는 어떤 서비스도 음성으로 상호 작용할 수 있는 미래를 상상했다”고 말했다. 그리고 그 결과물이 알렉사였다(소비자와 아마존의 의사 소통을 더욱 쉽게 하기 위해 만든 다기능 제품이다).

음성 인식 기술이 향상되면서-더 빠르고 저렴한 컴퓨터가 널리 보급된 덕분이다-아마존과 구글, 애플 등은 통합 네트워크를 더욱 쉽게 구축할 수 있게 됐다. 음성이 스마트 홈 기기와 다른 시스템을 연결한 것이다. 예를 들어 애플의 카플레이 CarPlay 사용자들이 운전을 해서 집에 간다고 가정해보자. 시리에게 음성으로 ‘왕좌의 게임(Game ofThrones)’ 가장 최근 에피소드를 애플 TV에 “다음 차례로 준비”하라고 말한다. 그리고 홈팟에 “우리가 도착하면 그 에피소드를 틀어달라”고 명령한다. 2년 전 구글은 자사의 음악 콘텐츠와 유튜브 그리고 최신 픽셀 폰 및 태블릿을 하나로 묶은 음성 인식 시스템 홈 Home을 출시했다. 다시 말해 모든 거대 IT기업들은 음성을 현재 만들고 있는 수많은 디지털 제품들의 연결 수단으로 보고 있다. 

엄청난 수익성을 앞세워 충분한 R&D 투자금을 마련한 기업들은 차별화한 제품을 선보이고 있다. 예컨대 애플과 구글은 시장을 지배하는 모바일 OS인 iOS와 안드로이드를 각각 소유하고 있다. 시리와 구글 어시스턴트가 거의 모든 신규 스마트폰에 선탑재 되고 있다는 의미다. 반면 아마존은 소비자들이 알렉사 앱을 아이폰이나 안드로이드 폰에 별도로 설치한 후 사용하도록 해야 한다. 루프의 먼스터는 “알렉사 음성 앱 사용에 추가 설치 과정이 필요하다는 점에서, 아마존은 분명 불리한 상황”이라고 말했다. 반면 시리와 구글 어시스턴트를 작동하려면 그들의 이름을 부르기만 하면 된다(먼스터는 월가 애널리스트 시절 컴퓨터 회사들을 담당했다).

그렇긴 해도 iOS와 안드로이드는 모든 제3자 개발자들에게 공개되어 있다. 아마존도 그들 중 하나다. iOS와 안드로이드 플랫폼 개발자들이 알렉사 프로그램을 개발하는 걸 막을 방법이 없다는 의미다. 베이조스는 올해 초 실적 발표 자리에서 “150개 이상의 나라에서 수만 명의 개발자들이 알렉사 앱을 만들어 비 아마존 기기들과 통합하고 있다”고 자랑했다. 실제로 음성 앱 개발을 위한 합종연횡이 치열하게 벌어지고 있다. 알렉사는 소노스 Sonos ‘사운드바’, 자브라 Jabra 헤드폰, 그리고 BMW, 포드, 도요타 자동차에 탑재돼 있다. 구글은 오디오 장비 제조업체 소니와 뱅&올룹슨 Bang & Olufsen, 오거스트 August 스마트 자물쇠, 그리고 필립스 LED 조명 시스템들과의 연동을 뽐내고 있다. 그리고 구글은 자사의 홈팟을 퍼스트 얼러트 First Alert의 보안 시스템과 허니웰 Honeywell의 스마트 온도조절 장치와 연동하는 파트너십도 맺고 있다. 구글의 폭스는 “이 파트너십의 백미는 음성이 모든 스마트기기 생태계와 연동될 수 있다는 것이다. 이젠 스마트폰을 열어 앱을 찾을 필요가 없다. 그냥 스마트폰에 대고 ‘정문에 누가 있는지 보여줘’라고 말하기만 하면 된다. 그러면 화면이 바로 뜬다. 간단히 결합만 하면 된다”고 설명했다. 

AI는 오랫동안, 특히 ’터미네이터‘와 ’매트릭스‘ 같은 영화에 나오는 반이상형적 대중문화의 주인공이었다(사악한 AI 기계들이 봉기를 해 인류에 위협을 가한다). 다행히 우리는 아직 그 정도는 아니다. 하지만 진화하는 AI와 저렴하게 이용할 수 있는 컴퓨터 덕분에, 먼 미래의 음성 인식 제품들이 현실화하고 있다. 초창기 프로그래머들이 만든 음성 인식 제품들의 수준은 높지 않았다. 하지만 지금은 꾸준히 개선되고 있다. 인터넷을 통해 데이터 센터들과 연결되어 있기 때문이다. 이 복잡한 수학적 모델(음성 인식 제품)들은 회사가 수년간 수집해온 엄청난 양의 데이터를 샅샅이 파헤치며 다른 대화 패턴을 인지하는 방법을 습득하고 있다. 그들은 어휘와 지역적 억양, 구어적 표현, 그리고 대화 문맥도 인지할 수 있다. 예컨대 고객들과 이야기를 나누는 콜센터 직원들의 대화 녹음이나 다른 디지털 제품과의 상호 작용을 분석함으로써 이 같은 능력이 가능해진 것이다.

음성 인식 시스템은 컴퓨터 과학만큼이나 물리학에도 의존한다. 음성은 공기 중에 진동을 만든다. 음성 엔진은 말이 퍼질 때 그 진동을 감지해 디지털 형태로 전환한다. 컴퓨터는 (말의) 의미를 이해하기 위해 디지털 데이터를 분석한다. AI가 그 과정의 속도를 높인다. 우선 고객이 선택한 “알렉사” 같은 ‘호출어(Wake Word)’를 감지한다. 그리고 그 단어를 자신에게 사용한 것인지 파악한다. 이어 수백 만 명의 다른 고객들이 이전에 말했던 내용을 학습한 머신 러닝을 활용해 해당 발언의 정확한 의미를 상당 부분 파악해낸다. 구글 어시스턴트의 엔지니어링 부문 부사장 요한 샬쿠이크 Johan Schalkwyk는 “음성 인식 시스템은 우선 소리를 인지한다. 그리고 그 단어들의 문맥을 파악한다”며 “만약 내가 ‘날씨가 어때···’라고 말하면, AI는 그 다음에 나올 단어가 ‘나라’ 혹은 ‘도시’라는 것을 미리 알고 있다. 우리 데이터베이스에는 500만 개의 영어 단어가 저장돼 있다. 문맥을 모르는 상태에서 이 가운데 한 단어를 찾아내는 것은 매우 어려운 일이다. 만약 AI가 도시에 대한 (날씨) 질문이라는 것을 알게 되면, 3만 개 가운데 하나만 찾으면 된다. 정답을 맞히기가 훨씬 더 쉬워진다”고 설명했다. 

컴퓨터의 발전으로 음성 인식 시스템은 많은 학습 기회를 갖게 됐다. 실제로 알렉사에게 “마이크로웨이브를 켜줘”라고 명령하려면, 음성 엔진은 우선 그 명령어를 이해할 필요가 있다. 그것은 남부의 강한 억양(’마-크루웨이브‘)이나 아이들의 고음, 외국인 억양 등을 판독할 줄 알아야 한다는 것을 의미한다. 동시에 라디오에서 나오는 노래가사 같은 ’배경 소음‘을 걸러낼 수도 있어야 한다. 그리고 사람들이 마이크로웨이브를 사용하기 위해 물어보는 많은 질문들을 이해해야 한다: “음식을 다시 데워줘”, “마이크로웨이브를 켜줘,” “음식을 2분 동안 돌려줘.” 알렉사와 다른 음성 스피커들은 이런 질문들을 데이터베이스에 있는 비슷한 명령어와 일치시킨다. 그렇게 함으로써, 특정 사용자가 향후에도 “음식을 다시 데워줘”라고 말할 가능성이 높다는 것을 학습하게 된다.

음성 인식 기술이 각광 받는 이유는 인간의 명령어를 실행으로 옮기는데 매우 능숙해지고 있기 때문이다. 구글의 샬쿠이크는 “우리 음성 엔진의 정확도는 2013년 80%에서 최근 95%까지(인간이 대충 들었을 때의 정확도와 비슷하다) 상승했다”고 말했다. 최근 이 분야의 대단한 성과 중 하나는 음성 엔진에게 가장 예민한, 인간의 귀를 방해하는 비언어적 배경 소음을 걸러내도록 가르친 것이다. 하지만 “미션 임파서블‘은 몇 시에 상영되지?”처럼 간단한 질문을 받을 때나 그 정도 수준에 도달한다. 구글 어시스턴트나 알렉사에게 의견을 물어보거나, 난이도 높은 질의응답식 대화를 나눠보라. 그러면 미리 입력된 농담을 얘기하거나, “음, 그건 모르겠어요”라고 간단히 말한다.

소비자 입장에서 음성 스피커는 유용하고 가끔 재미있는 ’비서‘와 같다. 음성 스피커를 만들어 데이터센터의 컴퓨터와 연결하는 거대 IT기업들에게, 그들은 작지만 매우 효율적인 데이터 수집처가 된다. 미 시장조사업체 컨슈머 인텔리전스 리서치 파트너스 Consumer Intelligence Research Partners에 따르면, 아마존 에코와 구글 홈 사용자의 대략 60%는 온도 조절 장치, 보안 시스템 혹은 가전 제품 같은 가정 기기들 중 최소 한 개를 음성 스피커와 연결하고 있다. 음성 인식 스피커는 사용자의 일상 생활에 관한 사실을 끝없이 기록할 수 있다. 아마존과 구글, 애플이 더 많은 데이터를 수집할수록, 고객에게 더 좋은 서비스를 제공할 수 있다. 추가 기기, 구독 모델 서비스, 다른 소매업자들을 위한 대행 광고 서비스 그 어떤 것이든 활용이 다양하다. 

사업적 기회는 명확하다. 에코를 온도 조절 장치와 연결한 소비자는 스마트 조명 시스템을 구매하라는 광고 제안을 기꺼이 수용할 수 있다. 개인정보 옹호자에겐 오싹하게 들릴 수 있겠지만, 거대 IT기업들은 개인 정보라는 ’노다지‘ 위에 앉아있는 셈이다. 그 정보를 활용해 소비자에게 더욱 더 효율적인 마케팅을 펼칠 수 있다.

전반적인 사업 전략이 그렇듯, 거대 IT기업들은 수집한 데이터에 대해 각각 차별화된 접근방식을 취하고 있다. 아마존은 알렉사로 수집한 데이터를 이용해 더욱 스마트하고 유용한 소프트웨어를 고객에게 제공하고 있다. 이 회사는 알렉사 성능이 더 많이 좋아질수록, 더 많은 고객들이 자사 상품과 서비스(프라임 멤버십 프로그램 포함)의 가치를 알게 될 것이라 주장한다. 비록 아마존이 광고사업을 강화하고 있지만, 회사 대변인은 지금까진 회사가 알렉사 데이터를 광고 판매 목적으로 이용하지 않고 있다고 말했다(시장조사업체 이마케터 eMarketer는 아마존이 올해 46억 1,000만 달러의 온라인 광고 매출을 올릴 것이라 추정하고 있다). 구글 또한 거대한 광고 사업 규모를 고려하면 쉽게 수긍할 수 없지만, 음성 인식을 광고 사업 기회로 보고 있지 않다(아직은 그렇다). 개인 정보를 사업적 이익에 이용하지 않겠다고 장담하는 애플도 단지 사용자 경험을 향상시키고 비싼 홈팟 판매를 늘리기 위한 수단으로 음성 인식에 접근하고 있다고 주장하고 있다. 

AI 스피커를 통한 쇼핑은 아마존이 초기에 내세운 장점 중 하나였지만, 사용자들은 음성 스피커에게 쇼핑을 도와달라고 말하지 않는다. 회사 또한 얼마나 많은 에코 사용자들이 기기를 이용해 쇼핑하고 있는지 밝히지 않고 있다. 하지만 컨설팅기업 코덱스그룹 Codex Group이 최근 도서 구입자들을 대상으로 실시한 조사에 따르면, 음성 스피커를 통한 쇼핑은 여전히 걸음마 단계다. 조사 결과 ‘단지 8%만이 도서 구입에 에코를 이용한 반면, 13%는 오디오북 청취에 사용했다’고 밝혔다. IT전문 조사업체 캐널리스의 빈센트 틸케 Vincent Thielke는 “사람은 습관의 동물”이라며 “커피잔을 사려고 알아볼 때, 스마트 스피커에게 원하는 제품을 정확히 묘사하는 건 어려운 일”이라고 지적했다.

아마존은 에코를 ’쇼핑 도우미‘로 고집하지 않는다고 주장했다. 에코가 프라임 구독 멤버십을 통해 다른 서비스들과 연동돼 있다는 것을 고려하면, 더욱 그렇다고 설명했다. 하지만 고객 집에 설치된 아마존에 최적화된 컴퓨터(음성 인식 기기)들이 회사 소매 사업을 신장시킬 것이라는 희망을 갖고 있다. 아마존의 프라사드는 “쇼핑을 위해 필요한 건 당신의 구매 이력”이라며 “만약 당신이 AA사이즈 건전지를 사려 한다면, 건전지를 볼 필요도, 어떤 것인지 기억할 필요도 없을 것이다. 만약 전에 건전지를 구매한 적이 없다면, 물론 우리는 아마존 브랜드를 제안할 것”이라고 말했다.

(음성 인식 스피커를 활용한) 쇼핑의 성장 잠재력은 엄청나다. 단순히 대체 건전지를 판매하는 것 이상이다. 많은 소매업자들이 거대 IT기업들과 연관된 플랫폼과 협업하거나 그것을 활용하길 원하기 때문이다. 조사업체 OC&C의 전략 컨설턴트는 에코와 구글 홈, 그리고 다른 기기에서 나오는 음성 쇼핑 매출이 현재 20억 달러에서 2022년엔 400억 달러까지 증가할 것으로 예상하고 있다. 음성 스피커의 중요한 진화가 그 기대감을 충족시키는데 일조할 전망이다. 현재 아마존과 구글은 스크린이 달린 스마트 홈 기기를 제공하고 있다. 소형 컴퓨터와 TV세트를 합쳐 놓은 것처럼 보이기 때문에, 온라인 쇼핑은 더욱 편리해질 것이다. 2017년 봄, 아마존은 에코 쇼 Echo Show라는 제품을 230달러에 판매했다. 다른 에코 기기처럼, 에코 쇼에도 알렉사가 탑재돼 있다. 하지만 사용자들은 이 기기를 통해 이미지를 볼 수 있다. 자신들이 주문한 제품까지 확인할 수 있다. 그뿐만이 아니다. 쇼핑 목록, TV 프로, 노래 가사, 보안 카메라 화면, 그리고 몬타나에서 보낸 휴가 사진 같은 모든 것들을 어떤 버튼도 누르지 않고, 혹은 컴퓨터 마우스를 움직이지 않고도 볼 수 있다. 

한편 구글은 4개 가전 제조업체들과 파트너십을 체결했다. 그 중 일부 기업은 최근 구글 어시스턴트가 탑재된 스마트 스크린을 판매하기 시작했다. 예컨대 레노보 스마트 디스플레이 Lenovo Smart Display는 페이스북의 새로운 포털과 매우 흡사한 모양을 하고 있다. 소매 판매가는 JBL의 링크 뷰 Link View와 같은 250달러다. LG도 씽큐 뷰 ThinkQView를 출시할 계획이다. 구글 또한 10월부터 7인치 스크린이 달린 홈 허브 Home Hub를 149달러에 자체적으로 판매하기 시작했다. 

장기적으로 구글은 스크린 기기가 음성 쇼핑을 더욱 용이하게 만들 것이라 확신하고 있다. 이 검색 기업은 이마존처럼 제품을 직접 판매하지는 않는다. 하지만 구글 쇼핑 Google Shopping 사이트가 소매업체들을 구글 검색 엔진과 연결하고 있다. 이 회사는 이미 구글 홈 기기를 쇼핑 도구로 키우고 있다. 일례로 스타벅스와 파트너십을 체결했다. 사용자는 구글 어시스턴트에게 ’내가 주로 먹는 커피‘를 주문할 수 있다. 주문을 하면 스타벅스 매장에 도착할 때 원하는 커피가 준비돼 있을 것이다. 구글은 지난해 세계 최대 소매업체 월마트와의 파트너십도 강화했다. 쇼핑객들은 기존 월마트 온라인 계좌를 구글의 쇼핑 사이트와 연결할 수 있다. 구글 홈에 간단한 질문을 하면, 좋아하는 운동화 재고가 있는지 확인할 수 있다. 평면 TV의 당일 수령을 예약하거나 가장 가까운 월마트 매장을 찾을 수도 있다.

영상 인식(Vision Recognition) 기술-음성 인식의 AI 형제 격으로, 대중 속에서 범죄자 얼굴을 파악하는데 오랫동안 사용돼왔다-의 등장으로, 스마트 기기 쇼핑은 훨씬 더 편리해질 것이다. 아마존은 지난 9월 스냅챗 Snapchat과 함께 한 가지 앱을 테스트하고 있다고 발표했다. 고객이 스냅챗 카메라로 제품이나 바코드를 찍으면, 단말기 화면에서 아마존 상품 페이지를 볼 수 있게 만드는 것이다. 그 다음 단계는 상상하기 어렵지 않다: 에코 쇼에 내장된 카메라로 원하는 제품 사진을 찍으면, 화면에서 같거나 비슷한 제품을 볼 수 있다. 제품 가격과 평점, 그리고 프라임 멤버십이 제공하는 이틀 내 무료 배송 가능 여부 등도 함께 확인할 수 있다.

이 같은 기술이 흥미롭긴 하지만, 기술 애호가가 아닌 사람들이 기계와의 대화에 익숙해지기까진 다소 시간이 걸릴 수 있다. 현재 거대 IT기업들이 절대적인 신뢰를 받지 못하고 있기 때문이다. 음성 기기가 불법적인 의도로 소비자들의 말을 엿듣지 않는다는 점을 고객에게 납득시킬 필요가 있다. 스마트 스피커는 “알렉사”, “헤이, 구글” 같은 ’호출어‘를 들을 때만 ’듣기 모드(Listen Mode)‘로 전환된다. 지난 5월 아마존은 포트랜드에 거주하는 어느 임원이 아내와 마루에 관해 나눈 대화 내용을 그의 직원 한 명에게 전송한 바 있다. 회사는 이 ’엄청난 사건‘에 대해 공개 사과했다. 그리고 그 대화를 잘못 해석해 비롯된 일이라고 해명했다. 

말로 하는 명령은 글로 쓰는 명령보다 오류 가능성이 훨씬 더 크다. 이런 점은 전혀 생각지 못한 구매로 이어질 수도 있다. 지난해 댈러스에 사는 한 6세 소녀가 알렉사에게 쿠키와 인형집에 대해 말한 적이 있었다. 그 며칠 후, 4파운드 정도의 쿠키와 170달러짜리 인형집이 그 아이 집으로 배달됐다. 아마존 관계자는 “알렉사는 ‘부모에 의한 접근 금지(Parental Controls)’ 기능을 갖고 있다. 만약 사용했더라면, 불상사를 방지할 수 있었을 것”이라고 말했다.

그럼에도 음성 기술은 더 널리 채택될 가능성이 높다. 음성으로 연결되는 세상의 편리함이 더욱 커지고 있기 때문이다. 이미 1억 대 이상의 음성 인식 스피커들이 곳곳에서 듣기 모드로 작동되고 있다. 음성이 인간과 기계의 지배적인 의사소통 방식이 되는 건 이제 시간 문제다. 다만, 화장실 소리와 웃으며 지르는 비명까지 들릴 수 있다는 점은 감수해야 한다.

*이 글의 필자 브라이언 두메인은 스크리브너 출판사가 출간할 아마존 관련 신간의 저자이다. 



▲음성 인식의 미래

알렉사에게 “래퍼 드레이크 Drake의 ‘인 마이 필링 In My Feeling’을 틀어줘” 같은 쉬운 질문을 해보라. 그러면 알렉사는 거의 항상 제대로 이해한다. 이번에는 미 중간선거에 관한 심도 있는 대화를 시도해보라. 아마도 알렉사의 말문이 막힐 가능성이 높다. AI 과학자들은 음성 인식의 궁극적인 목표가 오랫동안 의미 있는 대화를 가질 정도로 충분히 스마트한 기계를 만드는 것이라 강조하고 있다. 컴퓨터 대화 능력이 개선될수록, 그들은 똑똑한 비서 역할을 더 잘 해낼 것이다.

매년 아마존은 대학 프로그램 팀에게 100만 달러 상금을 걸고 있다. 혼동하지 않거나 주제를 벗어나지 않은 채 인간과 20분간 대화를 지속할 수 있는 소프트웨어를 만드는 팀에게 이 상금을 준다. 그 상금 전액을 받은 팀은 아직 없다. 하지만 지난해 워싱턴 대학팀이 거의 받을 뻔 했다. 그들이 개발한 소프트웨어가 평균 10분 동안 대화를 지속해 50만 달러 상금을 거머쥐었다. 그 팀을 지도한 마리 오스텐도르프 워싱턴대 교수는 “가장 어려운 과제는 누군가 갑자기 한 사람의 행동에 대한 이유와 방식을 물을 때, 막히지 않고 대답을 내놓는 것이다. 그럴 경우 기계는 너무 많은 선택지 사이에서 고민하게 된다”고 설명했다.

상황이 그럼에도 음성 기술은 점점 더 똑똑해지고 있다. 존슨홉킨스대학 컴퓨터·전기 공학과 교수 나짐 데학 Najim Dehak은 음성 인식을 활용해 성난 고객을 식별하고 있다. 그는 자신의 음성 소프트웨어에 한 기업 콜센터에서 받은 2,000건의 부정적인 고객 대화와 2,000건의 긍정적인 고객 대화를 각각 저장했다. 기계가 그 대화 속 주요 단어들(비속어는 부정성의 결정적인 증거다)에 초점을 맞춰 어떤 전화가 화난 고객으로부터 걸려온 것인지 파악할 수 있게 하기 위해서였다. 데학은 “콜센터 매니저들이 부정적인 전화 녹음을 듣고, 직원이 실수를 했는지 혹은 추가 교육이 필요한지를 파악하는 게 목적”이었다고 설명했다. 이 소프트웨어는 현재 테스트 단계에 있다. 하지만 데학은 “1년 내에 상용화가 이뤄질 것”이라고 설명했다. 

번역 박정호 Parky1998@naver.com


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.