UPDATED. 2020-11-26 13:03 (목)
[포춘US]인공지능이 멍청해 보이는 이유
[포춘US]인공지능이 멍청해 보이는 이유
  • JONATHAN VANIAN 기자
  • 승인 2020.11.02 14:45
  • 댓글 0
이 기사를 공유합니다

WHAT MAKES ARTIFICIAL INTELLIGENCE LOOK DUMB

인공지능의 신경망은 사진을 식별하는데 탁월하다. 하지만 대상이 단어라면, 이야기가 달라진다. 쉽게 말해, 초지능 소프트웨어인 인공지능이 기초적인 비즈니스 도구인 스프레드시트 사용에 서툴다는 뜻이다. 따라서 만약 컴퓨터에 ‘읽는 방법’을 가르칠 수만 있다면, 수익성 높은 비즈니스 기회가 열릴 것이다. By JONATHAN VANIAN

컴퓨터용 스프레드시트를 사용한 지 거의 50년이 됐다. 원래 부기를 디지털화하기 위해 개발된 이 스마트 소프트웨어 덕분에, 연구원들과 기업가들은 상이한 데이터를 열과 행에 무제한적으로 입력할 수 있다. 그런 다음, 컴퓨터의 도움을 받아 입력한 정보를 분석할 수 있다. 재무 전문가들이 예산을 다루듯, 학생들이 무료 스프레드시트 프로그램을 다루는 모습은 오늘날 일상이 됐다.

스프레드시트가 할 수 없는 일이 있다. 바로 ‘생각하는 능력’이다. 다행스럽게도 더 새롭고 강력해진 신경망이 이제는 그런 능력까지 갖춰가고 있다. 이 복잡한 인공지능 프로그램은 인간 두뇌의 계산 과정을 그대로 모방하도록 고안됐다. 최근 몇 년 동안 인공지능이 발전하는 과정을 살펴보면, 세계적인 인공지능 전문가들이 사진 식별 능력에 몰두해 있는 점을 알 수 있다. 반면 스프레드시트의 행과 열에 입력한 문자와 숫자 같은 소위 구조화된 데이터(Structured Data)는 인공지능의 응용 분야로써 뒷전으로 밀려나 있었다. 좀 더 쉽게 표현하면, 슈퍼 컴퓨터가 수백만 장의 고양이 사진을 학습해 이 동물의 미세한 특징을 파악하는 식으로 ‘사진’에 집중하고 있다는 것이다. 인공지능이 스프레드시트에 입력된 평범한 ‘단어’조차도 이해하는데 애를 먹는 이유다.

상황이 이렇게 돌아가자, 의학 연구와 금융, 그리고 경영에 종사하는 데이터 과학자들은 큰 좌절감을 느끼고 있다. 이들 분야에서 구조화된 데이터는 법정 화폐(Coin of the Realm)처럼 필수적으로 사용되고 있기 때문이다. 연구원들은 “구조화된 데이터가 점점 더 중요해지고 있다. 따라서 그 데이터를 이해하는 능력도 개선돼야 하는 문제가 발생하고 있다”고 지적한다. 금융회사 캐피털 원 Capital One의 응용 머신러닝 연구원 바얀 브루스 Bayan Bruss는 "우리가 다루는 대부분의 데이터는 구조화되어 있다. 혹은 그 데이터를 어느 정도 구조화하는 추세"라며, "딥 러닝이 진화하고 있지만 우리가 보유한 데이터양은 더 증가하고 있다. 인공지능이 데이터양을 따라잡지 못하면서, 이 둘 사이에 격차가 벌어지고 있다. 우리가 하는 대부분의 일은 그 격차를 줄이도록 노력하는 것"이라고 설명한다

일부 기업들이 그 격차를 해소하기 위해 새로운 프로젝트에 시동을 걸고 있다. 일례로 생명공학 분야의 강자 제넨텍 Genentech의 데이터 과학자들은 최근 몇 달간 암환자 5만 5,000명의 건강 정보와 유전학적 데이터를 담은 스프레드시트를 만들었다. 이 스프레드시트에 나이, 콜레스테롤 수치, 심장 박동수 같은 정보들과 분자 프로필(Molecular Profile)이나 유전적 기형처럼 환자의 더 세세한 특성들을 입력했다. 제넨텍의 계획은 이런 정보를 인공지능의 신경망에 연결, 환자들의 건강 특성을 일목요연하게 나타내는 것이다. 이를 통해 잠재적으로 환자 개개인에 맞는 맞춤 신약 개발을 기대하고 있다.

그러나 문제가 있다. 연구원들은 최근에서야 신경망 훈련을 시작했다. 다시 말해, 신경망은 제넨텍이 구축하는 스프레드시트처럼 구조화된 데이터를 해석하는 방법을 아직 모르는 것이다. 제넨텍에서 개인 의료보험 데이터를 분석하는 글로벌 책임자 라이언 코핑 Ryan Copping은 "우리 데이터의 대부분은 구조화된 데이터이다. 임상시험이나 전자 의료보험 기록에서 나온 것이다. 신경망이 환자 프로필 가운데 유사점을 자체 분석으로 찾아낼 수 있다면, 그 결과에 따라 어떤 환자에게 어떤 처방을 내릴지 생각할 수 있을 것이다. 그런데 이런 니즈가 아직 해결되지 않고 있다"고 지적한다.

신경망을 활용한 비즈니스 기회가 헬스케어 분야에만 국한된 건 아니다. 리서치 회사 IDC는 민간 부문에서 5.8 제타바이트의 생산성 데이터(매출 예상치와 고객 데이터)가 창출될 것으로 추정한다. 제타바이트는 대략적으로 전 세계의 모든 해변에 있는 모래 알갱이 수라고 보면 된다. 매년 생성되는 데이터양을 측정하는 IDC의 글로벌 데이터스피어 Global DataSphere 프로그램 책임자 존 라이드닝 John Rydning은 “그것은 어마어마한 양”이라고 말한다.

다시 말해, 그런 데이터를 신경망이 학습 가능한 형태로 변환할 수만 있다면, 모든 기업이 수익성 높은 사업 기회를 얻을 수 있다는 뜻이다. 대형 식품업체 펩시코의 최고 전략 및 혁신 책임자 아티나 카니오우라 Athina Kanioura는 “예측 능력이 조금만 향상되더라도, 엄청난 매출 증대가 가능하다. 약간의 정확도 향상이 수백만 달러를 의미한다"고 설명한다.

전 우버 엔지니어였던 레이철 토머스는 샌프란시스코에서 교육 비영리 연구소 패스트닷에이아이와 기업 윤리 전문 연구소를 공동 설립했다. 그녀는 사업가들과 과학자들 모두에게 인공지능을 전파하고 있다. 사진=포춘US
전 우버 엔지니어였던 레이철 토머스는 샌프란시스코에서 교육 비영리 연구소 패스트닷에이아이와 기업 윤리 전문 연구소를 공동 설립했다. 그녀는 사업가들과 과학자들 모두에게 인공지능을 전파하고 있다. 사진=포춘US

그렇다면 도전과제는 무엇일까? 그것은 연구원들이 기업에 가장 큰 도움이 될 수 있는 종류의 데이터를 연구하는 것이다. 기업용 분석 도구를 만드는 시수 데이터 Sisu Data라는 실리콘 밸리 스타트업 CEO이자 스탠퍼드 대학교수인 피터 베일리스 Peter Bailis는 "신경망은 아주 경이롭다. 그것은 우리의 자동차를 이해하고, 온라인 트윗 내용의 감정을 이해하는데 도움을 준다. 정말 놀라운 역할을 할 수 있다"며, "하지만 우리의 데이터가 도표 형태로 저장되어 있다면 신경망은 리스크나 고객 만족도와 같은 내용을 파악하는데 도움을 줄 수 없다"고 지적한다. 사업을 하는 사람이라면 누구나 공감할 수 있는 의문 하나가 남는다. 과연 인공지능이 스프레드시트 문제를 해결할 수 있을까?

기업들이 신경망을 더 적극적으로 응용하느냐는 사진뿐만 아니라 단어를 이해하는 능력에 달려있다. 이를 위해 연구자들이 워드2벡 word2vec이라는 기술로 시선을 돌리고 있다(벡은 신경망이 가장 잘 이해할 수 있는 분석 단위로 벡터 vector를 의미한다). 워드2벡은 2013년 구글 연구팀이 발명해 오픈소스 소프트웨어 프로젝트로 출시한 것이다. 컴퓨터가 특정 단어들 간의 관계를 매핑하는 데 도움을 주는 이 기술은 더 강력한 언어 체계로 진화하고 있다. 예를 들어 자동차(Car)라는 단어가 크래프트 하인즈 같은 식품회사보다는 BMW나 닛산 같은 자동차업체와 더 밀접한 관련이 있다고 판단하는 식이다.

워드2벡의 ‘연산 마술’은 단어를 일련의 숫자로 전환함으로써, 단어간 상관관계를 찾아내는 능력이다. 이래야만 신경망이 그 단어를 이해할 수 있기 때문이다. 신경망은 시간이 지나면서 더 많은 단어들로 추가적인 훈련을 받게 된다. 그러면 변환된 숫자를 바탕으로, 단어를 조합하는 능력을 서서히 갖추게 된다. 신경망은 어떤 단어들이 얼마나 자주 함께 사용되는지를 측정한다. 소위 자연어 처리 기술과 비교해 볼 때, 이런 새로운 방식은 전형적으로 인간의 생각과 흡사한 ‘패턴 인식(Pattern Recognition)’ 속성을 기반으로 한다. 그리고 그 기반 위에서 신경망의 성능이 향상된다.

단어 연상 게임을 통해 성능이 향상된 신경망은 스프레드시트의 행과 열에 입력된 정보를 이해하는 능력을 갖춘다. 정보를 이해하는 과정에서 신경망은 일종의 모스부호를 만든다. 만약 신경망이 세로줄에 ‘날들(Days)’이라고 적힌 매출 관련 스프레드시트를 본다면, 그것은 특정 휴일이 특정 시즌의 판매에 미치는 영향을 충분히 분석해 낼 수 있다. 굳이 그렇게 하라고 명령을 내리지 않아도 말이다. 샌프란시스코 대학의 응용 데이터 윤리센터장이자, 교육 비영리 단체 패스트닷에이아이 Fast.ai의 공동 설립자 레이철 토머스 Rachel Thomas는 "이것이 일종의 핵심 아이디어다. 신경망은 특정한 패턴을 모델링함으로써, 무한대에 가까운 유연한 학습방법을 구축하는 것”이라고 설명한다.

투자업계만 해도, 단어 분석과 관련된 사업 기회가 넘쳐난다. 골드만삭스에서는 한 연구팀이 가족간의 주택 거래와 관련된 단어를 찾도록 신경망을 훈련시켰다. 증여 등 가족간의 비상업적인 부동산 거래는 주택 실거래가격을 반영하지 못할 가능성이 높다. 신경망이 이런 비정상적인 거래를 골라내도록 훈련을 받는다면, 은행의 부동산 가격 분석 능력은 향상될 수 있다. 샌디에이고 캘리포니아 대학에서 컴퓨터과학 교수로 오랫동안 재직해 온 찰스 엘칸 Charles Elkan은 "신경망이 그런 표시(가족간 부동산 거래)가 붙은 거래는 무시하도록 훈련을 받고 있다”고 말한다. 그는 최근까지 골드만에서 머신러닝 프로젝트를 이끌었다.

정교한 단어 연상 기술은 물류 사업자에게도 매우 유용하게 쓰이고 있다. 샌프란시스코 식료품 배달 스타트업 인스타카트는 워드2벡의 변형된 기술을 활용, 알고리즘이 고객의 선호도를 예측하도록 가르치고 있다. 특히 고객이 요청한 품목이 없을 때, 유용하게 쓰고 있다. 슈퍼마켓 재고 품목의 이름들을 숫자로 변환함으로써, 신경망이 업무를 처리할 수 있다. 우선 신경망은 품목들을 그룹별로 나눈다. 그런 다음, 예를 들어 건조 과일과 견과류 등이 혼합된 트레일 믹스 Trail Mix 스낵이 커피보다 건조 과일이나 견과류와 연관성이 많다는 점을 이해할 수 있게 된다. 인스타카트의 머신러닝 책임자 샤라스 라오 Sharath Rao는 “결과적으로 시간과 돈을 절약할 수 있다. 이런 것이 없다면, 당신이 (트레일 믹스에 넣을) 가능한 모든 조합을 생각해야 한다. 그리고 그 내용을 [일일이 수기로 적어] 도표를 만들어야 할 것"이라고 말한다.

딥 러닝 기술을 이런 구조화된 데이터에 적용한다면, 많은 장점들이 있다. 그럼에도 장애물은 남아 있다. 첫째, 이 아이디어는 너무 생소하다. 따라서 관련 기술들이 아직 제대로 된 검증을 받지 못했다. 전통적인 통계 방법과 비교할 때, 이 기술이 얼마나 우수한지 평가할 수 없다는 의미다. 인공지능 구동 칩을 만드는 엔비디아의 데이터 과학자 이븐 올드리지 Even Oldridge는 "이 문제는 이제 누구나 다 아는 사실"이라고 설명한다.

실제로 신경망을 훈련시키는 비용을 고려할 때, 제대로 된 사내 인공지능 전문가가 없는 기업은 기존 데이터 분석 방법을 사용하는 것만으로도 충분할지 모른다. 펩시코 임원인 인공지능 전문가 카니우라는 "어느 기업도 모든 문제를 해결할 수 있는 마법 같은 해결책은 없다고 확신한다"고 말한다. 아마존과 마이크로소프트, 구글 등 대형 클라우드 서비스업체들도 이와 비슷한 주장을 하고 있다. “잠재적으로 큰 수익을 위해 인력에 많은 비용을 지출하지 말라. 차라리 우리 회사로부터 인공지능 서비스를 구입하는 편이 훨씬 더 유리하다.”

그리고 사람이 컴퓨터에 ‘생각하는 법’을 가르치는 모든 프로젝트에서 그렇듯, 인간의 편견이 관련 프로젝트를 오염시킬 위험이 있다. 딥 러닝 시스템은 입력하는 데이터에만 능숙하게 작동할 뿐이다. 특정 측정값(Data Point)을 너무 많거나 너무 적게 입력하면, 인공지능의 예측력이 왜곡될 수 있다. 예를 들어, 제넨텍의 데이터 세트(Data Set) /*역주: 컴퓨터가 분석할 수 있는 정보의 집합체/는 15년 전의 암 환자에 대한 임상 데이터를 갖고 있다. 하지만 스프레드시트에서 사용하는 유전체 테스트 데이터는 8년 전부터 수집한 것이다. 그 이전의 환자 데이터에 관해, 연구자들이 원하는 만큼 비교할 수 없다는 의미다. 제넨텍의 코핑은 "우리가 이 데이터 세트를 이해하지 못한다면, 우리는 완전히 신뢰할 수 없는 모델을 만들 수도 있다"라고 설명한다

그럼에도 그는 “모든 스프레드시트 내용의 분석을 신속하게 할 수 있다는 것은 큰 잠재적 가치가 있다. 이로써 특정 치료법으로 환자가 얼마나 더 오래 생존할 수 있을지 예측할 수도 있다”고 말한다. 앞으로 신경망이 더 많은 스프레드시트 정보를 학습하는 게 나쁠 건 없다.
 

▲일부 기업들이 신경망을 훈련시켜 이미 존재하는 구조화된 데이터를 분석하도록 하고 있다. 몇 가지 사례를 소개한다.

-제넨텍
이 생명공학 선구기업은 수만 명의 환자로부터 일상적인 기록에서부터 유전적 프로필에 이르기까지 복잡한 건강 데이터를 구축해 스프레드시트를 만들었다. 인공지능이 데이터를 제대로 분석할 수 있다면, 결과적으로 개별 환자의 질병을 겨냥한 신약이 탄생할 가능성이 매우 높다.

-골드만삭스

인공지능은 투자자들에게 상상할 수 없을 정도로 많은 기회를 제시한다. 이 투자은행은 머신러닝 전문가를 고용했다. 그는 신경망을 훈련시킬 방법을 고안해 금융 분석에 방해가 되는 복잡한 단어들을 걸러내게 할 것이다, 예컨대 ‘가족 간 부동산 이전’은 주택의 실거래가격을 반영하지 못할 가능성이 높다. 신경망이 그런 것들을 찾아내도록 훈련시킴으로써, 알고리즘 성능을 개선할 수 있다.

-인스타카트
이 식료품 배달 스타트업은 직원들이 고객 대신 골라주는 슈퍼마켓 상품의 재고에 관해, 이해 가능한 데이터 세트를 보유하고 있다. 이 회사는 정교한 단어 연상 작업을 하도록 알고리즘을 훈련시키고 있다. 예컨대 트레일 믹스를 땅콩과 건조 과일로 연결하는 것이다. 고객들이 선택한 상품이 품절됐을 때, 대안 제품을 제시할 수 있다.


 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.