페이지상단으로이동

[주간 인사이트] AI 스피커가 넘어야 할 다음 단계 ‘지식기지’

이명호 (디지털사회 PM)

2018.10.05

말(음성)이 다시 커뮤니케이션의 중심으로 등장하고 있다. 애플 아이폰(iPhone)에서 시리(Siri)라는 음성비서 서비스를 시작한 2011년 당시만 해도 말은 텍스트(문자)의 보조 수단일 뿐이었다. 스마트 폰과 같은 디지털 기기를 조작하기 위해서는 텍스트를 읽고, 이미지를 보고, 손으로 버튼을 조작해야 한다. 그 중간에 내가 판단하고 의사결정을 내리는 과정이 있다. 당시 시리는 핸드폰을 사용하는 보조 기능이라는 수준을 넘어서지 못했다. 그러나 2015년 아마존(Amazon)에서 에코(Echo)라는 음성인식 스마트 스피커가 나오면서 상황이 바뀌었다. 디지털 기기는 텍스트와 이미지라는 시각 정보에 의존하는 데서 완전히 탈피하여 음성만으로 모든 것을 다할 수 있는 새로운 구어(말)의 시대를 열고 있다. 알렉사(Alexa)라는 이름을 부르면 반응하는 에코(이후 등장한 수많은 스마트 스피커들)는 비서이며, 친구이며, 애인으로 다가오고 있다. 목소리만으로 인공지능 사만다와 사랑에 빠지는 영화 “그녀(Her)”는 음성이 우리 삶에 얼마나 많은 영향을 미치고 중요한 부분을 차지하고 있는지를 보여준다.

글보다 원초적인 말, 인간과 기계가 말로 소통하다

말은 텍스트보다 더 오래된 커뮤니케이션 수단이다. 문자(텍스트)의 발명은 정보와 지식을 시공간에 머무를 수 없는 말(음성)에서 분리하여 시공간에 고정, 보존할 수 있도록 해주었다. 그렇게 되면서 문자와 인쇄술은 지식의 축적과 확산, 새로운 지식의 재생산이라는 지식의 혁명을 가져왔다. 그러나 문자는 행위의 주체(인간)와 분리되었기 때문에 인간을 통해서 다시 결합해야 한다는 한계를 가지고 있다. 외부에 저장된 지식이 활용되기 위해서는 또다시 인간의 인식과 분석, 의사결정, 행동의 과정을 거쳐야 한다. 무언가 자신의 의지, 원하는 결과를 얻기 위한 행동을 전달하기 위해서는 스마트 폰의 화면에 있는 문자와 이미지를 보고, 판단하고, 결정하여 버튼을 누르는 과정을 거쳐야 한다. 이것은 인간과 인간의 커뮤니케이션과 다른 것이다.

주로 말에 의존하는 인간과 인간의 커뮤니케이션은 인쇄술, 통신, 인터넷 등 미디어(매체)의 발달로 간접적인 커뮤니케이션으로 바뀌어 왔다. 그런데 시리와 에코 같은 스마트 스피커의 등장은 인간 대 기계의 커뮤니케이션을 인간 대 인간과 같은 말(음성)을 통한 직접 커뮤니케이션으로 바꾸어 놓고 있다. 중간에 걸리적거리던 매체가 사라진 것이다. 미디어가 있다는 것을 못 느낄 정도로 투명해졌다고 할 수 있다. 기계를 조작하는 것이 아니라 친구에게 말을 거는 듯하게 바뀐 것이다. 기계가 음성이라는 가면을 쓰고 더 친숙하게 다가왔다.

기계(컴퓨터)가 인간의 말을 듣고 이해하고 반응하기 위해서는 엄청난 기술적 발전이 필요했다. 최근 급속하게 발전하고 있는 딥러닝(Deep Learning), 기계학습의 알고리즘에 기반을 둔 인공지능 기술은 사람같이 생각하고 말하는 행동하는 꿈같은 일을 현실로 만들고 있다. 인공지능이 내 말을 알아듣고, 친구 사진을 알아보고 친구 이름을 붙여주고(태그 해주고), 내가 좋아할 음악을 추천해주고, 진단 사진을 보고 암을 판독하고, 바둑을 두고, 주식 거래를 하고, 판례를 분석하고, 경영 자문을 하고, 자동차와 비행기(드론)를 운전한다.

다른 기술들은 특정 분야에서만 사용되고 우리의 일상 속으로 들어오기에는 아직 멀었지만, 인공지능 기능을 갖춘 스마트 스피커는 몇만 원으로 가격이 내려가서 일상 가전제품 같이 사서 쓸 수 있게 되었다. 그러나 인공지능 스피커라고 해도 쓰다 보면 아직은 좀 불편하다. 말귀를 잘 못 알아듣는 것이다. 몇 번을 설명하고 확인해야 한다. 지금까지 우리가 쓰던 스마트 기기들은 버튼을 누르면 바로 실행이 되는데....

이것은 말이라는 커뮤니케이션이 맥락 속에서 전달이 되고 이해가 되기 때문이다. 사람과의 음성 커뮤니케이션은 상황이라는 시공간을 공유하면서 맥락을 전제하고 이루어진다. 우리는 당연히 그런 맥락을 알 거라고 생각하고 스마트 스피커에 말을 거는데, 스마트 스피커는 맥락을 모르기 때문에 혼란이 일어난다. “시리야, 내 배에 이상이 있나 봐, 어떻게 하면 좋겠니?” 하면 시리는 “당신 몸의 배가 아프다는 겁니까? 당신 소유의 배에 이상이 있다는 겁니까?”라고 물어볼 것이다. 친구라면 표정을 보고 한 번에 알아들을 이야기를 못 알아들을 수 있다. 그 맥락을 이해하기 위해서는 나에 대한 정보를 많이 알고 있어야 한다. 친구를 사귀는 데 오랜 시간이 걸리듯이 인공지능 친구를 사귀는데도 시간이 필요한 것이다. 또한 스마트 스피커에 카메라가 붙어 눈의 역할도 갖추어야 한다. 사실 카메라가 인간의 눈의 역할을 하는 것은 말보다 더 복잡하다. 인류가 말 이전에 시각과 몸짓 커뮤니케이션을 먼저 사용하였듯이 더 오래된 시각 기능을 모방하기 위해서는 말(음성)보다 맥락을 이해하는 능력이 더 요구된다.

엄청난 도약, 그러나 여전히 높은 산

인공지능이 맥락을 이해해야 한다는 문제 이전에 해결해야 할 문제가 또 있다. 체계화된 지식이다. 지금까지 지식은 인간의 시각을 통한 이해를 전제로 구성되어 있다. 책을 찾아보거나 인터넷 검색으로 텍스트 형식의 정보와 지식을 얻어서 이해해야만 활용할 수 있는 지식으로 바뀌게 된다. 지식이 활용될 수 있으려면 체계적인 지식 체계 즉, 온톨로지(ontology)를 갖추어야 한다. 오랜 기간 공부를 하여 체계적인 지식을 갖춘 사람을 전문가라고 한다. 법, 의료, 회계, 연구, 공학, 기술, 과학 등 많은 분야에서 체계적인 지식을 갖춘 전문가들이 활동하고 있다. 인공지능이 체계적인 지식을 습득하고 활용하여 일반인들이 이해하거나 처리하기 어려운 문제에 대해 조언 해줄 수 있을 때 인공지능은 전문가를 대체할 수 있게 된다. 인공지능 의사로 등장하고 있는 IBM의 왓슨(Watson)과 인공지능 변호사 로스(ROSS) 같은 예이다.

단편적인 정보를 알려주는 데이터베이스(Database)는 인간의 검색과 인지, 활용을 전제로 하고 있다. 그래서 검색에서 얻은 정보는 바로 지식으로 전환되지 못한다. 구글(Google)과 같은 전통적인 검색 엔진은 수집한 정보를 중요도 순서에 따라 나열해주고, 인간이 알아서 취사 선택하게 한다. 아무리 방대한 빅데이터가 있어도 지식 체계를 갖추지 못하면 활용성이 떨어지고, 인공지능이 지식으로 습득하기도 어렵다. 그래서 Wolfram Alpha와 같은 지식기반 검색 서비스는 수집한 방대한 정보를 처리하여 간략한 형태의 답으로 추론하여 제공해주고 있다. Wolfram KB(knowledge base)를 기반으로 웹상의 정보를 재구성해 사용자에게 제공해 주는 것이다.

인공지능 스피커가 단순한 정보를 알려주는 것을 넘어서 지식 서비스를 제공해 줄 수 있으려면 이와 같은 각 분야의 온톨로지 지식(knowledge base)은 물론 사용자 개인의 특성에 맞춘 온톨로지 지식을 갖추어야 한다. 우리는 앞으로 “연말정산을 어떻게 해야 해”라고 물어보는 것에서 “연말정산을 해줘”라고 지시하기를 원하게 될 것이다. 그렇게 될 때 인공지능 스피커는 정말 똑똑한 개인의 비서가 되어 지시를 알아듣고 나를 대신해서 처리해 주는 임무를 수행하게 된다.

일반적으로 또는 고대 구문 시대에 우리가 음성을 사용하는 것은 정보를 얻는 것보다는 무엇인가 지시를 내리고 행동의 결과를 얻기 위한 것이 많다. 이는 정보 습득을 중시하는 시각과 달리 정보 활용을 중시하는 음성의 특징이라고 할 수 있다. 이처럼 지식이 실행되기 위해서는 정보 이외에 절차와 조건 등 프로세스가 결합하여 있어야 한다. 그렇게 하기 위해서는 정보가 맥락에 맞는 실행적 지식, 코드(Code)화된 지식으로 전환되어 있어야 한다.

전문 분야에서 온톨로지 기반의 인공지능 지식 서비스가 등장하고 있다. 자동화 데이터 분석 플랫폼인 아야스디(Ayasdi), 비욘드코어(BeyondCore) 등은 심지어 인간이 질문할 때까지 기다리지 않고, 상관관계를 찾아내기 위해 스스로 자료 집합을 분석해 추가 분석이 필요한 흥미로운 관계를 발견해내거나 분석에 더 필요한 자료를 알려주고 있다. ‘최고 임원 조언자 (C-Suite adviser)’ 역할을 하도록 개조된 IBM의 왓슨은 전략 문서를 탐색하고, 회의에서 나눈 대화를 듣고 요약하며, “어떤 회사에 투자할 만한가?” 같은 질문을 받으면 자체 통찰을 기반으로 분석해 조언한다. 골드만삭스가 투자한 켄쇼(Kensho)는 쉬운 말로 재무 관련 질문을 하면(예를 들어, “개인정보 보호 우려가 커지면 기술 회사 주식은 어떻게 되지?”) 관련 지식을 기반으로 새로운 정보를 분석해 통해 답을 내놓는다. 켄쇼 없이 이런 문제의 답을 얻으려면 사람은 많은 시간을 들여 조사하고 의사결정을 해야 한다.

그런데 우리나라는 이와 같은 전문 분야에서 인공지능 서비스가 발달할 수 있는 지식 체계, 온톨로지가 부족하다. 지식인과 같이 단편적인 지식을 알려주는 서비스는 활성화되어 있는데, 체계적인 지식을 담고 있는 위키피디아 같은 종합적인 지식 서비스는 인터넷 강국이라는 이름이 무색하게 아주 낮은 수준이다. 또한 인공지능이 학습할 수 있는 양질의 데이터도 부족하다. 최근 조사에 의하면 국내에서 공개된 공공데이터 중 인공지능 기계학습 알고리즘에 활용할 수 있는 데이터는 0.3%에 불과한 것으로 나타났다.

우리가 인공지능 서비스 강국이 되기 위해서는 또한 지식과 처리 프로세스가 결합이 될 수 있도록 하는 플랫폼도 필요하다. 행정과 민원 서비스에 인공지능을 결합하여 진정한 ‘원스톱’ 서비스를 만드는 것이다. 정부 법률과 시행령, 규정, 규칙을 모두 디지털 지식으로 만들어 먼저 공무원들의 행정 처리를 인공지능 시스템으로 구축하고 순차적으로 민원 서비스로 확대하면 차세대 스마트 정부가 될 수 있다. 민간 영역에서는 모든 가전 및 기계류 등의 제품 매뉴얼을 인공지능 지식으로 구축하는 플랫폼도 제안해 본다. 그러면 제품의 AS 문의와 처리도 훨씬 효율화되고 제품의 개선에도 활용될 수 있을 것이다.

인공지능 시대에 음성 서비스는 손쉽게 전문가의 서비스를 온라인으로 받는 시대를 열 것이다. 그때 우리는 진정으로 전문성의 대중화, 전문성의 민주화를 느끼게 될 것이다. 그러나 넘어야 할 산이 많고 우리는 더 많다. 문제는 플랫폼이다.


< 저작권자 © 태재미래전략연구원, 무단전재 및 재배포 금지 >

콘텐츠 연재물:

연관 태그