UPDATE : 2017.11.17 금 11:22
상단여백
HOME 이슈
[AI시리즈] 알파고와 알파고 제로, 그들의 궁극적 실체는?
[AI시리즈]를 통해 2017년 의료 보건계의 화두 중 하나인 4차산업 혁명 AI에 대해 알아보고자 합니다. 이번 기사에서는 AI바람을 불러 일으켰던 알파고와 후속버전인 알파고 제로에 대해 알아봅니다.

마치 사이어인이 초사이어인과 대결하는 듯한 느낌이다. 알파고의 개발사 딥마인드가 완전히 새로운 유형의 독학 AI 버젼을 내놓기로 했다는 소식이 얼마 전이었던 거 같은데 벌써 이 아이가 선배뻘인 알파고의 모든 다른 버젼들을 40일만에 제쳤다는 뉴스가 포털을 점령하고 있다.

출처 : 딥마인드

알파고는 궁극적으로 컴퓨터. 어떻게 학습을 한다는 표현을 쓸 수 있을까?

기보를 통한 학습으로 진화해 왔다는 알파고의 등장, 그리고 연이은 세계 강자들과의 대국과 승리. 실체를 확인할 수 없는 언더독의 등장은 마치 마카로니 웨스턴 같은 서부극이나 성룡의 취권을 보고 있는 듯한 극적인 장면이었다. 그리고 그 눈에 보이지 않는 존재 뒤에는 수학과 계산기(컴퓨터)가 있었다.

한 수를 놓을 때마다 점점 복잡해지는 경우의 수, 이를 풀어가는 실체는 수학적 논리와 빠른 계산을 가능하게 하는 CPU(구글에서 개발한 AI용 TPU라고 함)라는 물리적 실체가 있다는 얘기인데 학습이라는 단어가 들어간 것은 Decision Making(결정)을 해야 하는 순간에 가장 적절한 한수에 대한 계산을 하는 최적의 로직(마르코프 결정 과정, MDP)이 들어가기 때문이다. 그럼 알파고 제로는 뭐가 다른 걸까?

출처 : 데이빗 실버의 강의교재 중 마르코프 결정과정 이론

알파고가 기존의 데이타를 통한 유리한 경우의 수를 선택하고 이를 강화는 방식(RL, Reinforcement Learning)이었다면 알파고 제로는 판을 엎어버리고 최적의 선택으로만 충족될 수 없었던 예외의 경우까지 염두에 둔 수학공식으로 태어난 것이다. 한마디로 인간의 경험을 베끼지 않은 순정품이 태어난 것이다.

하지만, 결국 둘은 데이빗 실버로 정리된다.

여기까지만 읽어보면 마치 실체가 있는 로봇이라도 나온 거 같은데 기실 뜯어보면 수만줄의 코딩과 모듈, 이론들이 합친 하나의 거대한 바둑 로직이 완성된 것이고 그 뒤에는 데이빗 실버라는 인물이 있다.

출처 : UCL홈페이지

실버는 1997년 케임브릿지 대학을 졸업해 이제는 우리에게 익숙한 딥마인드의 얼굴 데미스 허사비스와 게임회사 엘릭서 스튜디오를 세운다. 하지만, 5년만에 내놓은 게임 '리퍼블릭'과 이어진 '이블 지니어스' 모두 큰 성공을 거두지 못하고 2005년에 결국 문을 닫게 된다. 학교로 돌아간 그는 강화학습을 통한 마스터 레벨의 '9X9 바둑'으로 박사학위를 취득하며 2011년부터 UCL교수로 재직하게 되는데 2년 후 2013년 다시금 딥마인드에서 데미스 허사비스와 힘을 합치게 된다.

데미스 허사비스가 딥마인드(구글이 2014년 4억불에 인수)의 얼굴로 언론에 노출된 반면 실제로 알파고 프로젝트를 이끌었던 데이빗 실버, 딥마인드의 모토와 같이 '지능을 분석해 그 지능으로 모든 다른 것을 해결'하는 그의 행보가 현재진행형인 것은 알파고 제로를 통해 증명되고 있다.

 * 다음 회에는 또 다른 딥마인드의 얼굴인 헬스케어 AI , 신경망 튜링 머신(Neural Turing Machine)에 대해 알아봅니다. 

임웅 기자  wlim@docdocdoc.co.kr

<저작권자 © 예스헬스, 무단 전재 및 재배포 금지>

임웅 기자의 다른기사 보기
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
Back to Top