제보
히든스테이지
주요뉴스 newspim

[인간 vs 인공지능]알파고 데이비드 박사 "인간의 모방 아닌, 이기는 것이 우리 목표"

기사등록 : 2016-03-08 15:39

※ 뉴스 공유하기

URL 복사완료

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게
구글 알파고의 학습 비법은 '심층 신경망'과 '트리 탐색'

[뉴스핌=이수경 기자] "알파고(AlphaGo)가 흥분을 가져다주는 이유는 기계가 더 높은 수준으로 지식을 쌓아갈 수 있다는 기대에 부응하기 때문이다. 인간이 입력한 정보만 수행하는 것에 그치는 것이 아니라, 기계가 스스로 학습해서 인간과 같은 사고(思考)를 하게 만드는 것이 알파고의 최종 목표다." - 데이비드 실버 구글 딥마인드 리서치 사이언티스트 

미래창조과학부가 주최하고 소프트웨어정책연구소가 주관하는 '성큼 다가온 인공지능' 컨퍼런스가 8일 경기창조혁신센터에서 개최됐다. 

이날 데이비드 실버 구글 딥마인드 리서치 사이언티스트가 '심층 신경망과 트리 탐색을 이용한 바둑 게임 마스터하기'라는 주제로 발표에 나섰다. 

알파고는 지난 2014년 구글이 인수한 인공지능 기업 딥마인드에서 개발한 인공지능 컴퓨터로, 실버 박사는 알파고 프로젝트 팀 리더를 맡고 있다. 

구글 알파고 프로젝트 팀 리더를 맡은 데이비드 실버 박사가 8일 경기창조경제혁신센터에서 열린 '성큼 다가온 인공지능' 컨퍼런스에 참석했다. <사진=이수경 기자>

알파고의 학습 원리에 대해 실버 박사는 "무작위 대입을 통해 모든 경우의 수를 계산하는 '딥블루'와는 달리 알파고는 자가학습을 통해 지식체계를 구축해나간다"며 "남은 경기 내용을 미리 여러 번 진행해 미래를 예측하며, 선별적인 시뮬레이션을 통해 가장 성공적인 수를 찾는 것이 알파고의 특징"이라고 말했다. 

데이비드 실버 박사는 "알파고는 탐색의 최적화를 위해 정책망과 가치망이라는 2종류의 신경망을 구축했다"고 설명했다. 

'정책망'은 이길 가능성이 큰 후보군 위주로 탐색 너비를 줄여준다. 승률이 가장 높은 전략만 추려주는 것. '가치망'은 승자를 예측하며 탐색의 깊이를 줄여준다. 가상으로 게임을 플레이하지 않고도 승자를 예측할 수 있게 해주는 셈이다. 

이 신경망을 구축하기 위해 알파고는 3000만개의 바둑 기보를 '지도학습'했다. 5단 이상의 프로 전문기사가 바둑을 두는 방식을 교본삼아 4주 동안 스스로 학습한 것이다. 이후 자가대국(강화학습)을 통해 신경망을 정교하게 구축했다. 그 결과 인간이 두는 바둑의 수를 예측하는 정확도가 43%에서 57%로 높아졌다.  

실버 박사는 "지도학습을 통해 알파고가 기보를 스스로 학습할 수 있도록 하고 강화학습으로 스스로 학습을 통해 시행착오를 거쳐 승률을 높일 수 있도록 했다"며 "낮은 수준의 기보를 학습했다고 해서 알파고 학습 수준이 낮아지는 것은 아니고 최적의 탐색 알고리즘을 탐색하는 방향으로 학습 수준을 높이는 데 주력했다"고 말했다. 

특정 바둑 기사의 기보 스타일이 기계학습에 영향을 미치느냐는 질문에 실버 박사는 "아니다"라고 선을 그었다. 그는 "알파고가 바둑을 학습하기 위해서는 최소 수십만 개의 기보가 필요하다"며 "특정 기사의 기보를 소량 학습한다고 해서 알파고의 학습 결과에 큰 영향을 미치지는 않는다고 생각한다"고 설명했다. 

실버 박사는 "인간이 당면한 다양한 과제들을 하는 데 밑거름이 되도록 하는 데 알파고가 이바지하고자 한다"며 "구글 딥마인드에서 향후 고려하고 있는 것은 개개인의 의료 데이터를 학습해서 최적화된 치료법을 제공하는 맞춤형 의료 서비스 등이 있다"고 말했다. 

마지막으로 실버 박사는 "우리의 목표는 인간의 행동을 모방하는 것이 아니라 인간을 이기는 것"이며 "다양한 변수가 있어서 누가 이길지는 알 수 없지만, 개인적으로는 알파고가 이기길 기대하고 있다"고 밝혔다. 

 

[뉴스핌 Newspim] 이수경 기자 (sophie@newspim.com)

<저작권자© 글로벌리더의 지름길 종합뉴스통신사 뉴스핌(Newspim), 무단 전재-재배포 금지>