홈 주요뉴스 스포츠

[단독] "NHN 개발한 'AI 한돌'은 '알파고' 능가… 승률 90~100%"

기사등록 : 2019년12월18일 14:20

[편집자] '바둑판의 풍운아' 이세돌 9단이 현역에서 물러납니다. 상대의 의표를 찔러 난전을 즐겼던 승부사. 평범을 거부했기에 인공지능(AI)을 극복한 세계 유일의 기사. 은퇴 이벤트도 이목을 집중시킵니다. AI와 의 재대결. 구글 '알파고'와 대결후 3년9개월만입니다. 국내 기술진이 만든 '한돌'과 세 판을 둡니다. 종합뉴스통신 뉴스핌이 '세돌과 한돌의 대결'을 두 가지 측면에서 조명합니다. 인간과 AI의 두뇌싸움이란 측면과 알파고(구글)와 한돌(NHN)의 AI기술 대결입니다.

[서울=뉴스핌] 정윤영 기자 = "이세돌과 한돌 대국의 승부는 2대1 또는 1대2 정도 되지 않을까?"

이세돌(37)과 NHN 바둑 인공지능(AI) 한돌 대국'이 첫 진행되는 가운데 개발에 관여한 NHN 관계자는 뉴스핌과의 인터뷰에서 "한돌은 앙상블 추론과 통계를 통해 시뮬레이션을 효율적으로 할 수 있도록 만들었다. 한돌의 수준은 세계최고 AI인 알파고 제로와 유사하다"고 설명했다.

지난 2016년 이세돌은 구글 딥마인드가 개발한 인공지능 AI 알파고(AlphaGo)와의 대결에서 4번째 대국서 승리, '알파고'와의 대결에서 승리한 유일한 인간이다.

총 3차례 치러지는 이번 대국 결과에 대해 관계자는 "2승1패 또는 1승2패"라고 조심스럽게 예측했다.

이날 이세돌과 대결한 한돌은 무작위·자가대국으로 만든 기보로부터 학습한 정책망과 더 정확한 가치망을 사용해 롤아웃 없이 MCTS(Monte Carlo Tree Search) 수읽기 알고리즘을 통해 다음 수를 예측한다.

또한 이 기술에 대해 "사람으로 치면 여러 사람이 동시에 다음 수에 대한 논의를 하는 것"이라고 설명했다. NHN IT팀 6여명의 개발자들이 3년간 투입돼, 현재의 바둑 인공지능 한돌을 완성시켰다.

한돌은 대국에서 생성한 기보를 이용해 학습하는 과정을 반복하며, 지속적으로 성능을 개선시키고 있다.

이는 NHN이 1999년부터 '한게임 바둑'을 통해 쌓아온 데이터를 기반으로 자체 개발한 AI 바둑 프로그램이다.

NHN은 2017년부터 약 10개월간의 개발 기간을 거쳐 2017년 12월 한돌 1.0을 출시했다. 이후 나온 한돌 2.0은 1.0에 비해 90%이상의 승률, 한돌 3.0은 2.0에 비해 90% 이상의 승률을 보인다. 한돌은 지난해 12월 '프로기사 TOP5 vs 한돌 빅매치'에서 '국내 1위' 신진서 9단, 신민준 9단, 이동훈 9단, 김지석 9단, 박정환 9단 등을 상대로 전승을 기록했다. 또 올해는 중국 산둥성에서 열린 '2019 중신증권배 세계 AI 바둑대회'에 처음으로 참가한 세계 대회서 3위에 입상했다.

이번 3번기에서 이세돌은 기본 대국료 1억5000만원 외에 1승 때마다 승리 수당 5000만원을 추가로 받는다. 목표대로 2승을 기록하면 2억5000만원, 1승에 그치면 2억원이다. 이세돌은 2016년 알파고와 대결할 당시 대국료와 승리 수당을 합해 2억원을 받았다.

▲ 다음은 NHN 관계자와의 일문일답:

-알파고와 한돌의 차이점은?
:"알파고는 이미 은퇴해서 알파고와 승부 차이는 말씀드리기는 곤란하다. 그러나 알파고 구글팀 딥마인드의 논문을 보면, 경기를 통한 기억의 수치가 있는데 이 것을 통해서 상대 비교를 하면, (버전업된) 알파고 제로, 알파 제로 수준이지 않을까 짐작하고 있다. 실제 알파고와의 다른점은, 원래 바둑 프로그램은 MCTS(Monte Carlo Tree Search)를 사용해서 성능이 좋아졌다. 기존에는 아마추어에게도 이기기 힘들었지만, 이 알고리즘을 사용하게되면서 성능이 좋아졌다. 아마추어를 이기는 것 까지는 가능했지만, 프로 기사를 이기지는 못했다. 프로기사를 이기게 된 것이 구글 딥 러닝을 결합하면서 이기게 됐다. 처음 MCTS 딥러닝을 결합시키면서 프로기사를 뛰어넘는 수준의 기억을 갖게 됐다. 저희도 비슷하게 MCTS 딥러닝을 사용하고 있다. 알파고와의 차이점은, 우리 사용방법이 앙상블 추론과 시뮬레이션을 통해 같은 데이터라도 학습시킬 때 효율적으로 트레이닝을 시키려고 노력하고 있다. 알파고는 모델을 하나만 사용한다. 모델이라는 것은 다음 수에대한 예측을 하거나, 승리에 대한 확률을 예측하는 것이다. 앙상블 추론은, 사람으로 치면 여러 사람이동시에 다음 수에 대한 의논하는 것이다. 앙상블 추론과 통계를 통해 시뮬레이션을 효율적으로 할 수 있도록 만들었다.

-개발하는데 소요된 시간은?
:"2017년 초부터 개발을 시작해 그해 1.0버전이 나왔다. 1.0버전은 알파고와 유사하다. 프로기사 60% 승률이 나왔다. 한돌 대국만 사용해서 학습한 버전이 2.0버전이다. 톱5 1~2가 포함된 대국에서 전승을 했다. 90~100% 승률이 나오고 있다. 3.0은 세계대회 인공지능에 첫 출전이지만 3위를 기록했다. 내년에는 4.0으로 순위를 끌어올릴 것을 예상한다."

-승부를 어떻게 예측하는가?
:"첫 바둑 대국을 요청받은 것은 불과 2달 전이다. 3.0에서는 테스트를 할 시간이 짧아서 승부를 예측하기는 힘들겠지만, 1대2, 2대1 이런 식으로 갈릴 것 같다.