뉴스핌

제보

홈주요뉴스 글로벌

구글 '바드' 체험후기 혹평 일색..."평범한 답변에 퀴즈선 빵점"

기사등록 : 2023-03-24 14:30

[서울=뉴스핌] 최원진 기자=구글의 거대언어모델(LLM) '람다'(LaMDa) 기반의 인공지능(AI) 챗봇 '바드'(Bard)의 베타테스트 버전이 미국과 영국 일부 이용자들을 대상으로 지난 21일(현지시간)부터 서비스를 개시하면서 오픈AI의 GPT-4 언어모델을 적용한 마이크로소프트(MS)의 '빙'(BIng)챗과 본격 경쟁 구도에 진입했다.

구글이 지난 2월 8일 바드 시연 영상에서 사실적 오류 답변의 '굴욕'을 떨치고 보다 정확하고 정교하게 구동하는 개선된 챗봇을 내놓았을 것이란 기대와 달리 초기 이용자들의 체험 후기는 냉정하다.

구글과 바드 일러스트 이미지. [사진=블룸버그]

23일 미 경제매체 인사이더는 "바드가 베타테스트 중인 것은 명확하다. 최초의 서비스 이용자들은 오픈AI의 GPT-4 기술과 비교하며 바드의 능력에 실망하는 듯한 모습"이라고 전했다.

IT전문 유튜버 마르키스 브라운리는 자신의 트위터에 "오늘 구글 바드를 좀 써봤는데 이런 말을 하게 될 줄은 몰랐다. (특정 챗 기능에서) 빙이 구글보다 앞선다"고 썼다.

펜실베이니아대 와튼스쿨의 이썬 몰릭 부교수도 "바드는 빙이나 GPT-4 기술 능력만큼의 학습 도구가 되진 못해 보인다"고 평했다.

그는 시를 창작하는 데 있어 바드가 경쟁업체들에 "많이 뒤처진다"면서 6행으로 된 6연(聯)과 3행의 결구(結句)를 가지는 프랑스의 세스티나 시를 지어달라고 했더니 "어려워하는 듯 했다"고 알렸다.

영화감독 데이비드 린치는 바드에 영화 '스타워즈'의 시놉시스(줄거리)를 써달라고 했는데 꽤 흥미로운 시놉시스를 쓴 빙과 달리 바드의 답변은 그저 평범했다는 후기를 남겼다.

바드는 단어 퀴즈에서도 낙방했다. 단어 설명을 보고 운이 맞는 한쌍의 단어를 맞추는 온라인 단어 퀴즈 게임인 '투퍼 구퍼'(Twofer Goofer)에서 바드는 '빵점'을 맞았다. 사이트 측에 따르면 GPT-4 모델이 정답을 맞춘 확률은 96%, 인간은 82%였으나 바드의 정답률은 0%였다.

투퍼 구퍼 공동 제작자인 콜린 월더크는 "충격적이게 실망적"이라며 "바드는 단 하나의 문제도 풀어내지 못했다. 몇 번은 정답에 근접하기도 했지만 결론적으로는 실패했다"고 전했다.

앞서 지난 21일 바드와 대화해 본 IT전문매체 더버지의 데이비드 피어스 선임기자도 '혹평'을 남겼다. 빙보다 틀린 정보가 많을 뿐만 아니라 근처의 맛집을 추천해달라고 하니 '직접 구글에 검색해보라'는 황당한 답변도 받았다며 "바드는 눈에 띄게 빙보다 못한 도구"라고 신랄하게 비판했다.

인사이더는 구글이 바드 공개행사를 한 이후에 나름 '충분한' 시간차를 두고 베타테스트 버전을 내놨지만 체험 후기가 엉망인 것에 대해 "따로 숨겨둔 비장의 AI 도구가 있는 게 아닐까"라고 추측했다.

실제로 해당 매체는 이달 초 소식통들을 인용, 구글이 지금의 바드보다 똑똑하고 좀 더 인간처럼 대화를 구사할 수 있는 챗봇 '빅 바드'(Big Bard)를 테스트 중이라고 보도한 바 있다.

순다르 피차이 구글 최고경영자(CEO)도 2월 초 블로그에 초기에 출시될 바드 챗봇은 '경량(lightweight) 모델'이라고 밝혀 향후 첨단 버전의 챗봇이 등장할 수 있다고 예고한 바 있다.

wonjc6@newspim.com

인사 부고 오늘의 운세