【特稿】戰勝李世石的Alpha go到底是什麼

2016-03-14 17:01:25
張心怡

香港輕新聞編輯

南韓九段棋手李世石在人機大戰中連輸兩盤失利後。 南韓九段棋手李世石在人機大戰中連輸兩盤失利後。

【香港輕新聞】谷歌旗下人工智能Alpha go與南韓九段棋手李世石的「人機世紀大戰」,已完成四局,雖然在昨天的對弈中,李世石以「神之一手」扳回一局,但賽事以五局三勝定勝負,李世石已在「人機大戰」中敗北。

人工智能在被譽為最複雜的智力遊戲——圍棋競技中,戰勝人類智慧,但這並不代表人工智能已完胜人類。若要思考AI會不會終有一天發展出自我意識、從而統治人類?令《魔鬼終結者》在現實世界中上演,未免憂慮過早。不過我們不妨探究一下Alpha go究竟是什麼?其依據怎樣的運作系統?Alpha go的獲勝對人類有什麼借鑒意義?

有兩個「大腦」的Alpha go

據Alpha go的開發公司、谷歌旗下的人工智能公司DeepMind公開的資料,Alpha go並不是一台有超強計算能力的計算機,它聰明絕頂,是因為它擁有像人類一樣的神經網絡系統,換句話說,全因它擁有「大腦」,而且是兩個。

人腦由50至100億個神經元組成,而Alpha go是一个由许多个数据中心作为节点相连,每个节点内有着多台超级计算机的神经网络系统。这个系统的基础名叫卷积神经网络 (Convolutional Neural Network),这種系統经常被用于人工智能图像识别領域,比如谷歌的图片搜索、百度的识图功能。

DeepMind還為Alpha go安裝依據蒙特卡洛樹搜索(Monte Carlo Tree Search)的函數算法,建立用以判斷棋盤形式的價值神經網絡(Value Network),和決定下一步落子的策略神經網絡(Policy Network)。這兩個神經網絡就是上文提到的Alpha go的兩個「大腦」。

兩盤即成為大師 Alpha go超強的學習能力

此外,Alpha go還借鑒了一種名為深度強化學習(Deep Q- Learning)的技巧,深度強化學習源自心理學中行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐漸形成對刺激的預期,產生能獲得最大利益的習慣性行為。我們給狗狗懲罰或食物來訓練他們時,就是依據這一理論。

而Alpha go的深度強化學習能力,賦予它極強的學習能力,不僅會下圍棋,也可以玩《太空侵略者》、《超級瑪麗》等電子遊戲。據DeepMind披露的資料,Alpha go已經「玩過」Pong、打磚塊、太空侵略者、海底救人、Beam Rider五款遊戲,並且在兩三局之後,它的操控能力就已遠超世界上任何一位已知的高手。這也就是李世石賽前觀看了Alpha go去年戰勝歐洲圍棋冠軍的比賽之後,仍認為自己勝算頗大的原因——他實在低估了Alpha go的超強學習能力。

上棋局之前,工程師們還為 Alpha go上載了圍棋高手們逾3000萬步的棋步,並讓價值神經網絡進行了高達2000萬次自我對局的訓練,Alpha go才能一戰成名。

Alpha go的出現改寫圍棋思維方式

縱觀他們的對弈過程,「人機世紀大戰」的四盤棋局,Alpha go不時出「怪招」,某些起初看來似是失誤,但最終被證明是致勝的關鍵,這種打破常規的落子招數,令職業棋手們驚訝。

據端傳媒報道,目前排名世界第一的中國棋手柯潔觀看「人機大戰」後,對李世石的失利「震驚得説不出話」,認為Alpha go的「實力遠超想象」,「下法簡明自然,整個思路非常清晰」,「看它下棋特別像人類的思維模式,而且計算能力很精準,越到後面越精準,失誤越少」。

南韓九段棋手趙惠連則指,人類和 Alpha go看待圍棋的方式截然不同,人類傾向以較大目數贏棋,但Alpha go的目標就只有贏棋,即使只贏半目。Alpha go將就此改寫圍棋,包括圍棋的範式和學習方式,重新定義何謂圍棋。

By 2016-03-14

手機分享本文: