AlphaGo先勝中國棋王柯潔一場 烏鎮直擊【有片】

社會

發布時間: 2017/05/23 15:09

最後更新: 2017/05/26 16:41

分享:

分享:

世界冠軍的中國棋王柯潔與Google旗下DeepMind研發的人工智能(AI)AlphaGo進行三番棋對弈。

人機圍棋終極對弈今日上演。經過近4.5小時的對壘,Google旗下的AlphaGo於第一場擊敗世界排名第一的中國棋王柯潔,25及27日將進行餘下兩場比試。

由中國圍棋協會、浙江省體育局和Google主辦,為期5天的「中國烏鎮圍棋峰會」今於浙江烏鎮舉行。當中最矚目的,是世界冠軍的中國棋王柯潔與Google旗下DeepMind研發的人工智能(AI)AlphaGo進行三番棋對弈(三盤兩勝)。今早10:30開始第一場比試,暫時由AlphaGo 以四分之一子領先,較原先預計的早完場。

柯潔曾一度陷入苦戰狀態。一場比試,雙方各有3小時思考時間。柯潔差不多用盡3小時,而AlphaGo則用了約1.5小時的累積時間。

究竟AlphaGo是如何進行訓練?

圍棋是一種走法複雜的古老棋類。19X19的棋盤,每落下一子,都有360種走法,變化之大,對人工智能來說可算是最具挑戰性的項目。簡單的啟發式演算法可以擊敗西洋棋及國際象棋,卻難以擊敗圍棋高手。

機器學習  樹狀網絡測下一步

AlphaGo所採用的,是一種新穎的機器學習技術—蒙特卡羅樹搜索(MCTS),結合監督學習和強化學習的優勢,應對圍棋的複雜性。通過訓練形成一個策略網路(Policy Network),輸入棋盤局勢作為資訊,對所有可行的落子位置形成一個概率分佈,負責計算每步棋的走法。然後再訓練出一個價值網路(Value Network),對自我對弈進行預測,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)標準,預測所有落子位置的結果。

當AlphaGo下圍棋時,會先憑「策略網路」探索落子的最佳位置,再一步步擴展,當不能擴展時,就進行棋局模擬,隨機落子,形成樹狀網絡。在類比過程中,被系統考慮得最多的位置,就成為AlphaGo的最終選擇。通過前期的機器學習,AI可憑直覺快速鎖定應對策略。

撰文 : 黎明芝  香港經濟日報記者 浙江直擊