會員登入
帳號:

密碼:

記住我



忘記密碼?

現在註冊!
主選單


正在瀏覽:   1 名訪客






阿爾法圍棋進化到“零” 自學三天勝人千年
#1
管理員
Benutzerinformationen


2017年10月19日10:06 新浪體育

Open in new window

AlphaGo Zero

文章來源: 財新網作者:王爍

今天(10月19日)凌晨,谷歌旗下Deepmind團隊在《自然》雜誌發表人工智能界期待已久的論文《無須人類知識掌握圍棋》(Mastering the game of go without human knowledge),印證了一個人們已經猜到的事實:今天的阿爾法圍棋(AlphaGo)已經完全不是人了。

阿爾法圍棋於2015年10月面世,擊敗歐洲冠軍樊麾;2016年3月擊敗人類頂尖棋手之一李世石;2017年元旦前後在網絡上化名大師(Master),60比0完敗前來車輪戰的人類一流棋手;2017年5月在烏鎮3比0戰勝當下人類最強者柯潔。

隨後,Deepmind團隊放出阿爾法圍棋自戰50局,人類陷入迷茫,完全看不懂。讀完論文,就明白了為什麼。

阿爾法演化得太快。

阿爾法樊麾版和李世石版是阿爾法圍棋1.0版。它用了三種算法,策略網絡加價值網絡加蒙特卡洛樹搜索,分別對應於人類的棋步選擇、形勢判斷和深算;訓練時,阿爾法1.0版走的是監督學習+強化學習路線,所謂監督學習,就是用人類的棋譜餵牠,在此基礎上,自我對弈,強化學習。阿爾法以人為師,學了半年,戰勝人類。

到了阿爾法大師,已進化到阿爾法1.5版。大師仍然以人為師,但不再是三種算法並行,而是化歸為一種創新的自我強化學習算法。如果我沒讀錯論文的話,大體是自我對弈,用蒙特卡洛樹搜索尋找最優下法,將輸出結果作為輸入值重新跑算法,如是反复迭代。

大師很強,但還是人的圍棋。今天面世的論文則介紹了非人的圍棋,阿爾法圍棋2.0。除了使用新的自我強化學習算法,它完全放棄監督學習,而是直接從圍棋規則開始,自我對弈,跑強化學習算法。

論文解釋,在現實生活中,專業數據集往往昂貴或不可得,甚至可能給機器增加一層“天花板”。完全讓機器自學,才有可能讓它超越人類的局限性,發現前所未見的新方法。

這個阿爾法從零開始,所以,它的名字叫作零(Zero)。

谷歌用這個名字告訴人類,零需要的人類知識是零。它完全沒有向人學棋,通過自我對弈學習。學到第36個小時的時候,已經超過李世石版;學過三天,自我對弈490萬局,學成出關。

阿爾法零與李世石版大戰100局,100比0。與戰績一邊倒相應的是算力消耗的一邊倒:阿爾法零是單機版,只用4個TPU,李世石版使用了176個GPU(圖形處理器)和48個TPU,而且學習時間是好幾個月。

算法優化提升效率太多,大量減少對算力的要求。這篇論文因為提交時間較早沒來得及提到,但我猜在烏鎮戰勝柯潔的那個阿爾法,肯定已是零——這次只帶一台機器過來就可以了。

有意思的是,阿爾法零在預測職業棋手的下一步上,並不如李世石版精確,這說明零下的棋跟人下的棋已經不是同一種圍棋:它不需要預知人類的下一步,因為人類下得有點差。

Open in new window


上圖是零的成長圖,中間那條有從0到72數值的是時間線,對應著從創世到72小時。

從時間線引出來的虛線,指向與相對應的零下的棋。作為一個人類棋手,我看著很感慨:從零開始,它穩定、迅速地變強。

3小時,零在亂下。

10小時,發現簡單定式。

16小時,發現小雪崩定式。

19小時,發現死活、厚勢與實地的邏輯。

24小時,發現小目一間高掛定式。

36小時,也就是超越李世石版的時候,發現星位一間夾點角定式。

55小時,發現非人類定式。

72小時,出關。

人類學習的時間線是什麼樣的呢?今天的世界冠軍級棋手,5歲學棋,15歲出關,20歲前拿冠軍,否則終身無望。

人類學棋十幾年,不如阿爾法零學3天。

阿爾法零出關後,在內部測試中,Deepmind團隊用更大的神經網絡,更長的時間(40天),更多的自我對弈(2900萬局),訓練了一個加強版的阿爾法零,與阿爾法大師對戰100番棋,89比11勝出。

阿爾法圍棋各個版本的Elo積分如下,:

阿爾法零(加強版的AlphaGo Zero): 5182

擊敗當下第一人柯潔

阿爾法大師(AlphaGo Master):4858

60比0擊敗人類一流棋手團

阿爾法李世石(AlphaGo Lee): 3739

擊敗世界冠軍級棋手李世石

阿爾法樊麾(AlphaGo Fan): 3144

擊敗歐洲冠軍樊麾

附帶解開了一個謎。烏鎮大戰時,Deepmind團隊表示當時的阿爾法圍棋能讓一年前擊敗李世石的那個版本三個子。棋界雖早已服膺阿爾法的棋力,但仍然認為讓三個子是天文數字,不可能。現在,從積分上看,阿爾法零讓李世石版三個子當無問題。

這當然不是說柯潔能讓李世石三個子,而是說烏鎮大戰雖然表面激烈但柯潔沒有一點機會,一切盡在阿爾法零的算中,真正是深不可測。

也有個好消息,很可能我們已經看到圍棋之神的輪廓。它長得跟阿爾法零差不多。

阿爾法零與阿爾法大師算法相同,區別只在於一個自已學,一個向人類學,雖然兩者對戰中零以大比分壓倒大師,但也不是沒有勝負。89比11的比分說明兩點:

第一,正如論文結論所說,哪怕是在圍棋這類極有挑戰性的領域,純粹強化學習路徑完全可行。只需知道規則,無需預備知識,沒有先例,不用人類指導,仍能通過訓練達到超人水平。人類下了千年圍棋,累積了數百萬張棋譜,集體智慧凝聚的知識,在幾天之間,就被阿爾法零重新發現,還找到了人類聞所未聞的新策略,為這最古老的遊戲注入了新內涵。

第二,即使如此,阿爾法零與阿爾法大師仍是有勝負的,零強過大師,但邊際改進已迅速下降。圍棋之神的Elo積分,我大膽猜測,6000分打住了。

這個判斷對不對?只能等量子計算機出關以後能不能再度刷新認知了。量子計算機利用量子力學的態疊加原理,算力遠遠勝過傳統計算機。全世界走在最前面的也是谷歌的量子計算機,使用22位的量子位(quabits)計算。


10/19 15:42
生成PDF文件 列印







可以查看文章。
不可發文。
不可回復。
不可編輯自己的文章。
不可刪除自己的文章。
不可發起投票調查。
不可在投票調查中投票。
不可上傳附件。
不可不經審核直接發文。
不可使用主題類別。
不可使用HTML語法。
不可使用簽名檔。

[高級搜索]


Powered by XOOPS © 2001-2015 The XOOPS Project