會員登入
帳號:

密碼:

記住我



忘記密碼?

現在註冊!
主選單


正在瀏覽:   1 名訪客






李喆:AlphaGo——未來的圍棋
#1
管理員
Benutzerinformationen

2017年10月13日11:05 新浪綜合
圍棋國手李喆(資料圖)

來源公眾號:杭州棋文化        作者:李喆

該論文為第五屆(2017)中國杭州國際棋文化峰會研究成果。

在未來的圍棋史上,2016年可稱為圍棋智能時代元年。AlphaGo的出現,對人工智能領域而言,是一個標誌性的事件;對圍棋界而言,它帶來了前所未有的大變局。2016年3月,AlphaGo的V18版本以4:1戰勝李世石九段,宣告新一代圍棋AI達到了前所未有的高度。

新時代驟然到來。AlphaGo對棋界帶來的生態變化,在2017年仍屬醞釀之中。在這一年,許多變化已經開始顯現,最終將會發展定型為何種形態,卻非此時所能確知。身處其中,將眼前所見所思略作記述,便是本文之目的。

就技術水平而言,AlphaGo的V18版本已經達到了略勝於人類當代最頂尖棋手的水平,而AlphaGo-Master對人類頂尖棋手取得60戰全勝,已明顯大幅超出了人類棋手的水平。此後,AlphaGo在烏鎮3:0完勝柯潔,並公佈了55局自對弈棋譜。從棋譜上看,V18版本還有明顯的人類棋譜痕跡,而Master之後則有很多全新的著法。本文挑選圍棋AI的一些棋譜片段進行結合圍棋技術、算法和思維的分析,展現以AlphaGo為代表的圍棋AI的棋力強度和特徵,反思人類思維與機器算法的同異,並探尋未來在圍棋領域人機合作的可能路徑。

一、棋手思維與圍棋AI算法的同異

人機對弈,其本質是人類思維與AI算法的博弈。圍棋是一個封閉的有限空間,但變化之多遠非人力所能窮極。要想深入分析思維與算法之爭,首先要回顧人類棋手思維的特徵。

(一)邏輯與經驗

面對圍棋這樣複雜的思維對象,人類通過幾千年來的長期實踐形成了一些綜合的思維方法,這些方法與人類普遍的認識能力相符合。概而論之,經驗和邏輯是其中最為核心的兩種方法。所謂計算,其內涵即以此兩種思維方法為核心。

1。邏輯。邏輯運算主要用於在人的能力限度內可以明確區分優劣的局面對象。例如:封閉的死活和對殺,大小明晰的官子,局部的手割分析等等。面對這些場景,人能夠通過演繹的方式,明確地比對出對殺的要點、官子的次序以及局部的效率。其方法的核心在於找到明確的比對標準以便確定優劣,例如,死活對殺的比對標準是:哪個選點能夠使己方達到或做活或殺棋的作戰目標(在同樣能達到目標的選點中,繼續比對其他方面的利益)。官子的標準則是:哪種下法能夠使己方的地域利益最大化,進而取得終局的勝利。手割分析則是較為高級的方法,其內容是假設變換次序以獲得局部分析的邏輯條件,其標準是與基礎圖的效率對比。當然,在棋手的計算中,純粹的邏輯運算是極少的,大部分都包含了經驗的成分。

2。經驗。在圍棋世界中,經驗分為兩類。一類是個人的實踐經驗,一類是整體的歷史經驗。前者依靠弈者自己的對局、復盤等圍棋訓練,後者則是經過千年累積而成的一些常法定論。在一般的意義上,前者建基於後者之上。經驗的作用,主要是處理難以量化的模糊局面。首先是形成棋感。棋感即是圍棋中的直覺,包括對當前著手的直覺、對接下來的手段和變化的直覺、對全局形勢的直覺等。在歷史經驗的累積下,還發展出了一套將經驗轉化為知識的體系,即所謂二元判斷的體系,包括「虛實、厚薄、地勢、陰陽、輕重、緩急」等等,這些是由經驗累積總結而成的一套人類的認知體系,幫助弈者對模糊局面進行定義和分析。

早期的計算機圍棋,邏輯運算是其中的重要部分。對於難以量化的局面,作者將人類的一些已有的圍棋知識轉化為機器語言輸入軟件,這種做法是當時在人工智能領域流行的「專家系統」在圍棋上的應用。這種方法在當時取得了一定的成效,但很快就陷入了瓶頸。這一代圍棋AI,以「手談」為代表。

第二代計算機圍棋,引入了「蒙特卡洛算法」,這同樣是在人工智能領域取得了一些進展的算法。這種方法建立在概率論的基礎之上,將對弈局面理解為一個有很多分支的、具有隨機性質的搜索樹。這種方法對於模糊局面的搜索處理相當有效,使得計算機圍棋的水平大幅提升,達到了業餘4-5段的實力。但這一方法也遇到了瓶頸,它缺乏類似於棋感這樣的有效剪枝手段,以致於它的搜索樹太廣而無法深入精確計算。這一代圍棋AI,以「CrazyStone」和早期的「Zen」為代表。

第三代計算機圍棋,即以AlphaGo為開創者的圍棋AI,其關鍵算法是引入了深度學習算法,並構建了一套適合於圍棋應用的算法構架。本文記述之時,AlphaGo的創作團隊DeepMind聲明將會發佈的關於圍棋AI的新論文尚未面世,因此涉及到算法原理的分析仍以2016年1月發表於《Nature》的論文為依據。

毫無疑問,DeepMind團隊於2016年1月發表的論文「Mastering the game of Go with deep neural networks and tree search」具有劃時代的意義。到2017年上半年,傚法此論文而達到職業水平的圍棋AI已有4款以上。

(二)三要素

值得注意的是,AlphaGo的算法結構在一定程度上模擬了人類思維。人類在對弈中做出決策的過程大體上可分為三個要素:直覺、計算、判斷。任給一個盤面,人類棋手會無意識地根據自身經驗和印象形成棋感,這些棋感是整個計算的基礎。職業棋手和業餘愛好者的水平差異,很大程度上在於棋感的差距。

沿著這些棋感展開計算,是通常情況下的第二步。圍棋中的計算與數學中的計算有所不同,它的特點在於模擬演算可能產生的變化,而非根據已有的數據計算出確定的結果。這就意味著,圍棋中的計算主要是一種或然性的計算,而非必然性的計算,這一方面是因為對手的落子在本質上是不能為我們所完全預知的,另一方面是因為我們的模擬驗算所憑借的由經驗而產生的棋感是不能窮盡局面的。

第三點是判斷,我們對計算得出的不同局面進行比較,從而最終能夠選擇導向更優局面的初始選點。局面判斷的本質是對計算的簡化,即算到一定程度時,後續的計算成本太大,難以為人力所及,此時我們停止後續的演算,而採取一些方法對局面進行判斷。大體上,判斷有量化和非量化兩類方法。量化的方法即以點目和子效分析為主,常作用於較為穩定的局面;非量化的方法以知識和經驗感覺為主,將模糊的局面用厚薄、虛實等概念來理解,進而幫助判斷。這部分對模糊局面的判斷是人類棋手較弱的環節,後文將以棋例對此進行分析闡述。

棋感、計算、判斷,這是弈者面對棋局做出決策的三要素。非常有趣的是,與以往的圍棋軟件不同,AlphaGo的算法結構幾乎完全復現了這三要素。神經網絡中的策略網絡(PolicyNetwork)基本上相當於人類的棋感,即盤上直覺;價值網絡(Value Network)基本上相當於判斷;傳統的蒙特卡洛算法(MC)加上快速走子(Fast rollout)則充當了計算的功能。整個AlphaGo的架構在理論上可以理解為將神經網絡和蒙特卡洛等算法工具結合為一個充分實現了對局決策三要素的系統。AlphaGo-Master的架構可能與AlphaGo-V18有所不同,但仍可能蘊含了這三個對局要素,只是具體的實現方式或有所優化。我認為,AlphaGo的成功,與它充分地實現了人類決策的整體結構相關。或者說,面對圍棋這樣不可窮盡的複雜對象,人和AI使用了類似的路徑來盡可能解決問題。這既可能存有巧合的成分,又顯然與AI是人類所創造有直接的關聯。雖然,在另一個層面,這也只是人類理解AI的一種方式。

雖然三要素的結構基本一致,但人和AI在具體這三者的實現方式上有顯著區別。這些區別的影響直接地反映在棋盤上,形成有趣的課題。以下選取棋例進行分析。

(三)棋例分析——地與勢

取材自2017年第一屆中信證券杯世界智能圍棋人機對局,DeepZenGO執黑對孔杰九段+CGI,黑中盤勝。

DeepZenGo和CGI是本次世界智能圍棋大賽的冠亞軍,兩者皆出師於AlphaGo的首篇論文。在這次比賽中,兩款AI相互對陣一勝一負,實力相當,綜合水平大約接近於AlphaGo-V18,略勝於人類頂尖棋手。賽事主辦方舉辦的這次人機對局很有意義,是對即將到來的人機合作時代進行探索。對局過程中,孔杰九段有權隨時查看CGI的推薦選點、勝率走勢和變化圖。在這局棋進行到如圖局面時,出現了非常有趣的狀況,展現了人類思維與AI算法的差異。

行至56手,右下的轉換告一段落。根據當時的解說和局後的咨詢,包括頂尖棋手在內的絕大部分職業棋手都認為此時白方局面不錯,而包括DeepZenGo和CGI在內的所有強圍棋AI都不約而同地認為黑方明顯優勢。大部分局面下,似乎一流棋手和強圍棋AI的局勢判斷不至於差別如此之大,又由於此局有一流棋手親身參與對局,使得此局尤其值得重視研究。

首先,我們來看人類棋手的判斷方式。整個右邊是地和勢的轉換,白棋以極高的效率淨吃了右下原本屬於黑棋的角,取得了三十目的實地。而黑方獲得了外圍的勢力,其價值尚未可知。對於地與地的轉換,人可以用量化的方式比較大小,而對於這種地勢轉換,量化分析失效,因為外勢無法量化為目數。面對這種情況,人類常用的方法是子效分析,即對比局部的效率或每一手交換的效率來分析局面。

在這個局面,人類棋手通常會首先對右下角白方實地的效率進行分析。其分析方法,以簡易的手割法為主,即去掉一些交換以分辨成空效率。例如,將黑方的3、9、13、37、55和白方的8、20、22、38、56這各五手棋去掉,根據經驗可以看出,白棋右下的成空效率相當之高,幾乎省略了近一手棋。在外圍沒有非常明顯的大損的情況下,此局部的手割分析便足以使棋手得出白棋不錯甚至是白棋優勢的判斷。

在對局中,從第34手開始就有可能算到此局面的最終形成,而最初的判斷在那時應該已經做出。右下的高效吃角,一方面可以通過局部手割分析判斷其有利,一方面可通過人類的對局經驗來判斷此局面吃角一方的實地利益足以抗衡黑方外勢。基於這些原因,無論是選擇了白方吃角變化的孔杰九段,還是講解和觀戰的職業高手,以及局後咨詢的許多一流棋手,都認為此時白棋局勢很好,分歧只在白棋是「不錯」還是「優勢」。

然而無論是對局中的DeepZenGo和CGI,還是觀戰的其它強AI,都認為白方從34手開始吃角的結果明顯虧損,至如圖局面,已經是黑棋明顯優勢,如DeepZenGo認為黑方勝率達到了65%。差異只在優勢反映在勝率上的幅度,越強的AI,優勢的勝率幅度越大。

人與AI對這個局面的判斷差異如此顯著,並非是偶然現象。在一些地勢均衡的局面下,通常人類高手和強圍棋AI的判斷較為接近;但在地勢轉換的局面下,人與AI由於判斷的具體方法不一樣而容易產生不同的結論。如前所述,人類通常以手割分析等方法來處理實地局部的子效分析,這部分的分析能夠建立在較強的邏輯基礎之上。但對於外勢和中腹模糊地帶的價值判斷,則是以經驗和感覺為手段,感覺「黑外勢的價值似乎不如白實地那麼大」。這種基於經驗和印象的判斷,自然是不十分準確的。但由於人類棋手的判斷方法基本一致,在以往人與人的對局中,這種判斷的不準確尚不能得到十分明顯的呈現。

此局後來的進程印證了AI的判斷,白方在中腹大鬧天宮順利做活,卻最終實地不足而中盤落敗。AI的勝率判斷當然也不是絕對準確,真正完美的判斷是與概率無涉的。但是,這一代AI在算法上並未如人類一般區分「實地」和「外勢」,也就沒有如人類一般在地勢判斷上的方法差異。人類能夠較為準確地對實地進行量化分析,而在分析外勢時不能保持同樣的質量。這一強弱差別在人與人對弈時並未明顯呈現,但在人機對弈時得到體現。也就是說,在根本上並非AI重視外勢或長於對外勢的判斷,而是人類棋手不善於分析外勢的這個弱點在均衡的AI面前暴露出來。

圍棋AI並沒有專門針對外勢進行分析,甚至它不必要理解什麼是外勢。它的方法在於,一方面使用了蒙特卡洛和快速走子進行大量的搜索,每一次搜索都模擬到棋局結束。如果將這一過程理解為計算,那麼當然包含了大量對中腹的計算。另一方面,AI通過自對弈訓練出來的價值網絡能夠不帶偏見和傾向地分析局面,在它達到很高的水準之後,自然壓制了人類的弱項。

關於人類思維與AI算法的對比,尚有諸多話題值得後續研究及延展論述,本文暫止於此。

二、Master——全面的超越

從圍棋的技術角度而言,模糊局面這一弱項使得人類面對V18水平的圍棋AI時已然落入下風。在當時,很多人已經意識到判斷並非人類所長,而將人類的優勢希望寄托於複雜局面的計算能力之上。這一期望有V18對陣李世石九段時的唯一敗局以及其他AI的諸多敗局為證。然而,AlphaGo-Master及其後續版本向我們展現了,所謂的戰鬥弱點,只在早期版本中存在。達到Master的水平,意味著圍棋AI對人類棋手在絕對實力上的全面超越,人類向AI學棋的時代正式到來了。

(一)弱點的消失

在2016年末至2017年初Master對人類的60連勝中,Master似乎並未面對非常複雜的戰鬥局面。這一方面是因為雙方實力不在同一層面,尤其是序盤階段人類常常要面對自身較弱的模糊判斷,很容易在幾十手後便落入明顯下風;另一方面是由於60局都是網絡快棋,人類想要保持局面較長時間的均勢殊為不易。

這一代的圍棋AI,一旦取得明顯優勢,常常會選擇退讓直到小勝。這是因為,對於AI而言,在較大的優勢下,通常會存在很多條能夠保持優勢的路徑,這些選擇雖然在目數上存在差異,但在勝率上可能較為接近,甚至有時目數虧損的選擇勝率更高。AI的隨機性使得它常常會選到那些目數虧損的下法最終導向小勝。圍棋AI只求取勝不求多勝的特點在2016年第一次人機對弈時還不能為多數人所理解,但在今天已為人所熟知。

2017年5月,在烏鎮人機對弈的第二局中,AI面對複雜局面的能力得到了些許展現。在當時很多棋手認為AlphaGo似乎面臨一定程度的危機,但從事後的復盤研究來看,那時AlphaGo已經勝券在握,只是人類棋手和一些弱於AlphaGo的程序還無法算清局面。AlphaGo不懼複雜局面的這一特點在此後公佈的55局自對弈中得到了淋漓盡致的體現。在那55局中,有很多局的複雜程度遠勝於AlphaGo與人類對弈的所有對局,而AlphaGo通常都能在非常複雜的局面下找到路徑最終仍形成接近的局勢。在那55局中,有接近一半的對局最終形成了一子以內的勝負,可見兩方局面之膠著。

無論是對殺、官子、劫爭,在55局自對弈中都可以看到很多,AlphaGo的下法幾乎找不到問題。而它的佈局和序盤又大出於人類定式之外,甚至通過復盤研究都難於理解。這意味著,對於人類棋手所處的水平而言,AlphaGo升級為Master版本之後,AI的弱點已經基本消失了。當然這並不意味著AlphaGo已經完美到沒有弱點,而是它的弱點已經不足以為人類棋手所捕捉。更為準確的說法是,圍棋AI本無所謂優缺點,只是在與人類棋手對比時才會呈現出優缺點,從人的認識出發,人類的弱點反饋為AI的長處,人類的長處反饋為AI的弱點。如今人類棋手的長處在棋盤上也被AI以算法優化所壓制,這就使得圍棋AI的弱點看起來完全消失了。

據DeepMind團隊透露,Master能夠對V18版本達到讓三子的水平。即使考慮AI自對弈時讓子的過擬合現象,讓三子也只可能是略有水分,從絕對實力而言達到讓兩子應是較為保守的估計。而V18以及大致處於同等水平的絕藝、DeepZenGo等AI已經能夠在勝率上明顯壓制頂尖棋手。基於這一信息以及對AlphaGo自對弈棋譜的深入研究,一線的棋手普遍認同與AlphaGo之間存在兩子左右的差距。這一差距,加上AlphaGo不像人類有發揮失常的偶然性,使得AlphaGo在對陣人類棋手時能夠保證100%的勝率,一局不失。

以下用選取棋例分析略作闡述。

(二)棋例分析

取材自AlphaGo自對弈第55局,白勝1/4子。

序盤的下法暫且略過。白74、黑75是正常下法,白欲先手得角,黑反搶先手,此時白76按照人類的正常思維一定會在75的左邊擋,最多是考慮是否先在5位下一路先虎一下再擋角,這兩者都是與74所謂「相連貫」的下法。

然而,實戰白棋碰在了76位。對人類棋手而言,這一步不僅難於下出,甚至在打譜時也難於理解。首先,這步棋顯然不在人類棋手的第一感中。其次,在左上急需定型的情況下,按照慣性思維,也難以想到脫先。再者,這步棋的目的相當不明確,其時機也較難理解。

當然,我們根據AlphaGo的復盤系統可以對此著進行分析,從而用人類的方式理解其中的邏輯,進而品味到此著的妙味。但這畢竟是難以想像的一手,如果AlphaGo的策略網絡使得它的第一感就是這步,說明它的棋感已經領先於人類棋手太多。

更有趣的是,黑77再次難以想像地脫先了。它既沒有在左上角懲罰白棋的脫先,也沒有跟著76選擇應手,而是直接脫先去了左下角,其選點也較為少見。這兩步棋。如果出現在業餘的棋譜中,恐怕會被視為亂下的代表。亂下和高著的共同點,在於難以理解。對這樣的著法,人類棋手難以在未經深入研究的情況下給出合理的邏輯鏈條,因此很多棋手感到AlphaGo自對弈棋譜中的很多著法「看不懂」。

這盤棋的中盤戰鬥異常複雜。用人類棋手的語言來說,經過了一系列的厚薄、地勢轉換,雙方形成了非常膠著的局面。行至182手,全局已經被分割為11塊棋,並出現了一個事關死活的劫爭。最終,劫爭持續至236手,形成大型轉換,形勢極度細微。

此局共弈330手,黑方盤面7目。經過複雜的官子大戰,白方在左下使出妙手收官,最終以最微弱的優勢取得了勝利。

這一盤自對弈棋譜綜合地展現了AlphaGo的棋感、複雜局面、劫爭和官子能力。以下另選一局,專門體現AlphaGo面對複雜對殺時超出人類的能力。

取材自AlphaGo自對弈第51局,白中盤勝。

具體的棋局進程在此不作評述。

行至黑左下三角的這一手拐,全局形成了令人眼花繚亂的超級複雜局面。黑白雙方相互層層包圍、切斷,細數之,全局被分割為17塊棋,其中只有4塊是確定無疑的活棋,另外13塊都處在生死不明的狀態。這種對殺的激烈程度前所未見,即便是古代以激烈著稱的當湖十局亦不能及。此後雙方形成轉換,白方吃掉左邊,黑棋鯨吞右邊,白棋繼而取得下邊,從而取得了最終的勝利。

令人讚歎的是,在如此複雜的對殺局面,職業棋手經過仔細的復盤,也未能找出雙方明顯的問題手。這意味著在某種意義上,這局複雜對殺、轉換的結果甚至可能遠在對殺開始之前早已注定。

由這兩局棋例分析可以看出,AlphaGo在進化為Master版本之後,對人類的棋力形成了全面的超越。無論是佈局、序盤,還是戰鬥、劫爭、官子,AlphaGo的水平對於人類棋手而言已不存在短板。

這再一次提醒我們,圍棋的人機對抗已經沒有競技上的意義,當前已經進入了人類棋手向AI學棋的時代。

三、AlphaGo——未來的圍棋

AlphaGo對人類棋力的全面超越,與Master可能採用的新方法有關。與V18水平接近的圍棋AI尚徘徊在略勝於人類頂尖的水平,但仍會常常輸給人類棋手,其棋譜中的創造性著法也較為少見。Master所採用的新方法,或許是結構上的調整,其具體方法在寫作本文時尚不能得知。由算法推想,神經網絡應當仍是主體,其中的策略網絡和價值網絡可能已經進化到相當驚人的地步,使得它很快能發現與人類棋感完全不同的好手,並對局面做出迅速而異常精準的判斷。

對於棋手而言,2017年可以說是向AI學棋的第一年。在這一年,職業棋手對許多下法的認識產生了翻天覆地的變化。

(一)點三三之興起

取材自AlphaGo自對弈第19局。

黑7面對星位直接點三三,是AlphaGo進化為Master版本之後非常喜愛的下法。這一下法的核心,在於避免過早在二路扳粘,不至於使對方外勢較厚,保留一些借用甚至是攻擊的手段和可能性。

在自對弈棋譜公開之後,這一下法逐漸在職業棋戰中大量出現,被公認為有力的手段,成為針對星位的常見下法。

本文所要反思的是,這一下法為何沒有出現在人類的棋譜之中,而被AlphaGo發現?

究其原因,從人類的角度而言,這一下法的未能發現與人類積累圍棋知識的方法有關。如前所述,人類的圍棋經驗包含整體經驗和個人經驗。所有下到職業甚至頂尖的棋手,都經歷過從小學棋的階段。在學棋的階段,點三三的定型手法都必然包含二路扳粘的交換,而由於這一交換使得對方外圍較厚,在實踐中過早點三三容易吃虧,因此成為了在對方已有連片時的場合下法。

如圖9、11即為傳統的二路扳粘定型手法。

可以說,在AlphaGo帶來顛覆以前,二路扳粘的定型手法已經與點三三連在一起印在所有學弈者的圍棋知識之中,即使是下到最頂尖的棋手,也很難以個人的能力去反思這樣一些整體經驗留下的知識和慣性。

另外,關於點三三的整體經驗之形成,又存在一些歷史的原因。在中國古代,一直到民國以前,規則都要求還棋頭,即終局時多一塊則需多還一子。在這一條件下,雖然座子提供了很多直接點三三的機會,但點三三顯然將使己方平白多出一塊棋,在還棋頭規則下已經先虧一子。在這種條件下,點三三自然不會出現,而掛角成為最常見的起手下法。而日本古棋取消了還棋頭和座子,起手以小目居多,很少有人下在星位,也使得研究點三三的機緣不多。

現代圍棋承襲自中日古棋。如面對星位的小飛掛,在施襄夏的《弈理指歸》中已明確說明是掛角最好的選點,也是AlphaGo出現之前面對星位的最常見下法。在這種歷史的強大慣性下,沒有人能夠跳出來,提出面對星位可以直接點三三,可以不在二路扳粘。

歷史慣性的另一個例子,是妖刀定式。

(二)妖刀定式之滅亡

前4手,是著名的妖刀定式,以白2、4狀似妖刀而得名。妖刀定式與雪崩定式、大斜定式齊名,是聲名卓著的三大複雜難解定式之一,在近幾十年來不斷被研究、推敲,直到2016年仍然是職業棋界的流行變化之一。如圖,白10通常是在黑1上一路扳,其後可能出現非常複雜的引征局面,在比賽中屬於比拚研究深度的定式下法。

然而,AlphaGo的出現使得妖刀定式驟然接近於滅亡。其原因,在於AlphaGo在化身為Master與人類棋手對戰時,兩次使用了白10、12這樣不符合常形的俗手下法並勝出。其後,AlphaGo的作者之一Aja Huang博士公佈,AlphaGo認為這一所謂定式下法行至白10、12沖,黑棋勝率已大幅下跌15%。這一數據的公佈,輔以AlphaGo目前的實力為保證,使得尚存疑惑的棋手也放棄了這個黑棋的下法。

有趣的是,當棋手放下成見,重新審視這一變化時,發現對於白10這一下法的正確認識原本並非不可能。

如圖,是白10俗沖之後的基本定型。人類棋手最初的判斷,是白棋雖然取得了一定的實地,但黑方獲得了不錯的外勢,總體感覺黑棋外勢優於白方實地。

但當AlphaGo公佈勝率之後,很多棋手對此變化進行了深入的反思。一位高手告訴我們,他使用手割方法分析這一變化,得出的結論與AlphaGo接近,也是白棋便宜。其手割圖大致如下:

首先,黑角變為白2先占角,從佈局理論可知是黑棋稍虧。黑3-白6是雙方正常,此後黑7是明顯不好的下法,白8脫先正常,黑9、11又不太好,白12繼續脫先。此後黑13-白16交換正常,白18-黑21交換正常,黑由於小目位置死去一子而送白22一手。由此手割圖可以看出,黑棋沒有明顯便宜的交換,而白方有三處佔得便宜,因此原圖當為白棋明顯有利。

這一分析相當簡潔有力,令我信服。值得反思的是,在AlphaGo出現之前,雖然也有直接俗沖的棋譜,但大家並沒有對此後的變化進行這樣有效的手割分析,以致於錯過了這一簡明變化而沉溺於複雜的引征變化之中。

與點三三一樣,這也是歷史加之於人的思維慣性的展現。從小學習、背誦的定式,其關鍵著手已經形成為棋感,難以抹去。即使有所發現,也很難引起重視。

從這一點來看,吳清源大師更為令人敬仰,他的圍棋生涯不斷地超越了歷史慣性的限制。例如,大雪崩定式的內拐下法,在當時是令人驚訝的新手,但在Aja Huang 公佈的AlphaGo變化圖中,大雪崩的內拐被確認為最佳的一手。

(三)未來的圍棋

「未來的圍棋」這一講法具有雙重含義。

其一,是指AlphaGo所下出的棋,假如沒有AI的出現而以人類棋手的不斷進步而論,可能會是未來幾百、幾千年後下出來的棋。在這樣的歷史進程中,需要出現一些如吳清源大師這樣極富創造力的棋手,使得內拐、點三三、妖刀俗沖等下法能夠超越歷史慣性的束縛而出現。

AlphaGo之所以能夠創造出一系列全新的有效下法,便是因為它逐漸超越了人類的圍棋經驗,而更多地依賴於它自對弈的經驗。在它自對弈的不斷嘗試中,一些原本不被注意的選點在大量的帶有隨機性的對弈中被發掘出來,其中有良好效果的著法通過訓練在AlphaGo的策略網絡中不斷提升其優先度,最終成為AlphaGo的直覺下法。例如點三三這一手,在我們看來是震撼的新手,但在AlphaGo那裡恐怕早已實踐過百千萬局。

其二,是探討未來的圍棋會是何種面貌。假如DeepMind關於AlphaGo的第二篇論文順利發佈,將會有許多AI能夠模擬復現Master的架構,從而通過一定時間的訓練達到接近甚至超過Master的水平。其中,很可能有一些AI將會發佈單機版,以供愛好者和職業棋手購買使用。也就是說,全面超越人類水平的圍棋AI單機版進入市場,已經是在不遠處可以看到的事情。在這一條件下,整個圍棋界的生態將會發生很大的變化。

對弈網站、教學模式、競賽方法等等都需要進行與之相適應的調整。從業餘愛好者到職業棋手的練棋方式都將發生根本上的變化。尤其是對於職業棋手和衝段少年而言,借助AI的訓練將成為最重要的訓練方式。如何在訓練中將AI的價值最大程度地發揮,成為一個關乎競技水平的重要課題。

從圍棋技術而言,人類棋手的水平將得到前所未有的大飛躍,尤其是佈局到序盤的階段,可以完全地借助AI來進行學習和分析,大幅提高人類棋手的薄弱環節。隨著這一次水平飛躍的速度差異,競技生態也可能發生一定程度的變化。短期來看,現有的職業高手中哪些人能夠較快地掌握新式訓練方法,並且能夠有效地將AI著法轉化為自身理解,其競技成績將得到顯著提升。長遠來看,歐美棋手通過從小與圍棋AI的訓練成長為世界一流棋手也成為可能。

更為重要的是,有了圍棋AI的幫助,圍棋的正面推廣、圍棋文化的發展都有了全新的利器。

一切變化都在向我們走來。2017年,在圍棋史上可能會被認為是過渡的一年。未來的圍棋,令人期待。


10/14 19:37
生成PDF文件 列印







可以查看文章。
不可發文。
不可回復。
不可編輯自己的文章。
不可刪除自己的文章。
不可發起投票調查。
不可在投票調查中投票。
不可上傳附件。
不可不經審核直接發文。
不可使用主題類別。
不可使用HTML語法。
不可使用簽名檔。

[高級搜索]


Powered by XOOPS © 2001-2015 The XOOPS Project