油煙靜電機【專家推薦】靜電機保養五步驟輕鬆解決保養問題!!－捧在手心的水晶

這篇文章告訴你AlphaGo隱藏弱點以及它是如何下棋的

傑米斯哈薩比斯（Demis Hassabis），Google DeepMind CEO

企鵝智酷 | 深度解讀

這篇分析中，企鵝智酷將結合 AlphaGo 相關權威論文中提供的信息，以及這兩場比賽中李世石與 AlphaGo 表現，來用更簡潔的方式，告訴你谷歌(微博) AlphaGo 到底如何下棋，以及它有哪些被隱藏起來的弱點。

先說靜電機核心結論：

作為戰勝瞭人類圍棋冠軍的人工智能，AlphaGo （目前版本）強在小范圍戰鬥，弱點在於對全局的判斷；

AlphaGo 並非沒有“情緒”。它也會懷疑自己，隻是用另一種形式呈現（不是人類的抖手或者撓頭發）；

是誰在訓練 AlphaGo ？是它自己。用一種遠超人類效率的方式學習；

李世石如何贏？和很多圍棋專傢分析的一樣，從科技角度看，李世石必須在開局階段建立優勢，並且最好能夠更頻繁轉移戰場范圍；

未來，Alp營業用抽油煙機haGo 會將人類棋手遠遠甩在身後。它就隻能繼續和自己玩瞭。

一、AlphaGo 是如何決定下每一步棋的？

企鵝智酷沒有能夠真的打開 AlphaGo 代碼庫，去檢查它全面的運行邏輯。我們隻能從已公開的權威論文中，來梳理這個迄今為止走進公眾視野的最強大人工智能，是如何做出決策，戰勝人類的。

簡單說，AlphaGo 下的每一步棋，都依賴於“概率”。

1.當一開始，棋盤有大量空白區域，棋子較少時，AlphaGo會更願意采用“固定策略”。

這種策略來自於 AlphaGo 自己模擬訓練的數百萬場棋局（每一局都從開始模擬到結束）。這讓 AlphaGo 心中有一個大概的最佳選擇可能性，即下在點A和點B，哪個更好些。

在這個時候，AlphaGo 是通過經驗來判斷的。雖然這個經驗不來自與人類，而是來自於它結合人類下棋方式學習後，自己和自己對弈的數百萬經驗值。但這種基於經驗的判斷，是人類挑戰它的最佳機會和“恐怖”的機器推演能力相比，經驗，起碼離人類更近一些。

為什麼 AlphaGo 不在一開始就用蒙特卡羅算法，盡量窮盡所有可能性，去給出更可靠的“計算答案”，而不是“經驗答案”呢？

我們猜測，一方面是當棋局尚未真正交鋒時，各種選擇的概率差不多，沒必要做精確計算；另一方面，也為瞭節省時間。

2.當棋局有局部拼殺時，AlphaGo 的戰力就升級瞭。

這時候，再依賴那數百萬局“自己與自己下棋”的經驗，明顯是不夠的。因為棋局瞬息萬變，李世石的下法，很可能是 AlphaGo 沒有模擬過的（不要高估數百萬局訓練，和圍棋的可能性相比，隻是滄海一粟）。

這時候，AlphaGo 會不再聚焦於整個棋盤，而將計算精力縮到一個小范圍（戰鬥區域，例如右下角5*5,8*8這種）。這時候，它會啟動現場演算推理功能，即開油煙靜電機始計算每一個落子位置的後續走勢，來計算最佳一步。

這需要時間。所以，AlphaGo 在短兵相接時，不得不縮小觀察范圍，在局部啟動現場計算。這雖然失去瞭一定的“大局觀”，但換來瞭計算的效率，和電腦比，人腦的純粹計算力是相對弱勢的，所以，短兵相接，機器占大優勢。

3.當局勢需要兼顧大局和計算力時，AlphaGo 怎麼辦？

開局佈局，AlphaGo 用經驗；短兵相接，AlphaGo 用計算力。那麼在局勢復雜時，AlphaGo 的另一個特長就有用武之地瞭兼顧大局觀和計算能力。

它叫做“棋局評估器 (Position Evaluator)”。這個東西會告訴 AlphaGo ，哪些地方是“不值得”你去深度計算的。這就幫助 AlphaGo 節省大量的計算需求，隻針對局面上有價值的點，來推演，並給出最終的優勝概率排序。所以，這個評估器也叫作“價值網絡”。

這東西是怎麼實現的呢？也是經驗。AlphaGo 模擬瞭兩個“自己”，然後隨機落子計算每個位置對贏棋的價值。這種簡單粗暴的計算是人類大腦無法訓練的，隻有機器可以肆無忌憚的這麼做。

打個形式上的比喻。如果你用過掃地機器人就知道，啟動後，它並非按照人類的方式，一塊地磚接一塊的掃地，而是以一種亂序的方式，在房間裡橫沖直撞。

你以為它瘋瞭。但隻要你關上門，過一會，你會發現它已經把地打掃幹凈瞭所有的區域，都被這種隨機方式覆蓋到。

人類是不可能這麼掃地。會累死你。

但和窮盡推演相比（雖然目前不可實現），這種價值估算並不是完全準確的（掃地和圍棋在精讀與復雜度上，是完全不同的）。它是在兼顧時間和效率基礎上，一種最適合的策略。這也是 AlphaGo的一個弱點。

二、AlphaGo 也會懷疑自己

我們覺得人機對戰對李世石不公平的一個地方，是機器人不會受情緒影響，而人類棋手卻時常受困於其中。

從單一棋局看，AlphaGo 確實是不會“後悔”的，因為它的每一步，都是它認定的最佳決策。但當你通過多局去觀察 AlphaGo 時，會發現它其實也會“懷疑”，隻是這種懷疑，並不會影響它的棋力，反而會促進它的進化。

原理很簡單。AlphaGo 會懷疑自己，是因為在很多局面選擇時，最優解不止一個，或者比較接近。例如有五個點的贏棋概率都是45%，在這一局裡，AlphaGo 可能選擇瞭點A，但下一句，它可能會選擇點B……

如果點A贏瞭，以後它會一直選擇點A嗎？這個我也不清楚，論文裡沒說。但從邏輯上推斷，既然是經過瞭百萬棋局的演算，那麼一局的勝負，對於具體某點的概率提升，不會太明顯。所以，AlphaGo 在應對同樣局面時，它可能給出完全不同的下法根據幾個最優解，隨機選擇。

而這一點，也正是它可怕之處。連開發它的人類，都無法預測它的行為。因為你把隨機函數的權利，交給瞭人工智能自己。

三、AlphaGo 為什麼極少下臭棋？

我們通常把人工智能比作”高智商嬰兒“，按照這個推斷，AlphaGo 就算表現驚艷，但應該也會有下臭棋的時候。因為單純的人工智能，是無法真的模擬人類思維的。

但 AlphaGo 沒有丟過人。因為在一開始，它並非完全的“自學”。工程師們安排 AlphaGo 在網絡對戰平臺上，與人類棋手不斷下棋，用來學習人類下棋的風格和方式。當工程師們覺得 AlphaGo 足以“像個人類棋手”時，才讓它開始自己和自己更瘋狂的練棋。

你如果很早在KGS(網絡圍棋對戰平臺)上遇到過 AlphaGo ，那麼，你可能有幸看到過 AlphaGo 還是嬰兒時的樣子。

四、AlphaGo 自己訓練自己，而且效率嚇人

前面提到瞭，和人類練棋不同，AlphaGo 在學會瞭人類下棋方式後，復制瞭兩個自己，依托計算機性能優勢，不斷下棋，去豐富對局面判斷力。這種效率非常之高，甚至已經超越瞭人類歷史上所有的對弈棋局總數量。

這意味著 AlphaGo 會越來越”老練“。雖然它還是無法在每一局的每一步中，窮盡所有可能性（如果它能做到，就戰無不勝瞭），但它會不斷通過訓練積累大局觀，而隨著大局觀提升，在實戰中，它需要做現場精準推演的效率也會更聚焦人類也就越來越難贏它。

在可以預見的未來，AlphaGo 會將人類棋手遠遠甩在後面。然後，它就隻能在自己的世界裡，自己和自己下棋玩瞭。

人類棋手會像今天的電競愛好者那樣，去看看兩個“AlphaGo“ 的對局直播，一邊驚嘆，一邊感悟。

xjp208r7f2

捧在手心的水晶

xjp208r7f2 發表在痞客邦留言(0) 人氣()

捧在手心的水晶

捧在手心的水晶

油煙靜電機【專家推薦】靜電機保養五步驟輕鬆解決保養問題!!

歷史上的今天

留言列表

站方公告

活動快報

【船井...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

捧在手心的水晶

捧在手心的水晶

油煙靜電機 【專家推薦】靜電機保養五步驟輕鬆解決保養問題!!

歷史上的今天

留言列表

站方公告

活動快報

【船井...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

油煙靜電機【專家推薦】靜電機保養五步驟輕鬆解決保養問題!!