close
【解密阿老師】 從 AlphaGo 到Master, 最大優勢是通用算法
本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。
新智元編譯作者:Steffen Ho lldobler 等編譯:熊笑 弗格森 文強
【新智元導讀】AlphaGo 系統基於樹搜索,由神經網絡驅動。然而,所有這些技術都不是新的,也被其他圍棋 AI 的開發者使用。那麼,是什麼讓 AlphaGo 如此特別?來自德國和俄羅斯的幾位研究人員在《Lessons Learned From AlphaGo》一文中探討瞭這一問題。他們指出,AlphaGo 實施的每一個細節都是多年研究的結果,而它們的融合才是 AlphaGo 成功的關鍵。
論文地址:http://ceur-ws.org/Vol-1837台中通馬桶價格/paper14.pdf
圍棋對 AI 的挑戰難點在於棋盤空間的大小,它包含10170 個位置狀態空間。作為比較,國際象棋的狀態空間約為1043。這樣的遊戲都具有高分支因子,也就是當前狀態下的可能下法的數量。圍棋中可能的遊戲場景的數量要大於宇宙中的原子數。
AlphaGo ?a href="http://workth.8e.com.tw/">各軍營單位抽肥拈_發者設法解決瞭這一問題。他們設計的系統基於樹搜索,由神經網絡驅動。
然而,所有這些技術都不是新的,也被其他圍棋 AI 的開發者使用。
那麼,是什麼讓 AlphaGo 如此特別?
來自德國和俄羅斯的幾位研究人員在《Lessons Learned From AlphaGo》一文中探討瞭這一問題。他們在圍棋 AI 發展的大背景下討論瞭 AlphaGo 的設計。通過展示 AlphaGo 的架構。
文章顯示出, AlphaGo 實施的每一個細節都是多年研究的結果,而它們的融合才是 AlphaGo 成功的關鍵。
圍棋的歷史長達數千年,是一種非常受歡迎的智力遊戲和比賽。和國際象棋、跳棋一樣,圍棋屬於完美信息博弈。也就是說,遊戲的結果完全取決於兩個玩傢的策略。這使得從計算角度解決圍棋問題很有吸引力,因為我們可以依靠機器來找到最佳的下子策略。然而,由於搜索空間巨大,這一任務非常困難。因此,圍棋被認為是AI 的理想前沿陣地,曾被預計在十年內無法實現對人的勝利。
實際上,就在多一年多以前,雖然有許多圍棋 AI ,卻幾乎沒有達到人類高手水平的,更不用說與職業棋手相抗衡。然而,在2016 年初,Google DeepMind 發表瞭一篇文章,表示他們的AlphaGo 能夠擊敗職業棋手。幾個月後,AlphaGo 在正式比賽中擊敗瞭圍棋世界冠軍,這是非常重要的事件,因為“大挑戰”被完成瞭。
AlphaGo 的 CNN 的輸入部分是當前的棋局,輸出部分是對人類對手下一步棋的預測
回想一下,使用神經網絡的最初目的是模擬人類在下圍棋時的思維過程。 AlphaGo 使用神經網絡來預測人類對手的下法。基於此,AlphaGo 的 CNN 的輸入部分是當前的棋局,輸出部分是對人類對手下一步棋的預測。
描述得更精確些,即為瞭訓練 CNN,AlphaGo 的開發者在圍棋服務器 KGS 上選取瞭三萬盤棋局,並從每一局中隨機抽取對戰的位置及棋手隨後的行棋。這些應對的行棋就是神經網絡預測的目標。
輸入位置轉換為48 個特征,表示每個交叉點棋子的顏色、四周相鄰位置為“空”的數量和一些其他信息。這些特征都根據以前的研究結果 [CS15] 進行瞭選擇。
因此,輸入層是一個 19×19×48 堆棧,包括瞭棋盤上每個交叉點的每個特征的值。CNN 有 13 個層,每層 256 個濾波器。 輸出層的尺寸為 19×19,輸出中的每個單元都包含一個人將棋子放在相應交叉點的概率。
神經網絡通過標準反向傳播進行訓練。上述方案代表瞭一種監督學習方法,因此,我們將由此所得到的網絡稱為 SL 網絡。不過,AlphaGo 還使用瞭強化學習。
神經網絡與蒙特卡洛(MCTS)的融合
圖:AlphaGo中的蒙特卡洛樹搜索。在選擇階段,決策主要受到SL網絡(a)中得出的概率優先的影響。
AlphaGo 中的神經網絡用來幹什麼?SL 網絡在 MCTS 的選擇階段使用,用於鼓勵探索(exploration)。一個好的選擇規則會對已知走法進行優化,並且探索新的下法。 AlphaGo使用瞭各種不同的UCT規則來選擇行動,優化方程式x(a) + u(a),其中,x(a)是對行動(走法)的評估。u(a) 是P(a) 的一部分,即SL神經網絡預測出來的概率。在一個場景中,CNN會偏向MCTS,來嘗試新的走法,這些走法一般都是非常罕見的,但是對於CNN來說,卻是一個最優解。
圖: AlphaGo中的學習通道。SL 指監督學習;RL 指 強化學習。
雖然增強學習網絡被證明比 SL 網絡更強,但是,當走法的選擇經過SL網絡提升時,AlphaGo的整體表現會更好。有這樣一個事實可以解釋這一現象——SL 網絡更像人類,它是經由真實的人類對弈訓練的。人們總會傾向於進行更多的貪多,有時是處於對弈中的錯誤,有時則是因為熱情。
雖然如此,增強學習網絡在 AlphaGo 的其他部分台中通馬桶推薦找到瞭用武之地。也就是被用於評估價值函數的價值網絡。
AlphaGo 最大的優勢是應用瞭通用算法
本文探討瞭首個精通圍棋這項運動的人工智能 AlphaGo 的相關現象。在此重述們一下相關要點。定義瞭圍棋的規則後,我們解釋道計算機通過遍歷博弈樹從而掌握瞭這一遊戲。然而,圍棋的博弈樹極其龐大,大到需要應用如 MCTS 之類的統計方法。我們在 MCTS 中加入瞭幾個改進措施,然後就看到 AlphaGo 使用卷積神經網絡來進一步加強瞭 MCTS。
可以說 AlphaGo 最大的優勢就是它應用瞭通用算法,而不是僅局限於圍棋領域的算法。AlphaGo 證明瞭像圍棋這樣復雜的問題都可以通過先進的技術解決。深度學習已經 被成功應用於圖像及自然語言處理、生物醫療及其他領域。AlphaGo 的開發者們所使用的方法或許也可被應用於上述領域。
和訊網今天刊登瞭《【解密阿老師】 從 AlphaGo 到Master, 最大優...》一文,關於此事的更多報道,請在和訊財經客戶端上閱讀。
本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。
新智元編譯作者:Steffen Ho lldobler 等編譯:熊笑 弗格森 文強
【新智元導讀】AlphaGo 系統基於樹搜索,由神經網絡驅動。然而,所有這些技術都不是新的,也被其他圍棋 AI 的開發者使用。那麼,是什麼讓 AlphaGo 如此特別?來自德國和俄羅斯的幾位研究人員在《Lessons Learned From AlphaGo》一文中探討瞭這一問題。他們指出,AlphaGo 實施的每一個細節都是多年研究的結果,而它們的融合才是 AlphaGo 成功的關鍵。
論文地址:http://ceur-ws.org/Vol-1837台中通馬桶價格/paper14.pdf
圍棋對 AI 的挑戰難點在於棋盤空間的大小,它包含10170 個位置狀態空間。作為比較,國際象棋的狀態空間約為1043。這樣的遊戲都具有高分支因子,也就是當前狀態下的可能下法的數量。圍棋中可能的遊戲場景的數量要大於宇宙中的原子數。
AlphaGo ?a href="http://workth.8e.com.tw/">各軍營單位抽肥拈_發者設法解決瞭這一問題。他們設計的系統基於樹搜索,由神經網絡驅動。
然而,所有這些技術都不是新的,也被其他圍棋 AI 的開發者使用。
那麼,是什麼讓 AlphaGo 如此特別?
來自德國和俄羅斯的幾位研究人員在《Lessons Learned From AlphaGo》一文中探討瞭這一問題。他們在圍棋 AI 發展的大背景下討論瞭 AlphaGo 的設計。通過展示 AlphaGo 的架構。
文章顯示出, AlphaGo 實施的每一個細節都是多年研究的結果,而它們的融合才是 AlphaGo 成功的關鍵。
圍棋的歷史長達數千年,是一種非常受歡迎的智力遊戲和比賽。和國際象棋、跳棋一樣,圍棋屬於完美信息博弈。也就是說,遊戲的結果完全取決於兩個玩傢的策略。這使得從計算角度解決圍棋問題很有吸引力,因為我們可以依靠機器來找到最佳的下子策略。然而,由於搜索空間巨大,這一任務非常困難。因此,圍棋被認為是AI 的理想前沿陣地,曾被預計在十年內無法實現對人的勝利。
實際上,就在多一年多以前,雖然有許多圍棋 AI ,卻幾乎沒有達到人類高手水平的,更不用說與職業棋手相抗衡。然而,在2016 年初,Google DeepMind 發表瞭一篇文章,表示他們的AlphaGo 能夠擊敗職業棋手。幾個月後,AlphaGo 在正式比賽中擊敗瞭圍棋世界冠軍,這是非常重要的事件,因為“大挑戰”被完成瞭。
AlphaGo 的 CNN 的輸入部分是當前的棋局,輸出部分是對人類對手下一步棋的預測
回想一下,使用神經網絡的最初目的是模擬人類在下圍棋時的思維過程。 AlphaGo 使用神經網絡來預測人類對手的下法。基於此,AlphaGo 的 CNN 的輸入部分是當前的棋局,輸出部分是對人類對手下一步棋的預測。
描述得更精確些,即為瞭訓練 CNN,AlphaGo 的開發者在圍棋服務器 KGS 上選取瞭三萬盤棋局,並從每一局中隨機抽取對戰的位置及棋手隨後的行棋。這些應對的行棋就是神經網絡預測的目標。
輸入位置轉換為48 個特征,表示每個交叉點棋子的顏色、四周相鄰位置為“空”的數量和一些其他信息。這些特征都根據以前的研究結果 [CS15] 進行瞭選擇。
因此,輸入層是一個 19×19×48 堆棧,包括瞭棋盤上每個交叉點的每個特征的值。CNN 有 13 個層,每層 256 個濾波器。 輸出層的尺寸為 19×19,輸出中的每個單元都包含一個人將棋子放在相應交叉點的概率。
神經網絡通過標準反向傳播進行訓練。上述方案代表瞭一種監督學習方法,因此,我們將由此所得到的網絡稱為 SL 網絡。不過,AlphaGo 還使用瞭強化學習。
神經網絡與蒙特卡洛(MCTS)的融合
圖:AlphaGo中的蒙特卡洛樹搜索。在選擇階段,決策主要受到SL網絡(a)中得出的概率優先的影響。
AlphaGo 中的神經網絡用來幹什麼?SL 網絡在 MCTS 的選擇階段使用,用於鼓勵探索(exploration)。一個好的選擇規則會對已知走法進行優化,並且探索新的下法。 AlphaGo使用瞭各種不同的UCT規則來選擇行動,優化方程式x(a) + u(a),其中,x(a)是對行動(走法)的評估。u(a) 是P(a) 的一部分,即SL神經網絡預測出來的概率。在一個場景中,CNN會偏向MCTS,來嘗試新的走法,這些走法一般都是非常罕見的,但是對於CNN來說,卻是一個最優解。
圖: AlphaGo中的學習通道。SL 指監督學習;RL 指 強化學習。
雖然增強學習網絡被證明比 SL 網絡更強,但是,當走法的選擇經過SL網絡提升時,AlphaGo的整體表現會更好。有這樣一個事實可以解釋這一現象——SL 網絡更像人類,它是經由真實的人類對弈訓練的。人們總會傾向於進行更多的貪多,有時是處於對弈中的錯誤,有時則是因為熱情。
雖然如此,增強學習網絡在 AlphaGo 的其他部分台中通馬桶推薦找到瞭用武之地。也就是被用於評估價值函數的價值網絡。
AlphaGo 最大的優勢是應用瞭通用算法
本文探討瞭首個精通圍棋這項運動的人工智能 AlphaGo 的相關現象。在此重述們一下相關要點。定義瞭圍棋的規則後,我們解釋道計算機通過遍歷博弈樹從而掌握瞭這一遊戲。然而,圍棋的博弈樹極其龐大,大到需要應用如 MCTS 之類的統計方法。我們在 MCTS 中加入瞭幾個改進措施,然後就看到 AlphaGo 使用卷積神經網絡來進一步加強瞭 MCTS。
可以說 AlphaGo 最大的優勢就是它應用瞭通用算法,而不是僅局限於圍棋領域的算法。AlphaGo 證明瞭像圍棋這樣復雜的問題都可以通過先進的技術解決。深度學習已經 被成功應用於圖像及自然語言處理、生物醫療及其他領域。AlphaGo 的開發者們所使用的方法或許也可被應用於上述領域。
和訊網今天刊登瞭《【解密阿老師】 從 AlphaGo 到Master, 最大優...》一文,關於此事的更多報道,請在和訊財經客戶端上閱讀。
台灣電動床工廠
電動床
台灣電動床工廠
電動床
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
X戰警多鏡頭行車記錄器專業網|多鏡頭行車記錄器|多鏡頭行車紀錄器比較|多鏡頭行車紀錄器推薦|多鏡頭行車紀錄器影片
台中抽水肥專業網|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
台灣靜電機批發工廠|靜電機|靜電機推薦|靜電油煙處理機|靜電油煙處理機推薦
優美環保科技工程-靜電機,靜電機推薦,靜電機保養,靜電機清洗,靜電油煙處理機
文章標籤
全站熱搜
留言列表