123,123

12月7日，谷歌旗下人工智能實(shí)驗(yàn)室DeepMind的研究團(tuán)隊(duì)在《科學(xué)》雜志上發(fā)表了封面論文，并公布了通用算法AlphaZero和測試數(shù)據(jù)。003010雜志評論說，單個算法可以解決許多復(fù)雜問題，這是創(chuàng)建通用機(jī)器學(xué)習(xí)系統(tǒng)和解決實(shí)際問題的重要一步。本文作者包括核心研發(fā)人員大衛(wèi)西爾弗；AlphaGo的d員工和DeepMind的創(chuàng)始人戴密斯哈薩比斯。

AlphaGo在2016年與圍棋世界冠軍李世石比賽時首次為人所知，最終以4: 1的總比分奪冠。事實(shí)上，早在2016年1月，谷歌就在國際學(xué)術(shù)期刊《科學(xué)》上發(fā)表了一篇封面文章，介紹了AlphaGo以5:0，毫無退讓地戰(zhàn)勝了歐洲冠軍、專業(yè)圍棋第二段范輝。

2017年10月18日，DeepMind團(tuán)隊(duì)宣布了Alpha Go的最強(qiáng)版本，代號為AlphaGo Zero。當(dāng)時DeepMind說象棋AI的算法主要基于復(fù)雜枚舉，需要人工評估。在過去的幾十年里，人們已經(jīng)把這種方法做到了極致。而AlphaGo Zero在圍棋上的超人表現(xiàn)，就是通過和自己下棋練出來的。

現(xiàn)在DeepMind研究團(tuán)隊(duì)已經(jīng)將這種方法擴(kuò)展到了AlphaZero的算法中。AlphaZero花了長達(dá)13天的時間“自學(xué)”，然后與世界冠軍國際象棋AI對質(zhì)：

在國際象棋比賽中，AlphaZero四小時內(nèi)首次擊敗了第九季TCEC世界冠軍斯托克菲什。

在象棋比賽中，AlphaZero在2小時后擊敗了國際象棋聯(lián)合會的世界冠軍Elmo。

在圍棋中，AlphaZero經(jīng)過30個小時的戰(zhàn)斗，在李世石擊敗了AlphaGo。

AlphaZero:一個算法吃掉所有三個象棋。

最開始，前幾代AlphaGo用人類玩家的棋譜訓(xùn)練了上千盤，學(xué)習(xí)如何玩圍棋。當(dāng)你到達(dá)AlphaGo Zero時，你跳過這一步，通過自我游戲來學(xué)習(xí)下棋，從零開始。系統(tǒng)從一個對圍棋一無所知的神經(jīng)網(wǎng)絡(luò)開始，將這個神經(jīng)網(wǎng)絡(luò)和強(qiáng)大的搜索算法結(jié)合起來，自己下棋。游戲過程中，神經(jīng)網(wǎng)絡(luò)不斷調(diào)整升級，預(yù)測每一步和最終的贏家。

和AlphaGo Zero一樣，AlphaZero依靠深度神經(jīng)網(wǎng)絡(luò)、通用強(qiáng)化學(xué)習(xí)算法和來自隨機(jī)小游戲的蒙特卡洛樹搜索，通過自我游戲進(jìn)行強(qiáng)化學(xué)習(xí)，除了游戲規(guī)則外沒有任何知識背景。強(qiáng)化學(xué)習(xí)是一種通過“試錯”的機(jī)器學(xué)習(xí)。

DeepMind在博客中介紹，AlphaZero一開始是完全失明的，但隨著時間的推移，系統(tǒng)從和平游戲的輸贏中學(xué)習(xí)，調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)等等。每一輪過后，系統(tǒng)的性能提升了一點(diǎn)，自我游戲的質(zhì)量提升了一點(diǎn)，神經(jīng)網(wǎng)絡(luò)越來越精準(zhǔn)。神經(jīng)網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度。經(jīng)過實(shí)驗(yàn)，AlphaZero花了9個小時掌握象棋，12個小時掌握象棋，13天掌握圍棋。

Azero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu)，但兩者有很多不同之處。例如，圍棋中很少出現(xiàn)平局，因此AlphaGo Zero在假設(shè)結(jié)果不是贏就是輸?shù)那闆r下估計(jì)并優(yōu)化了獲勝概率。阿爾法零將考慮平局或其他潛在結(jié)果，并估計(jì)和優(yōu)化結(jié)果。

其次，棋盤旋轉(zhuǎn)反轉(zhuǎn)，結(jié)果不會改變，所以AlphaGo Zero會通過生成8幅對稱圖像來增強(qiáng)訓(xùn)練數(shù)據(jù)。但是在國際象棋和象棋中，棋盤是不對稱的。因此，AlphaZero不會增強(qiáng)訓(xùn)練數(shù)據(jù)，也不會在蒙特卡洛樹搜索過程中改變棋盤位置。

在AlphaGo Zero中，自我游戲是由之前所有迭代中最好的玩家生成的，自我游戲也與新玩家有關(guān)。但AlphaZero只從AlphaGo Zero繼承了一個單一的神經(jīng)網(wǎng)絡(luò)，不斷更新，而不是等待迭代完成。自我博弈是利用這個神經(jīng)網(wǎng)絡(luò)的最新參數(shù)生成的，因此省略了評估步驟和選擇最佳玩家的過程。

此外，AlphaGo Zero使用貝葉斯優(yōu)化調(diào)整搜索到的超參數(shù)；在Azero中，所有游戲都重復(fù)使用相同的超參數(shù)，因此無需針對特定游戲進(jìn)行調(diào)整。唯一的例外是保證探索噪音和學(xué)習(xí)率。

研究團(tuán)隊(duì)在一場AlphaZero玩白色，Stockfish玩黑色的象棋游戲中，展示了AlphaZero蒙特卡洛樹在1000次、10000次……和100萬次模擬后的內(nèi)部搜索狀態(tài)。每個樹形圖顯示了十個最常搜索的狀態(tài)。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

DeepMind研究團(tuán)隊(duì)發(fā)布通用算法AlphaZero及測試數(shù)據(jù)

猜你喜歡

最新文章