12月7日,谷歌旗下人工智能實(shí)驗(yàn)室DeepMind的研究團(tuán)隊(duì)在《科學(xué)》雜志上發(fā)表了封面論文,并公布了通用算法AlphaZero和測(cè)試數(shù)據(jù)。003010雜志評(píng)論說(shuō),單個(gè)算法可以解決許多復(fù)雜問(wèn)題,這是創(chuàng)建通用機(jī)器學(xué)習(xí)系統(tǒng)和解決實(shí)際問(wèn)題的重要一步。本文作者包括核心研發(fā)人員大衛(wèi)西爾弗;AlphaGo的d員工和DeepMind的創(chuàng)始人戴密斯哈薩比斯。
AlphaGo在2016年與圍棋世界冠軍李世石比賽時(shí)首次為人所知,最終以4: 1的總比分奪冠。事實(shí)上,早在2016年1月,谷歌就在國(guó)際學(xué)術(shù)期刊《科學(xué)》上發(fā)表了一篇封面文章,介紹了AlphaGo以5:0,毫無(wú)退讓地戰(zhàn)勝了歐洲冠軍、專業(yè)圍棋第二段范輝。
2017年10月18日,DeepMind團(tuán)隊(duì)宣布了Alpha Go的最強(qiáng)版本,代號(hào)為AlphaGo Zero。當(dāng)時(shí)DeepMind說(shuō)象棋AI的算法主要基于復(fù)雜枚舉,需要人工評(píng)估。在過(guò)去的幾十年里,人們已經(jīng)把這種方法做到了極致。而AlphaGo Zero在圍棋上的超人表現(xiàn),就是通過(guò)和自己下棋練出來(lái)的。
現(xiàn)在DeepMind研究團(tuán)隊(duì)已經(jīng)將這種方法擴(kuò)展到了AlphaZero的算法中。AlphaZero花了長(zhǎng)達(dá)13天的時(shí)間“自學(xué)”,然后與世界冠軍國(guó)際象棋AI對(duì)質(zhì):
在國(guó)際象棋比賽中,AlphaZero四小時(shí)內(nèi)首次擊敗了第九季TCEC世界冠軍斯托克菲什。
在象棋比賽中,AlphaZero在2小時(shí)后擊敗了國(guó)際象棋聯(lián)合會(huì)的世界冠軍Elmo。
在圍棋中,AlphaZero經(jīng)過(guò)30個(gè)小時(shí)的戰(zhàn)斗,在李世石擊敗了AlphaGo。
AlphaZero:一個(gè)算法吃掉所有三個(gè)象棋。
最開(kāi)始,前幾代AlphaGo用人類玩家的棋譜訓(xùn)練了上千盤(pán),學(xué)習(xí)如何玩圍棋。當(dāng)你到達(dá)AlphaGo Zero時(shí),你跳過(guò)這一步,通過(guò)自我游戲來(lái)學(xué)習(xí)下棋,從零開(kāi)始。系統(tǒng)從一個(gè)對(duì)圍棋一無(wú)所知的神經(jīng)網(wǎng)絡(luò)開(kāi)始,將這個(gè)神經(jīng)網(wǎng)絡(luò)和強(qiáng)大的搜索算法結(jié)合起來(lái),自己下棋。游戲過(guò)程中,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整升級(jí),預(yù)測(cè)每一步和最終的贏家。
和AlphaGo Zero一樣,AlphaZero依靠深度神經(jīng)網(wǎng)絡(luò)、通用強(qiáng)化學(xué)習(xí)算法和來(lái)自隨機(jī)小游戲的蒙特卡洛樹(shù)搜索,通過(guò)自我游戲進(jìn)行強(qiáng)化學(xué)習(xí),除了游戲規(guī)則外沒(méi)有任何知識(shí)背景。強(qiáng)化學(xué)習(xí)是一種通過(guò)“試錯(cuò)”的機(jī)器學(xué)習(xí)。
DeepMind在博客中介紹,AlphaZero一開(kāi)始是完全失明的,但隨著時(shí)間的推移,系統(tǒng)從和平游戲的輸贏中學(xué)習(xí),調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)等等。每一輪過(guò)后,系統(tǒng)的性能提升了一點(diǎn),自我游戲的質(zhì)量提升了一點(diǎn),神經(jīng)網(wǎng)絡(luò)越來(lái)越精準(zhǔn)。神經(jīng)網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度。經(jīng)過(guò)實(shí)驗(yàn),AlphaZero花了9個(gè)小時(shí)掌握象棋,12個(gè)小時(shí)掌握象棋,13天掌握圍棋。
Azero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu),但兩者有很多不同之處。例如,圍棋中很少出現(xiàn)平局,因此AlphaGo Zero在假設(shè)結(jié)果不是贏就是輸?shù)那闆r下估計(jì)并優(yōu)化了獲勝概率。阿爾法零將考慮平局或其他潛在結(jié)果,并估計(jì)和優(yōu)化結(jié)果。
其次,棋盤(pán)旋轉(zhuǎn)反轉(zhuǎn),結(jié)果不會(huì)改變,所以AlphaGo Zero會(huì)通過(guò)生成8幅對(duì)稱圖像來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù)。但是在國(guó)際象棋和象棋中,棋盤(pán)是不對(duì)稱的。因此,AlphaZero不會(huì)增強(qiáng)訓(xùn)練數(shù)據(jù),也不會(huì)在蒙特卡洛樹(shù)搜索過(guò)程中改變棋盤(pán)位置。
在AlphaGo Zero中,自我游戲是由之前所有迭代中最好的玩家生成的,自我游戲也與新玩家有關(guān)。但AlphaZero只從AlphaGo Zero繼承了一個(gè)單一的神經(jīng)網(wǎng)絡(luò),不斷更新,而不是等待迭代完成。自我博弈是利用這個(gè)神經(jīng)網(wǎng)絡(luò)的最新參數(shù)生成的,因此省略了評(píng)估步驟和選擇最佳玩家的過(guò)程。
此外,AlphaGo Zero使用貝葉斯優(yōu)化調(diào)整搜索到的超參數(shù);在Azero中,所有游戲都重復(fù)使用相同的超參數(shù),因此無(wú)需針對(duì)特定游戲進(jìn)行調(diào)整。唯一的例外是保證探索噪音和學(xué)習(xí)率。
研究團(tuán)隊(duì)在一場(chǎng)AlphaZero玩白色,Stockfish玩黑色的象棋游戲中,展示了AlphaZero蒙特卡洛樹(shù)在1000次、10000次……和100萬(wàn)次模擬后的內(nèi)部搜索狀態(tài)。每個(gè)樹(shù)形圖顯示了十個(gè)最常搜索的狀態(tài)。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!