聚乳酸生物可降解材料(可降解材料有哪些) 怎么設(shè)置qq空間形象墻(如何設(shè)置qq空間照片墻) 陰陽師業(yè)火原怎么打(陰陽師的業(yè)原火怎么打) plenty of可以放在句首嗎?(plenty of修飾可數(shù)還是不可數(shù)) AE教程 如何制作全息影像特效動畫(ae怎么做全息投影) dnf55冰龍怎么打(深淵冰龍15怎么打) 酚酞溶液測碳化深度(碳化深度怎么測) 泡茶用什么杯子(茶葉用什么杯子泡好) 商務(wù)簽證辦理流程及材料(商務(wù)簽證辦理流程及材料要求) 咖啡怎么做好喝又簡單(咖啡怎么做出來的) 如何讓EXCEL表格打印每頁都顯示標題行(excel標題行 每頁都顯示怎么打印出來) 2018年黑龍江高校排名 2018年黑龍江大學排名(黑龍江省所有大學排名榜) 摩斯密碼怎么敲視頻教學(摩斯密碼怎么敲視頻) 魔獸世界雷霆小徑之戰(zhàn)任務(wù)怎么開始(魔獸世界雷霆小徑之戰(zhàn)任務(wù)怎么開始視頻) 怎么在電腦上查看手機版網(wǎng)頁 wap(怎么用手機查看電腦版網(wǎng)頁) 生的五筆怎么打(盛的五筆怎么打) 手工制作圣誕帽教案(手工制作圣誕帽教案大班) 阿里巴巴服裝加工訂單(找服裝加工訂單) 大閘蟹的正確做法圖解(大閘蟹的正確做法圖解大全) 抗訴的意思(抗訴是什么意思) 如何選購嬰兒內(nèi)衣?嬰兒內(nèi)衣哪種好啊(買什么兒童的內(nèi)衣比較好) 烤魚片的做法(空氣炸鍋烤魚片的做法) frp是什么材料圖片(frp是什么材料) 倫敦奧運會官方游戲london2012 110米欄攻略(倫敦110米欄奧運視頻) 別來玩狼牙新系統(tǒng)境界提升玩法介紹(狼牙該如何使用) 關(guān)于逆境中成長的名言(逆境有利于成長名言) 爬樓梯有什么好處?(爬樓梯有什么好處嗎) 八字不合怎么辦(名字和八字不合怎么辦) 寧濫勿缺下一句(寧濫勿缺) dnf補丁wegame怎么找(wegame中dnf補丁在哪?) 什么手機游戲可以賺人民幣(什么手機游戲可以賺人民幣 手游 手機) PDF文件怎么拆分成多個文件(怎么合并多個pdf) 乘法是什么符號的意思(乘法是什么符號) IP電話如何使用(ip話機怎么使用) 海底世界資料大全(關(guān)于海底世界的資料) 怎樣自己動手包書皮(怎么自己包書皮) 如何設(shè)置瀏覽器的無痕瀏覽(如何設(shè)置瀏覽器的無痕瀏覽功能) 春風圖片大全(春風圖) 摩爾莊園怎么加好友?(摩爾莊園怎么加好友安卓和蘋果) 【孤島驚魂5新曙光】攻略之如何釣魚(孤島驚魂新曙光釣魚需要魚餌嗎) 歐陽詢觀古碑文言文翻譯過程(歐陽詢觀古碑文言文翻譯) 和平精英電音盛典怎么擊破氣球(和平精英打爆氣球) 杭州學廚師怎么樣?工資怎么樣?(杭州學廚師怎么樣?工資怎么樣啊) 凹凸的筆畫順序(凹的筆畫順序) 港行的iPhone5 A1429開啟聯(lián)通LTE教程(港版a1530支持聯(lián)通4g嗎) dnf疲勞藥怎么購買(dnf哪里可以兌換疲勞藥) 32位能用什么剪輯軟件(適合32位系統(tǒng)的視頻剪輯軟件) 如何使用支付寶里有的功能去超市能讓你更省錢?(支付寶如何在超市使用) 如何使用淘寶點外賣服務(wù) (如何使用淘寶點外賣服務(wù)中心) 酚類化合物有哪些性質(zhì)(酚類化合物有哪些呀)
您的位置:首頁 >國內(nèi)科研 >

DeepMind研究團隊發(fā)布通用算法AlphaZero及測試數(shù)據(jù)

導讀 12月7日,谷歌旗下人工智能實驗室DeepMind的研究團隊在《科學》雜志上發(fā)表了封面論文,并公布了通用算法AlphaZero和測試數(shù)據(jù)。003010雜志評

12月7日,谷歌旗下人工智能實驗室DeepMind的研究團隊在《科學》雜志上發(fā)表了封面論文,并公布了通用算法AlphaZero和測試數(shù)據(jù)。003010雜志評論說,單個算法可以解決許多復雜問題,這是創(chuàng)建通用機器學習系統(tǒng)和解決實際問題的重要一步。本文作者包括核心研發(fā)人員大衛(wèi)西爾弗;AlphaGo的d員工和DeepMind的創(chuàng)始人戴密斯哈薩比斯。

AlphaGo在2016年與圍棋世界冠軍李世石比賽時首次為人所知,最終以4: 1的總比分奪冠。事實上,早在2016年1月,谷歌就在國際學術(shù)期刊《科學》上發(fā)表了一篇封面文章,介紹了AlphaGo以5:0,毫無退讓地戰(zhàn)勝了歐洲冠軍、專業(yè)圍棋第二段范輝。

2017年10月18日,DeepMind團隊宣布了Alpha Go的最強版本,代號為AlphaGo Zero。當時DeepMind說象棋AI的算法主要基于復雜枚舉,需要人工評估。在過去的幾十年里,人們已經(jīng)把這種方法做到了極致。而AlphaGo Zero在圍棋上的超人表現(xiàn),就是通過和自己下棋練出來的。

現(xiàn)在DeepMind研究團隊已經(jīng)將這種方法擴展到了AlphaZero的算法中。AlphaZero花了長達13天的時間“自學”,然后與世界冠軍國際象棋AI對質(zhì):

在國際象棋比賽中,AlphaZero四小時內(nèi)首次擊敗了第九季TCEC世界冠軍斯托克菲什。

在象棋比賽中,AlphaZero在2小時后擊敗了國際象棋聯(lián)合會的世界冠軍Elmo。

在圍棋中,AlphaZero經(jīng)過30個小時的戰(zhàn)斗,在李世石擊敗了AlphaGo。

AlphaZero:一個算法吃掉所有三個象棋。

最開始,前幾代AlphaGo用人類玩家的棋譜訓練了上千盤,學習如何玩圍棋。當你到達AlphaGo Zero時,你跳過這一步,通過自我游戲來學習下棋,從零開始。系統(tǒng)從一個對圍棋一無所知的神經(jīng)網(wǎng)絡(luò)開始,將這個神經(jīng)網(wǎng)絡(luò)和強大的搜索算法結(jié)合起來,自己下棋。游戲過程中,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整升級,預測每一步和最終的贏家。

和AlphaGo Zero一樣,AlphaZero依靠深度神經(jīng)網(wǎng)絡(luò)、通用強化學習算法和來自隨機小游戲的蒙特卡洛樹搜索,通過自我游戲進行強化學習,除了游戲規(guī)則外沒有任何知識背景。強化學習是一種通過“試錯”的機器學習。

DeepMind在博客中介紹,AlphaZero一開始是完全失明的,但隨著時間的推移,系統(tǒng)從和平游戲的輸贏中學習,調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)等等。每一輪過后,系統(tǒng)的性能提升了一點,自我游戲的質(zhì)量提升了一點,神經(jīng)網(wǎng)絡(luò)越來越精準。神經(jīng)網(wǎng)絡(luò)需要的訓練量取決于游戲的風格和復雜程度。經(jīng)過實驗,AlphaZero花了9個小時掌握象棋,12個小時掌握象棋,13天掌握圍棋。

Azero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu),但兩者有很多不同之處。例如,圍棋中很少出現(xiàn)平局,因此AlphaGo Zero在假設(shè)結(jié)果不是贏就是輸?shù)那闆r下估計并優(yōu)化了獲勝概率。阿爾法零將考慮平局或其他潛在結(jié)果,并估計和優(yōu)化結(jié)果。

其次,棋盤旋轉(zhuǎn)反轉(zhuǎn),結(jié)果不會改變,所以AlphaGo Zero會通過生成8幅對稱圖像來增強訓練數(shù)據(jù)。但是在國際象棋和象棋中,棋盤是不對稱的。因此,AlphaZero不會增強訓練數(shù)據(jù),也不會在蒙特卡洛樹搜索過程中改變棋盤位置。

在AlphaGo Zero中,自我游戲是由之前所有迭代中最好的玩家生成的,自我游戲也與新玩家有關(guān)。但AlphaZero只從AlphaGo Zero繼承了一個單一的神經(jīng)網(wǎng)絡(luò),不斷更新,而不是等待迭代完成。自我博弈是利用這個神經(jīng)網(wǎng)絡(luò)的最新參數(shù)生成的,因此省略了評估步驟和選擇最佳玩家的過程。

此外,AlphaGo Zero使用貝葉斯優(yōu)化調(diào)整搜索到的超參數(shù);在Azero中,所有游戲都重復使用相同的超參數(shù),因此無需針對特定游戲進行調(diào)整。唯一的例外是保證探索噪音和學習率。

研究團隊在一場AlphaZero玩白色,Stockfish玩黑色的象棋游戲中,展示了AlphaZero蒙特卡洛樹在1000次、10000次……和100萬次模擬后的內(nèi)部搜索狀態(tài)。每個樹形圖顯示了十個最常搜索的狀態(tài)。

標簽:

免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章