蛇蛇大作戰(zhàn)電腦版攻略(蛇蛇大作戰(zhàn)游戲下載) 什么是啞口套和窗套(什么是啞口) WIN10電流麥解決方法(win10電腦電流麥怎么解決方法) 平時多吃什么食物補(bǔ)腎效果最好(平時多吃什么食物補(bǔ)腎效果最好女性) 哈倫褲適合什么年齡穿(哈倫褲適合什么人穿) 魔獸世界前夕稀有精英位置一覽 看完就知道了(魔獸世界9.0前夕稀有精英位置與掉落) 如何實(shí)現(xiàn)創(chuàng)業(yè)成功(如何實(shí)現(xiàn)創(chuàng)業(yè)成功發(fā)展) QQ空間如何添加大圖模塊(qq空間怎么添加圖片模塊) 夢幻西游挖礦賺錢(挖礦賺錢) 剖腹產(chǎn)的好處(剖腹產(chǎn)的好處有哪些) 如圖已知ab為圓o的直徑弦cd⊥ab垂足為h(如圖 已知AB是圓O的直徑 弦CD垂直AB 垂足為H) 深圳上下沙租房攻略(深圳下沙哪里租房便宜) 被2345和hao123主頁篡改修復(fù)方法 2015(2345是怎樣篡改主頁的以及如何徹底刪除) nba歷史得分榜百度一下(nba歷史得分榜百度百科) 如何防霧霾 什么口罩防霧霾效果好(什么口罩可以防霾) 制作手工的材料有哪些(制作手工的材料有哪些簡單) 天使等級 北京商標(biāo)注冊流程圖(北京商標(biāo)注冊流程圖解析) Galaxy S4 發(fā)布 全面解析新旗艦 圖(galaxy s4 上市時間) 土大黃根主要治什么?。ㄍ链簏S與大黃的區(qū)別) vivo手機(jī)怎么定位(vivo手機(jī)怎么定位查找) dnf更新失敗怎么辦 安裝文件寫入失敗怎么辦(為什么dnf更新寫入失敗) 隔玻璃曬太陽能起作用(隔著玻璃曬太陽能補(bǔ)鈣) steam國服怎么玩apex(steam國服怎么玩最終幻想14) 納雍縣是哪個市 蜂蜜可以放冰箱嗎(蜂蜜可以放冰箱嗎可以放多久) 電腦怎么連熱點(diǎn)(聯(lián)想電腦怎么連熱點(diǎn)) 石器時代寵物攻略(石器時代寵物大全) 經(jīng)濟(jì)管理出版社地址(經(jīng)濟(jì)管理出版社) 芒果tv怎么看湖南衛(wèi)視(芒果tv怎么看湖南衛(wèi)視回放) iPhone13如何在微店購物?(iphone13直營店可以直接買到嗎) 淘寶海外版叫什么(淘寶海外版) 幽門螺桿菌抗體(幽門螺桿菌抗體偏高是怎么回事) iOS7.1.1固件下載(ios7.0.4固件下載) 紙的來源視頻(紙的來源) QQ農(nóng)場怎么出售種子精華(QQ農(nóng)場種子精華) 玉兔出宮怎么畫(玉兔出宮怎么畫簡單) 光電信息科學(xué)與工程是干什么工作(光電信息科學(xué)與工程是干什么的) 卡通簽名頭像怎么制作(卡通簽名頭像怎么制作軟件) 比賽規(guī)則有哪些(比賽規(guī)則) 黑夾子的小妙用(黑夾子的小妙用有哪些) dear sir or madam要大寫嗎(dear sir or madam) 保衛(wèi)蘿卜——天際2攻略(保衛(wèi)蘿卜天際2關(guān)攻略) XP輸入法狀態(tài)條不見了怎么辦(xp輸入法不顯示) 語言能力描述范文100字(語言能力描述) 電腦顯示器總是黑屏怎么辦(電腦顯示器總是黑屏怎么辦恢復(fù)) 銀屑病怎么治療最好呢(治療銀屑病有什么好辦法) 東非高原動物大遷徙(東非高原) 茶葉怎樣利用微波進(jìn)行了快速殺青處理(茶葉怎樣利用微波進(jìn)行了快速殺青處理工藝) Java:將數(shù)組排序并使用二分法判斷數(shù)組元素(java對二維數(shù)組排序)
您的位置:首頁 >行業(yè)觀察 >

DeepMind研究團(tuán)隊(duì)發(fā)布了通用算法AlphaZero和測試數(shù)據(jù)

導(dǎo)讀 12月7日,谷歌人工智能實(shí)驗(yàn)室的DeepMind研究團(tuán)隊(duì)在《科學(xué)》雜志上發(fā)表了一篇封面論文,并公布了通用算法AlphaZero和測試數(shù)據(jù)?!犊茖W(xué)》雜志

12月7日,谷歌人工智能實(shí)驗(yàn)室的DeepMind研究團(tuán)隊(duì)在《科學(xué)》雜志上發(fā)表了一篇封面論文,并公布了通用算法AlphaZero和測試數(shù)據(jù)?!犊茖W(xué)》雜志評論說,多個復(fù)雜問題可以通過單一算法解決,這是創(chuàng)建通用機(jī)器學(xué)習(xí)系統(tǒng)和解決實(shí)際問題的重要一步。本文作者包括核心研發(fā)人員大衛(wèi)西爾弗;AlphaGo的d人事,以及DeepMind的創(chuàng)始人戴密斯哈薩比斯。

AlphaGo最早被人們熟知是2016年與圍棋世界冠軍李世石的人機(jī)對戰(zhàn),最終以4-1的總比分獲勝。事實(shí)上,早在2016年1月,谷歌就在國際學(xué)術(shù)期刊《自然》上發(fā)表了一篇封面文章,介紹了AlphaGo在沒有任何讓步的情況下,以533.36萬英鎊的價格戰(zhàn)勝了歐洲冠軍和專業(yè)圍棋第二階段的魏凡。

2017年10月18日,DeepMind團(tuán)隊(duì)宣布了Alpha Go的最強(qiáng)版本,代號為AlphaGo Zero。當(dāng)時DeepMind說象棋AI的算法主要基于復(fù)雜枚舉,需要人工評估。在過去的幾十年里,人們已經(jīng)把這種方法做到了極致。AlphaGo Zero在圍棋上的超人表現(xiàn),是通過和自己下棋練出來的。

現(xiàn)在DeepMind研究團(tuán)隊(duì)已經(jīng)將這種方法擴(kuò)展到了Alphaero的算法中。Alphaero花了長達(dá)13天的時間“自學(xué)”,然后與國際象棋世界冠軍AI對質(zhì):

在國際象棋比賽中,阿爾法零在四個小時后首次擊敗了第九屆TCEC世界冠軍斯托克菲什。

在通用象棋中,兩小時后,AlphaZero擊敗了通用象棋聯(lián)賽的世界冠軍Elmo。

《圍棋》中,AlphaZero經(jīng)過30個小時的激戰(zhàn),擊敗了李世石的AlphaGo。

AlphaZero:一種算法采用所有三種象棋類型。

以前版本的AlphaGo從數(shù)千套訓(xùn)練開始,用人類玩家的棋譜來學(xué)習(xí)如何玩圍棋。當(dāng)你到達(dá)AlphaGo Zero時,你跳過這一步,通過自我游戲來學(xué)習(xí)下棋,從零開始。該系統(tǒng)從一個對圍棋一無所知的神經(jīng)網(wǎng)絡(luò)開始,結(jié)合神經(jīng)網(wǎng)絡(luò)和強(qiáng)大的搜索算法,自己玩游戲。游戲過程中,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整升級,每一步都在預(yù)測輸家和最終贏家。

和AlphaGo Zero一樣,從隨機(jī)游戲開始,AlphaZero依靠深度神經(jīng)網(wǎng)絡(luò)、通用強(qiáng)化學(xué)習(xí)算法和蒙特卡洛樹搜索,通過自我游戲進(jìn)行強(qiáng)化學(xué)習(xí),除了游戲規(guī)則外,沒有任何知識背景。強(qiáng)化學(xué)習(xí)是一種通過反復(fù)試驗(yàn)的機(jī)器學(xué)習(xí)方法。

DeepMind在博客中介紹,一開始AlphaZero完全是在鬼混,但是隨著時間的推移,系統(tǒng)從輸贏的博弈中學(xué)習(xí),調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)等等,隨著每一輪,系統(tǒng)的性能提升了一點(diǎn),自我游戲的質(zhì)量也提升了一點(diǎn),神經(jīng)網(wǎng)絡(luò)變得越來越精準(zhǔn)。神經(jīng)網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度。實(shí)驗(yàn)結(jié)束后,AlphaZero花了9個小時掌握象棋,12個小時掌握通用象棋,13天掌握圍棋。

Azero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu),但兩者有很多不同之處。比如Go中很少出現(xiàn)平局,所以AlphaGo Zero在結(jié)果為“輸贏”的假設(shè)下,對獲勝概率進(jìn)行估計(jì)和優(yōu)化。AlphaZero還會考慮抽簽或其他潛在結(jié)果,并對結(jié)果進(jìn)行估計(jì)和優(yōu)化。

其次,圍棋的棋盤會旋轉(zhuǎn)反轉(zhuǎn),結(jié)果不會改變,所以AlphaGo Zero會通過生成8幅對稱圖像來增強(qiáng)訓(xùn)練數(shù)據(jù)。但是在國際象棋和一般象棋中,棋盤是不對稱的。因此,AlphaZero不會增強(qiáng)訓(xùn)練數(shù)據(jù),也不會在蒙特卡洛樹搜索過程中改變棋盤位置。

在AlphaGo Zero中,自我游戲是由之前所有迭代中最好的玩家生成的,自我游戲也是針對這個新玩家的。AlphaZero只繼承AlphaGo Zero的單一神經(jīng)網(wǎng)絡(luò),不斷更新,而不是等待迭代完成。自我博弈是利用這個神經(jīng)網(wǎng)絡(luò)的最新參數(shù)生成的,因此省略了評估步驟和選擇最佳玩家的過程。

此外,AlphaGo Zero通過貝葉斯優(yōu)化使用調(diào)整搜索的超參數(shù);在AlphaZero中,所有游戲都重復(fù)使用同一個超參數(shù),所以不需要針對特定的游戲進(jìn)行調(diào)整。唯一的例外是保證探索噪音和學(xué)習(xí)率。

研究團(tuán)隊(duì)展示了Alphaero蒙特卡羅樹在1000次、10000次之后的內(nèi)部搜索狀態(tài).直到100萬次的模擬游戲,阿爾法羅玩白色,斯托克菲什玩黑色。每個樹形圖顯示了十個最常搜索的狀態(tài)。

標(biāo)簽:

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章