霽彩華年,因夢同行—— 慶祝深圳霽因生物醫(yī)藥轉(zhuǎn)化研究院成立十周年 情緒益生菌PS128助力孤獨(dú)癥治療,權(quán)威研究顯示可顯著改善孤獨(dú)癥癥狀 PARP抑制劑氟唑帕利助力患者從維持治療中獲益,改寫晚期卵巢癌治療格局 新東方智慧教育發(fā)布“東方創(chuàng)科人工智能開發(fā)板2.0” 精準(zhǔn)血型 守護(hù)生命 腸道超聲可用于檢測兒童炎癥性腸病 迷走神經(jīng)刺激對抑郁癥有積極治療作用 探索梅尼埃病中 MRI 描述符的性能和最佳組合 自閉癥患者中癡呆癥的患病率增加 超聲波 3D 打印輔助神經(jīng)源性膀胱的骶神經(jīng)調(diào)節(jié) 胃食管反流病患者耳鳴風(fēng)險增加 間質(zhì)性膀胱炎和膀胱疼痛綜合征的臨床表現(xiàn)不同 研究表明 多語言能力可提高自閉癥兒童的認(rèn)知能力 科學(xué)家揭示人類與小鼠在主要癌癥免疫治療靶點(diǎn)上的驚人差異 利用正確的成像標(biāo)準(zhǔn)改善對腦癌結(jié)果的預(yù)測 地中海飲食通過腸道細(xì)菌變化改善記憶力 讓你在 2025 年更健康的 7 種驚人方法 為什么有些人的頭發(fā)和指甲比其他人長得快 物質(zhì)的使用會改變大腦的結(jié)構(gòu)嗎 飲酒如何影響你的健康 20個月,3大平臺,300倍!元育生物以全左旋蝦青素引領(lǐng)合成生物新紀(jì)元 從技術(shù)困局到創(chuàng)新錨點(diǎn),天與帶來了一場屬于養(yǎng)老的“情緒共振” “華潤系”大動作落槌!昆藥集團(tuán)完成收購華潤圣火 十七載“冬至滋補(bǔ)節(jié)”,東阿阿膠將品牌營銷推向新高峰 150個國家承認(rèn)巴勒斯坦國意味著什么 中國海警對非法闖仁愛礁海域菲船只采取管制措施 國家四級救災(zāi)應(yīng)急響應(yīng)啟動 涉及福建、廣東 女生查分查出608分后,上演取得理想成績“三件套” 多吃紅色的櫻桃能補(bǔ)鐵、補(bǔ)血? 中國代表三次回?fù)裘婪焦糁肛?zé) 探索精神健康前沿|情緒益生菌PS128閃耀寧波醫(yī)學(xué)盛會,彰顯科研實(shí)力 圣美生物:以科技之光,引領(lǐng)肺癌早篩早診新時代 神經(jīng)干細(xì)胞移植有望治療慢性脊髓損傷 一種簡單的血漿生物標(biāo)志物可以預(yù)測患有肥胖癥青少年的肝纖維化 嬰兒的心跳可能是他們說出第一句話的關(guān)鍵 研究發(fā)現(xiàn)基因檢測正成為主流 血液測試顯示心臟存在排斥風(fēng)險 無需提供組織樣本 假體材料有助于減少靜脈導(dǎo)管感染 研究發(fā)現(xiàn)團(tuán)隊運(yùn)動對孩子的大腦有很大幫助 研究人員開發(fā)出診斷 治療心肌炎的決策途徑 兩項(xiàng)研究評估了醫(yī)療保健領(lǐng)域人工智能工具的發(fā)展 利用女子籃球隊探索足部生物力學(xué) 抑制前列腺癌細(xì)胞:雄激素受體可以改變前列腺的正常生長 肽抗原上的反應(yīng)性半胱氨酸可能開啟新的癌癥免疫治療可能性 研究人員發(fā)現(xiàn)新基因療法可以緩解慢性疼痛 研究人員揭示 tisa-cel 療法治療復(fù)發(fā)或難治性 B 細(xì)胞淋巴瘤的風(fēng)險 適量飲酒可降低高危人群罹患嚴(yán)重心血管疾病的風(fēng)險 STIF科創(chuàng)節(jié)揭曉獎項(xiàng),新東方智慧教育榮膺雙料殊榮 中科美菱發(fā)布2025年產(chǎn)品戰(zhàn)略布局!技術(shù)方向支撐產(chǎn)品生態(tài)縱深! 從雪域高原到用戶口碑 —— 復(fù)方塞隆膠囊的品質(zhì)之旅
您的位置:首頁 >國內(nèi)科研 >

DeepMind研究團(tuán)隊發(fā)布通用算法AlphaZero及測試數(shù)據(jù)

12月7日,谷歌旗下人工智能實(shí)驗(yàn)室DeepMind的研究團(tuán)隊在《科學(xué)》雜志上發(fā)表了封面論文,并公布了通用算法AlphaZero和測試數(shù)據(jù)。003010雜志評論說,單個算法可以解決許多復(fù)雜問題,這是創(chuàng)建通用機(jī)器學(xué)習(xí)系統(tǒng)和解決實(shí)際問題的重要一步。本文作者包括核心研發(fā)人員大衛(wèi)西爾弗;AlphaGo的d員工和DeepMind的創(chuàng)始人戴密斯哈薩比斯。

AlphaGo在2016年與圍棋世界冠軍李世石比賽時首次為人所知,最終以4: 1的總比分奪冠。事實(shí)上,早在2016年1月,谷歌就在國際學(xué)術(shù)期刊《科學(xué)》上發(fā)表了一篇封面文章,介紹了AlphaGo以5:0,毫無退讓地戰(zhàn)勝了歐洲冠軍、專業(yè)圍棋第二段范輝。

2017年10月18日,DeepMind團(tuán)隊宣布了Alpha Go的最強(qiáng)版本,代號為AlphaGo Zero。當(dāng)時DeepMind說象棋AI的算法主要基于復(fù)雜枚舉,需要人工評估。在過去的幾十年里,人們已經(jīng)把這種方法做到了極致。而AlphaGo Zero在圍棋上的超人表現(xiàn),就是通過和自己下棋練出來的。

現(xiàn)在DeepMind研究團(tuán)隊已經(jīng)將這種方法擴(kuò)展到了AlphaZero的算法中。AlphaZero花了長達(dá)13天的時間“自學(xué)”,然后與世界冠軍國際象棋AI對質(zhì):

在國際象棋比賽中,AlphaZero四小時內(nèi)首次擊敗了第九季TCEC世界冠軍斯托克菲什。

在象棋比賽中,AlphaZero在2小時后擊敗了國際象棋聯(lián)合會的世界冠軍Elmo。

在圍棋中,AlphaZero經(jīng)過30個小時的戰(zhàn)斗,在李世石擊敗了AlphaGo。

AlphaZero:一個算法吃掉所有三個象棋。

最開始,前幾代AlphaGo用人類玩家的棋譜訓(xùn)練了上千盤,學(xué)習(xí)如何玩圍棋。當(dāng)你到達(dá)AlphaGo Zero時,你跳過這一步,通過自我游戲來學(xué)習(xí)下棋,從零開始。系統(tǒng)從一個對圍棋一無所知的神經(jīng)網(wǎng)絡(luò)開始,將這個神經(jīng)網(wǎng)絡(luò)和強(qiáng)大的搜索算法結(jié)合起來,自己下棋。游戲過程中,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整升級,預(yù)測每一步和最終的贏家。

和AlphaGo Zero一樣,AlphaZero依靠深度神經(jīng)網(wǎng)絡(luò)、通用強(qiáng)化學(xué)習(xí)算法和來自隨機(jī)小游戲的蒙特卡洛樹搜索,通過自我游戲進(jìn)行強(qiáng)化學(xué)習(xí),除了游戲規(guī)則外沒有任何知識背景。強(qiáng)化學(xué)習(xí)是一種通過“試錯”的機(jī)器學(xué)習(xí)。

DeepMind在博客中介紹,AlphaZero一開始是完全失明的,但隨著時間的推移,系統(tǒng)從和平游戲的輸贏中學(xué)習(xí),調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)等等。每一輪過后,系統(tǒng)的性能提升了一點(diǎn),自我游戲的質(zhì)量提升了一點(diǎn),神經(jīng)網(wǎng)絡(luò)越來越精準(zhǔn)。神經(jīng)網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度。經(jīng)過實(shí)驗(yàn),AlphaZero花了9個小時掌握象棋,12個小時掌握象棋,13天掌握圍棋。

Azero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu),但兩者有很多不同之處。例如,圍棋中很少出現(xiàn)平局,因此AlphaGo Zero在假設(shè)結(jié)果不是贏就是輸?shù)那闆r下估計并優(yōu)化了獲勝概率。阿爾法零將考慮平局或其他潛在結(jié)果,并估計和優(yōu)化結(jié)果。

其次,棋盤旋轉(zhuǎn)反轉(zhuǎn),結(jié)果不會改變,所以AlphaGo Zero會通過生成8幅對稱圖像來增強(qiáng)訓(xùn)練數(shù)據(jù)。但是在國際象棋和象棋中,棋盤是不對稱的。因此,AlphaZero不會增強(qiáng)訓(xùn)練數(shù)據(jù),也不會在蒙特卡洛樹搜索過程中改變棋盤位置。

在AlphaGo Zero中,自我游戲是由之前所有迭代中最好的玩家生成的,自我游戲也與新玩家有關(guān)。但AlphaZero只從AlphaGo Zero繼承了一個單一的神經(jīng)網(wǎng)絡(luò),不斷更新,而不是等待迭代完成。自我博弈是利用這個神經(jīng)網(wǎng)絡(luò)的最新參數(shù)生成的,因此省略了評估步驟和選擇最佳玩家的過程。

此外,AlphaGo Zero使用貝葉斯優(yōu)化調(diào)整搜索到的超參數(shù);在Azero中,所有游戲都重復(fù)使用相同的超參數(shù),因此無需針對特定游戲進(jìn)行調(diào)整。唯一的例外是保證探索噪音和學(xué)習(xí)率。

研究團(tuán)隊在一場AlphaZero玩白色,Stockfish玩黑色的象棋游戲中,展示了AlphaZero蒙特卡洛樹在1000次、10000次……和100萬次模擬后的內(nèi)部搜索狀態(tài)。每個樹形圖顯示了十個最常搜索的狀態(tài)。

標(biāo)簽:

免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!

最新文章