AlphaStar最初從觀看人類玩耍中學(xué)習(xí),接著它通過自我對抗來磨練各方面的技能。一兩個星期的培訓(xùn)結(jié)束后,AlphaStar相當(dāng)于玩了200年的《星際爭霸2》。

(圖源:sc2.blizzard.cn)
撰文 | 李薇達(dá)
編輯 | 小賽
今年年初,由谷歌旗下的前沿人工智能企業(yè)DeepMind所研發(fā)的最新人工智能系統(tǒng)AlphaStar以兩個5:0連續(xù)血洗《星際爭霸2》德國職業(yè)選手TLO和波蘭職業(yè)選手MaNa。在總共公開的11場對決中,人類僅在現(xiàn)場直播的一場表演賽中獲勝。今天,DeepMind的研究人員在Nature上發(fā)表了題為“Grandmaster level in StarCraft II using multi-agent reinforcement learning”的論文,詳細(xì)介紹了這個把世界排名24和22的選手按在地上摩擦的系統(tǒng)是如何運(yùn)作的。
AlphaStar和人類職業(yè)選手一樣華麗的操作。藍(lán)色為AlphaStar,紅色為人類職業(yè)選手。(圖源:sc2.blizzard.cn)
為何選擇《星際爭霸2》
長久以來,游戲都被認(rèn)為是評估人工智能策略性思維的一個理想載體。近幾年,AI已經(jīng)掌握了一些超級復(fù)雜的游戲,比如圍棋,《超級馬里奧》、《雷神之錘3競技場》,以及《DOTA2》。那么這次AI挑戰(zhàn)的這款游戲有何特別之處?
《星際爭霸2》(以下簡稱星際2)是一款發(fā)生在科幻世界里的即時戰(zhàn)略類游戲。通常情況下,玩家從三個種族(人族、蟲族、神族)中選擇一個和另一個玩家進(jìn)行1V1。這三個種族都有不同的單位和建筑以及不同的機(jī)制,在對戰(zhàn)時需要不同的策略。玩家從一個小基地和幾個工人單位開始,收集資源來建造更多的單位和建筑,偵察對手,研究新技術(shù)。如果一個玩家失去了所有的建筑,他就輸了。
星際2由于它的復(fù)雜性一直沒有受到AI的挑戰(zhàn),而恰恰又因?yàn)樗白銐螂y”, DeepMind和星際2的游戲公司暴雪于2016年達(dá)成合作協(xié)議,通過這款游戲進(jìn)行人工智能研究。
首先,游戲理論方面,就像石頭剪刀布一樣,星際2沒有一個最佳致勝策略。因此,人工智能在培訓(xùn)過程中需要不斷探索和拓展策略相關(guān)知識。其次,因?yàn)閼?zhàn)爭迷霧的存在,星際2不像圍棋那樣可以讓玩家縱覽整個游戲局面。關(guān)鍵信息被隱藏了, AI需要學(xué)會使用不完善的信息以及主動“偵查”來進(jìn)行操作。再次,游戲大約需要1個小時才能完成。在此期間,玩家不斷采取行動來執(zhí)行整體策略。初期采取的行動可能要到后期才會看到回報。在給定的時間內(nèi),人工智能需要通過大量的學(xué)習(xí)來做出長遠(yuǎn)來看的最優(yōu)選擇,而不僅僅局限于采取能夠立即產(chǎn)生收益的行動。另外,游戲是實(shí)時的?;睾现朴螒蚧蛘呦缕宥际菍Ψ酵瓿梢徊酵婕以龠M(jìn)行下一步,而星際玩家必須隨著游戲時間的推移不斷執(zhí)行動作。最后,星際2的操作空間比19X19格的圍棋要大得多得多。玩家可以從超過 300 種行為中做選擇。在此之上,游戲中的行為是層級的,能夠進(jìn)行調(diào)整、增強(qiáng),有很多游戲單位需要點(diǎn)擊屏幕控制。即使一個 84x84 的小屏幕,大概也存在 1 億種可能的行為。以上這些挑戰(zhàn)在許多戰(zhàn)略游戲中也有,但都不是星際2這樣的量級。所以為了完全掌握這個游戲,DeepMind需要不同的策略。
比賽截圖(圖源:DeepMind)
AlphaStar是如何學(xué)習(xí)的
根據(jù)DeepMind的論文,AlphaStar結(jié)合使用了新的技術(shù)與通用方法:比如神經(jīng)內(nèi)網(wǎng)絡(luò)架構(gòu)(neural network architectures)、模擬學(xué)習(xí)(imitation learning)、強(qiáng)化學(xué)習(xí)(reinforcement learning)和多智能體學(xué)習(xí)(multi-agent learning)等等。
總結(jié)起來就是:AlphaStar最初從觀看人類玩耍中學(xué)習(xí),接著它通過自我對抗來磨練各方面的技能。AlphaStar通過觀看玩家的游戲重播創(chuàng)建最初的迭代。暴雪剛開始時挑選出十萬份匿名玩家的天梯比賽錄像,以此來作為AI模仿訓(xùn)練的數(shù)據(jù)支撐。AI學(xué)習(xí)微觀策略(比如有效控制單位)和宏觀策略(比如搞經(jīng)濟(jì)運(yùn)營和長期目標(biāo))。有了這些知識,即便是最困難的情況下,它也可以在95%的時間里擊敗游戲中的電腦對手。不過研究人員會告訴你,這些都是小兒科,真正的工作才剛剛開始。
簡單的實(shí)時迷你游戲可以讓研究人員測試AI在特定任務(wù)上的性能(圖源:DeepMind)
因?yàn)樾请H2不可能僅用一種策略就取勝,所以AlphaStar被分成數(shù)百個版本,每一個版本都有一個稍微不同的任務(wù)或策略。一種可能不惜一切代價要獲得空中優(yōu)勢;另一種可能專注于技術(shù)升級;還有一種則像藍(lán)軍滿廣志一樣,專門負(fù)責(zé)擊敗紅軍——那些已經(jīng)成功的戰(zhàn)略版本。這就是DeepMind所稱的AlphaStar聯(lián)賽。這其實(shí)是一個神經(jīng)網(wǎng)絡(luò)訓(xùn)練程序,不同版本的AlphaStar會在一周內(nèi)不停地跟彼此打來打去。這是現(xiàn)代機(jī)器學(xué)習(xí)的核心。DeepMind為這些AI設(shè)置成功的參數(shù),比如“贏得比賽”。然后這些AI就會各自做出決定來實(shí)現(xiàn)目標(biāo)。最后獲勝的AI繼續(xù)進(jìn)行比賽。DeepMind還通過設(shè)置某些條件,比如只能用某種種族或某個單位,來使訓(xùn)練更加深入。最后DeepMind采用獲勝最多的版本的特征。這個過程非常高效,因?yàn)锳I 能夠連續(xù)快速進(jìn)行多場比賽。一兩個星期的培訓(xùn)結(jié)束后,AlphaStar相當(dāng)于玩了200年的《星際爭霸2》。
DeepMind研究出了多款A(yù)lphaStar,這些AlphaStar最先通過研究上百萬份《星際爭霸2》玩家天梯錄像來學(xué)習(xí),接著再通過一種“AlphaStar聯(lián)賽”的互相訓(xùn)練方式來學(xué)習(xí)。(圖源:DeepMind)
AlphaStar會作弊嗎
很多玩家對電腦控制的對手會持懷疑態(tài)度。為了解除疑慮,DeepMind對一些大家關(guān)注的問題給出了解釋。
AlphaStar不是通過代碼,也不是像人類那樣通過移動“視角”來看這個游戲世界。它看到的是一個放大的地圖,不過它也看不透被戰(zhàn)爭迷霧遮擋的部分。它看到的只有地圖上有單位的部分。
AlphaStar和MaNa的第二場比賽。從AlphaStar的角度來看游戲:對神經(jīng)網(wǎng)絡(luò)的原始觀察輸入,神經(jīng)網(wǎng)絡(luò)的內(nèi)部激活,agent考慮采取的一些的行動,例如點(diǎn)擊哪里和建造什么,以及預(yù)測的結(jié)果。(圖源:DeepMind)
人類每分鐘能執(zhí)行的動作數(shù)量(APM,又稱“手速”)在生理上是有限的。為了公平起見,DeepMind限制了AlphaStar的“手速”:在每5秒的時間窗口中,AI最多只能執(zhí)行22個非重復(fù)操作。AlphaStar也沒有超人的反應(yīng)時間。DeepMind測試了它對事物的反應(yīng)速度。從它觀察到發(fā)生了什么,然后開始處理,到把它選擇的內(nèi)容傳達(dá)給游戲的時間接近350毫秒,其實(shí)比人還慢。
游戲之外
雖然《星際爭霸》只是一個游戲,但研究人員認(rèn)為AlphaStar背后的技術(shù)可以用來解決許多問題:例如,它的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠根據(jù)不完全的信息來模擬非常長的可能動作序列——游戲通常持續(xù)一個小時,動作數(shù)萬次。這可以用于天氣預(yù)測、氣候建模、語言理解等等。
另外, AlphaStar的一些訓(xùn)練方法有助于研發(fā)安全可靠的AI。比如它創(chuàng)新的聯(lián)賽培訓(xùn)流程有利于提高人工智能系統(tǒng)的安全性和魯棒性,特別是在能源等十分強(qiáng)調(diào)安全的領(lǐng)域。
(圖源:sc2.blizzard.cn)
DeepMind的研究人員表示,AlphaStar是第一個在《星際爭霸》中達(dá)到頂級(grandmaster)水平的AI,也是第一個在不降低游戲難度的情況下,通過廣泛的職業(yè)電子競技達(dá)到人類玩家最高聯(lián)賽等級的AI。今年7月,暴雪公司宣布AlphaStar已匿名登陸歐服天梯。如果你想與這位大名鼎鼎的AlphaStar切磋一番,可前往歐服一戰(zhàn),為人族挽回點(diǎn)尊嚴(yán)。
參考資料
[1] https://www.nature.com/articles/s41586-019-1724-z
[2] https://liquipedia.net/starcraft2/2019_StarCraft_II_World_Championship_Series_Circuit/Standings
[3] http://sc2.blizzard.cn/articles/46042/78710
[4] https://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-game-starcraft-ii
[5] https://deepmind.com/blog/announcements/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment
[6] https://venturebeat.com/2019/01/24/alphastar-deepmind-beats-starcraft-pros/
https://news.blizzard.com/en-us/starcraft2/22933138/deepmind-research-on-ladder