深度|“深綠” 及 AlphaGo 對指揮與控制智能化的啟示


深度|“深綠” 及 AlphaGo 對指揮與控制智能化的啟示

摘要: 隨著未來戰爭日趨複雜、人工智能突飛猛進, 指揮與控制向智能化發展成為大勢所趨. 美軍的 “深綠” 計劃項目雖因各 種原因暫停, 但其思路和方法值得借鑑. AlphaGo 在圍棋領域戰勝人類頂尖水平, 其採用的方法也有一定的參考價值. 簡要介紹了二者採用的方法, 並開展了方法適用性分析, 研究了其在指揮與控制領域的應用機理及能力, 分析了應用的難點及對策, 並對 指揮與控制智能化的發展提出了啟示和建議。

指揮與控制是一項跨物理域、信息域和認知域的學科, 既包含工程, 也包含藝術.受到信息技術發展的推動和制約, 多年來指揮與控制技術的發展大量集中在信息域和物理域, 在指揮與控制系統工程 方面取得了長足的進步, 但在指揮與控制輔助決 策方面, 尤其是涉及指揮藝術的認知域, 一直停留在初級階段. 雖然設計了一些輔助計算模型,但在現代化戰爭複雜、快速、多變的特性面前, 可信度、實用 性遠遠不能滿足實際需要. 美軍曾推出 “深綠” 計劃, 旨在探索智能化的指揮與控制輔助決策, 但也因戰爭的複雜性等種種原因未獲成功.人工智能技術近年來發展迅猛,尤以深度學習技術為代表, 在語音識別、圖像識別、運動感知等領域紛紛取得了突破性的進展.AlphaGo與李世石的一場圍棋大戰獲得了舉世矚目, 最終人工智能以4:1 的結果戰勝了人類, 代表其在認知領域再下一城,一時間掀起了熱議. 緊接著, AlphaGo宣稱要挑戰星際爭霸, 更是將人工智能推向了神壇. 圍棋和星際爭霸這兩類遊戲,和軍事指揮與控制有著緊密的聯繫, 尤其是星際爭霸與戰爭有著很高的相似度. 因此, 很自然的想法, 就是將人工智能技術應用於作戰指揮. 隨著 美軍宣稱要將人工智能列為 “改變遊戲規則” 的顛覆性技術大力發展, 國內外對指揮與控制智能化的呼聲也越來越高.相比之下, AlphaGo是智能化技術向軍事領域的推進, 而“深綠”則是從軍事領域推智能化. 兩者雖然一成一敗, 都不失為軍事指揮與控制智能化發展的里程碑.其中涉及的技術方法,很值得深入研究.本文簡要介紹了二者採用的技術方法, 並開展了方法 適用性分析, 研究了其在指揮與控制領域的應用機理及能力, 分析了應用的難點及對策, 並作為拋磚引玉, 對指揮與控制智能化的發展提出了啟示和建議.

1 方法簡介及適用性分析

1.1 美軍 “深綠” 系統

“深綠”計劃是美國國防部高級研究計劃局DARPA支持的一項面向美國陸軍、旅級的指揮與控制領域的研究項目, 是將人工智能引入作戰輔助決策的一項嘗試探索. 文獻對 “深綠” 計劃中應用的技術、執行的情況、及其面臨的困難和挑戰 進行了深入探討.

深綠的核心技術本質上是基於實時態勢的動態 仿真, 也是 “平行仿真” 的核心要義. 仿真擅長逼真地、量化地模擬複雜多因素綜合作用的過程和結 果, 而這是很難用傳統的數學公式描述出來的. 基於 實時態勢做仿真, 可以量化地估計未來某一時刻的戰場狀態,也可以幫助人理解各種量變在不同時間、空間上交叉產生、綜合作用之後可能帶來的質變, 這種質變代表具有不同意義的戰場態勢局面. 在複雜戰爭中, 可能導致不同態勢局面的因素眾多, 包含各種隨機性、偶然性, 一個細微的因素可能改變整個戰 局的發展. 使用仿真的方法, 可以儘可能地將每一個細節因素的影響都模擬出來, 只要模型足夠逼真, 計算平臺足以支撐.

然而, 用仿真來預測戰場變化的一大缺點, 是無法應對分支太多的情形. 包括敵方戰術策略、我方應對策略、環境變化、隨機過程等不確定性都會導致分支出現. 而各種不確定性的組合爆炸是 “深綠” 面臨的最大難題. 按照深綠的方法, 每種可能的分支都 要仿真模擬一遍才行, 那麼分支一多, 這種仿真模擬 的計算資源和時間成本就十分高昂, 以至於無法實 現. 但事實證明, 戰爭迷霧無處不在, 只有戰術層面、 短時間內, 不確定性才相對較少. 但很明顯, 戰術層面、短時間內的預測對指揮員而言非常簡單, 用機器預測的意義不大. 此外, 態勢與決策的輸入輸出、數據的決定性、計算機與人協同等問題, 都是 “深綠” 計劃面臨的難題.

美軍於 2011 財年終止 “深綠” 計劃的原因是多方面的, 包括技術上存在的風險, 也包括經費、人員 等各方面因素. 美軍高調宣稱終止某項研究計劃的背後, 往往在隱秘地持續開展相關研究. “深綠” 計劃表面上雖然被叫停, 不排除相關研究仍在繼續的可能.

1.2 谷歌 AlphaGo系統

相比于軍方自頂向下推進指揮與控制智能化的 努力困難重重, AlphaGo 在民用領域取得的突破可謂 另闢蹊徑, 後來居上.

AlphaGo 所採用的核心技術是深度學習和蒙特 卡洛搜索,特別擅於分析博弈層面的問題, 而且已 被證明比人類更擅長應對天文數字般的組合不確定 性. 其通過訓練深度神經網絡, 實現對人類直覺思維 的模擬, 是在神經網絡技術應用中非常有魄力的一 種創新. 神經網絡雖然和人類大腦中的神經元系統 相差甚遠, 卻被實踐證明可以模擬非常複雜的映射關係. 而人類的直覺就是一種說不清、道不明的潛 在映射關係. 機器通過千萬級別的訓練樣本, 學會了 人類的這種直覺, 可以直接生成當前局勢的 “應對良 策”(實際上是人類高手在同類局勢下使用較多的棋 招), 而不是對每種可能性都推一遍, 同時生成對最終 輸贏結果的價值估計 (實際上是人類類似棋局最終 輸贏結果的統計分佈), 並在有限範圍內開展推演求 證 (由於縮小了範圍, 屏蔽了細節, 推演效率高). 因此, 使用 AlphaGo 的方法, 可以幫助人們高效演算作 戰中的博弈問題, 從而尋求戰法策略的優化.

然而, AlphaGo直接用於作戰設計和分析是有問題的, 主要是屏蔽了太多細節導致的失真。和圍棋不同, 戰場上任何一招一策, 能達到何種效果, 都是和具體對象、環境相關的. 棋盤上看似簡單的一步棋, 實際效果可能未必落在想要落在的那個格子裡. 此外, 使用 AlphaGo方法, 還面臨著戰場抽象建模、非輪次博弈、非單一目標、不完全信息、不完備規則、缺訓練樣本等一系列問題, 下文中會詳細闡述. 換言之, 單靠棋盤上的博弈驗證戰法策略的有效性, 有 “紙上 談兵” 之嫌, 具有一定的意義, 但實用性不強.

2 應用機理及能力分析

2.1 應用機理

“深綠”和 AlphaGo所採用的兩種方法, 既可以 分別應用在指揮與控制中, 也可以結合起來應用, 取 決於實際需求.

1) “深綠”—— 戰術級仿真推演

從美軍 “深綠” 系統的設計初衷和其應用效果來 看, 其更適合戰術層級的仿真推演. 一方面, 戰術層 級的實體行為模型較易建立, 武器平臺的運用規則 相對簡單、作用效果相對容易量化評估. 另一方面, 戰術層級的不確定性相對較小, 因為時間相對較短、 規模相對較小、流程相對固定. 再一方面, 戰術層級 的分析對於精確量化的要求更高, 武器平臺的控制、 打擊效果的評估等都需要精確量化的數據支撐. 在 戰術級運用仿真推演, 可以充分發揮機器精確的計 算能力.

2) AlphaGo—— 戰略、戰役級博弈推理

從 AlphaGo 定位於棋類遊戲來看, 其更適合戰 略、戰役層級的博弈推理. 棋招類似於戰法, 走一 步棋類似於指揮員下定一步作戰行動的決心. 通過 AlphaGo 扮演 “藍軍” 指揮員, 與扮演 “紅軍” 的人類 指揮員互相拆招喂招, 可以幫助指揮員定性地分析 各種戰法相互作用、多個回合之後的可能結果. 戰爭 是不確定性的王國, AlphaGo 擅長的就是從大量不確 定性中尋求可行解. 另外, AlphaGo 採用的自我博弈 方法, 還能幫助指揮員從龐大的解空間中自動尋找最有可能取勝的戰法組合, 幫助實現戰法策略的優 化.

3) 兩者結合 —— 一體化作戰設計分析

然而, AlphaGo 真正要用在指揮與控制領域, 實 現從棋類遊戲到戰爭推演的轉化, 就要和 “深綠” 的 方法相結合, 互相取長補短.

深度|“深綠” 及 AlphaGo 對指揮與控制智能化的啟示

結合應用的機理如圖 1 所示, 指揮員和機器在 棋盤上進行對弈, 通過仿真環境實現和真實戰場的 對接. 首先, 指揮員在棋盤上設計戰法, 相當於走出 一步棋,“深綠” 系統使用草圖到計劃的功能, 將該戰 法細化成具體可操作的行動方案, 並基於實時接入 的戰場數據, 通過仿真模擬出方案執行後的效果, 將該效果抽象之後呈現在棋盤上, 即通過仿真估計出 棋子可能落在哪一格. 接著, AlphaGo 用其深度學習 得到的策略網絡, 生成敵方的戰法, “深綠” 系統將其 細化成方案, 仿真出效果並抽象到棋盤上, 從而完成 雙方一輪走棋. AlphaGo 再用估值網絡估計一下當前 盤面的勝負概率, 並用蒙特卡洛搜索進行推演求證, 供指揮員分析參考. 按照這種方法, 戰略、戰役、戰術層級得到了兼 顧, 兩種方法形成了優勢互補, AlphaGo 解決了不確 定性的問題, “深綠” 實現了 “紙上談兵” 和實際戰場 的結合, 因此, 可用於一體化的作戰設計分析.

2.2 應用能力

在指揮與控制領域應用 “深綠” 和 AlphaGo的方法, 可以實現很多前所未有的功能, 支撐戰前推演、實時預測、臨機決策、精準控制、戰後評估等一系列指揮與控制業務.

1) 博弈式籌劃推演

在戰前, 可以將 AlphaGo和 “深綠” 結合起來, 實 現博弈式的籌劃推演. 一種是人 - 機博弈: 人類指揮員設計我方戰法, AlphaGo 設計敵方戰法, “深綠” 負責行動方案細化生成、行動效果模擬抽象, AlphaGo 估計勝負概率, 人類指揮員可以選擇繼續往下走, 或者悔棋重新設計戰法, 重新推演, 以此反覆修改優化方案. 另一種是機 - 機博弈: AlphaGo 用自我博弈的方法, 同時設計敵、我戰法, 通過隨機選擇戰法的方 式, 把各種可能的戰法組合都推演一遍, 並自動對推 演結果進行批處理分析、比對, 從而幫助人類指揮員尋找較為理想的方案. 由於人類指揮員在設計方案時往往具有思維定勢, 容易忽略掉一些可行解, 而 器採用有限範圍內的解空間搜索方式, 或許能搜出 一些人想不到的方案, 其中不乏 “奇招、妙招”.

2) 實時態勢預測

在戰中, 可以將 AlphaGo 和 “深綠” 結合起來, 實 現戰場態勢的實時預測. 其中, AlphaGo 主要負責敵 方的出招預測, 即預測敵方在當前形勢下, 下一步可 能採用的戰法. 但按其方法原理, 其只能預測當前局 勢下令對手贏面最大的一招, 而無法預測對手可能 採用的 “昏招” 或 “險招”. “深綠” 主要負責戰術層面 的戰場狀態預測, 一是按敵我當前戰法打下去, 量化 估計下一時刻可能的戰場狀態, 二是考慮環境、對抗 中的少量隨機性, 或敵我戰法的少量可選項, 歸納出 短時間內未來態勢可能出現的幾種局面.

3) 臨機快速決策

AlphaGo 的一大特點, 是克服大量未知不確定性的組合爆炸, 模擬人類的棋感直覺, 根據當前盤面形勢快速拆招解招. 這種能力如果用在臨機指揮中, 可以快速生成決策建議, 尤其是在突遭變化、敵方後招 難以捉摸, 而形勢又特別緊急的情況下, 可以避免人 類指揮員容易出現的猶豫不決現象, 提升決策效率. 更重要的是, AlphaGo 在訓練時使用的樣本很多, 可以模擬很多高水平指揮員的共性直覺, 理論上其生成的建議有可能會優於單個人類指揮員. 當然, 以目前人工智能的水平, 支持戰前籌劃還行, 支持戰中指揮有點不太現實, 但如果 AlphaGo攻克了星際爭霸之類的實時競技類遊戲, 那就完全不同了.

4) 前饋式精準控制

深綠基於仿真的實時量化預測能力, 可以在行動執行過程中, 模擬戰場多因素綜合作用的結果, 超實時預測行動執行的效果, 並根據實時數據動態修正預測結果. 指揮員可以實時把握行動預計效果同預期之間的偏差, 提前對行動進行調整. 過去都是根據當前行動執行的結果, 來調整下一步的行動, 是在偏差已經產生情況下的調控. 而通過超前預測引入的反饋, 是在偏差尚未產生之前的調控, 類似控制論 中的前饋式控制, 可以幫助指揮員防患於未然. 在此基礎上, 如果仿真模型的粒度越細, 則效果預測就越精確, 控制的精準度就越高.

5) 戰後評估訓練

一方面, 戰前的博弈式推演方法也可以用在戰後, 對各種戰法進行博弈演練, 發現戰法存在的問題, 從而進行優化. 另一方面, 利用 AlphaGo中的深度學習技術, 還可以實現各種作戰模型的訓練優化. 很多作戰模型因為影響因素太多、作用機理複雜, 傳統數學模型難以精確擬合. 例如部隊實戰能力, 受敵我兵力配屬、武器配備、使用戰法、訓練水平、士氣、相對位置、戰場環境等諸多因素影響, 一直以來都很難建模. 而指揮員和部隊一起摸爬滾打多年, 對其實戰能力的估計是比較準確的, 這種經驗性的直覺判斷, 類似 AlphaGo 對盤面勝負概率的估計. 神經網絡具備超強的分類/擬合性能, 如果給定歷史案例中各種情況下的戰況數據, 用深度學習方式或許能擬合出 一個較為精確的模型出來.

3 技術應用面臨的挑戰

“深綠” 計劃面臨的挑戰如前所述, 包括戰爭的複雜不確定性、模型的精確性、計算資源的佔用性等. AlphaGo的方法雖然在圍棋領域取得了傑出的成就, 並且具有一定的通用性, 但真正應用在作戰指 揮與控制領域, 還面臨許多挑戰.

1) 戰場抽象建模

棋盤上, 車無輪、馬無韁, 一切都是簡化過的. 而現實戰爭太複雜, 要考慮的細節因素太多, 只有抽象到棋盤層面, 才有可能分析戰法博弈. 但如何抽象, 才能做到既簡化了繁冗的細節, 又保留了博弈的本質, 是一個值得研究的問題. 例如, 戰場態勢決不僅僅是兵力的棋佈, 各種相互關係、能勢大小、趨勢方向都應在棋盤上反映出來;調兵遣將也決不僅僅是棋子的位置挪移, 各種戰法戰術策略、武器使用方式都應在棋盤上可選. 其實這是兵棋要考慮的問題, 但現在的兵棋能否做到, 還有待驗證.

2) 非輪次博弈

現代化戰爭不像古代的決鬥, 不是你走一步我 走一步的模式, 而是你走一步, 我可能走兩步甚至更多. 戰爭也不是你走一子我走一子, 而是多個子同時在走. 像星際爭霸之類的遊戲是很接近戰爭, 但 AlphaGo 能否攻克還是未知數, 很可能不會採用和圍棋一樣的方法. 戰爭是連續演進的, 一種方式是採用某種策略將其離散化, 分成許多時間片段, 允許每個片段結束時雙方各做一次決策 (保持不變也是一種決策), 然後套用圍棋的方法, 這種方法帶來的問題就是時間片劃分多細合適, 太細了計算量大, 太粗了容易失真. 除此之外, 就需要創新提出完全不同於AlphaGo的方法來解決.

3) 非單一目標

棋盤對弈, 最終的目標就是輸贏. 而實際戰爭往往沒有那麼簡單, 很多情況下沒有明確的輸贏之分, 而是要達到某種期望的狀態, 比如奪取制空權之類. 而且實際戰爭中除了輸贏, 考評一個作戰方案還有很多其它指標, 比如預期效能的達標性、損失代價的可接受性、資源佔用條件的滿足性、應對各種變化的靈活性等. 換言之, 實際戰爭的目標是非單一的, 是一套價值目標體系. 如何在棋盤對弈中模擬這樣的價值目標體系, 而神經網絡又如何來學習這種價值目標體系下的人類直覺, 都是值得研究的問題.

4) 不完全信息

棋盤上, 黑白分佈一目瞭然. 而現實戰爭中, 信息有缺有失、有真有假. 當信息缺失時, 就好像一個人在下棋, 走了好幾步之後, 才知道對手走到哪兒, 也不知道對手是怎麼走到那裡的, 那麼在這幾步 “盲棋” 中, 該如何做決策?另一方面, 當信息有假時, 就好像對手錶面上走了一步棋, 實際上走的是另一步棋, 有一個看得見的棋盤和一個看不見的棋盤, 如何鑑別看得見的這步棋, 又如何估計看不見的那步棋? 星際爭霸遊戲中設置了一部分信息缺失的元素, 例如未經玩家探索過的地區會蒙上一層黑幕. AlphaGo能否通過這樣的考驗, 讓我們試目以待.

5) 不完備規則

棋盤上, 一招一式都有規定, 規則是明確的, 對雙方是一致的. 而現實戰爭中, 招無定式、兵無定法, 人可以隨時創造出新戰法. 朱可夫在與關東軍作戰 中, 用滑輪繩索將坦克拉上陡坡, 實現了出奇制勝. 而現代化戰爭中, 前方兵力看似不多, 後方一枚遠程導彈就有可能瞬間改變戰局, 美軍號稱一小時內能打到全球任何一處, 小小棋盤又哪能覆蓋無邊界的戰場?即便循規蹈矩地照教科書上的戰法, 用在不同的實際情況下也是需要調整的, 創新是無處不在的. 試想兩人對弈中, 如果對手不斷地違規走棋, 即便是 “圍棋之神” 也難以取勝. 當然, 實際戰爭中對手的規則也不是完全不清楚, 是可以大致估計出來的, 很多情況下對手別無選擇, 這裡面有個度的問題.

6) 缺訓練樣本

棋局盤面可以達到千萬級的規模, 現實戰爭不太可能. 即便算上演習訓練, 也離這個規模相去甚遠. AlphaGo 通過自我博弈無中生有地製造了大量樣本, 這對於戰爭能否做到是個問題. 棋盤上自我博弈較為簡單, 用於作戰還要解決從戰法到行動方案的自動生成問題. 此外, 人造的樣本能不能用也是個問題, 深度學習如果學到的是人造的規律, 就失去了意義. 另一方面, 人類自身在學習時並不需要太多樣本, 打 過幾次仗的兵就算老兵了, 一生身經數十戰就是 “戰神” 了, 人類靠的不僅僅是經驗積累, 每積累一次經驗都會帶有思考, 讓理性思維和感性認識相結合, 才能實現快速學習. 如何讓機器像人一樣去學習作戰, 是很值得研究的問題.

上述挑戰問題, 每一個目前都沒有很好的解決辦法, 但筆者相信隨著技術的發展, 它們終有一天會被解決. 正如 AlphaGo 贏棋之前, 很多人預測這一天還要很多年才能到來. 我們處在技術飛速發展的時 代, 每一天都在見證奇蹟的出現.

4 指揮與控制智能化發展著力點

分析認為, 不論 AlphaGo還是 “深綠”, 其邁向智能化的基礎都是知識. AlphaGo的知識是16萬人類高手的圍棋棋譜, “深綠” 的知識是各種仿真實體的交戰模型. 沒有這些知識做基礎, 它們是達不到現在 的智能化程度的. 因此, 知識工程是智能化的基石, 解決智能化的關鍵問題, 還應從知識表示、知識學 習、知識推理等基礎問題入手, 加強技術方法研究.

1) 加強指揮員認知域的知識表示方法研究

智能化的第一步, 是讓機器理解戰爭, 理解戰場上發生的事, 以及指揮員心中考慮的問題. 分析戰爭問題, 很重要的一點就是抽象. 要分析戰法博弈層面的問題, 首先要分析一下指揮員心中的棋盤是什麼樣的, 指揮員是如何分析任務目標、理解戰場局勢、 設計作戰思路的、評價作戰效果的, 指揮員大腦裡抽象、模糊、不確定的知識產物具有哪些要素特徵. 然後探尋如何將這些要素特徵形式化描述, 以便機器理解.

2) 加強複雜戰爭規律的知識學習方法研究

戰爭規律不斷在變化, 而且複雜性也在不斷提升, 人類經驗總結是一方面, 機器學習的方法可以幫助人類提升對複雜戰爭規律的認識. 運用深度學習方法, 首先要解決訓練樣本的問題, 可用的實際戰爭和演習數據有限, 一種可行的途徑是通過仿真模擬的作戰過程積累數據. 因此, 要大力建設作戰仿真模擬環境, 類似星際爭霸之類的戰爭遊戲, 還應當越做越精細, 更加逼真的模擬真實作戰, 不僅僅是在畫面效果上, 還要在作戰流程、交戰對抗、實體行為決策、 戰場環境上儘量貼近真實, 讓更多一線的指揮人員成為遊戲的玩家, 同時也讓將戰爭遊戲打造成為檢 驗戰法戰術的試金石和試驗田. 在積累了大量指揮軍官的遊戲數據之後, 深度學習才能派上用場.

3) 加強面向博弈對抗的知識推理方法研究

如前所述, 戰爭博弈對抗具有非輪次博弈、非單一目標、不完全信息、不完備規則等特徵, 傳統的知識推理方法存在適用性問題. 因此, 在充分吸收 AlphaGo的推理方法的同時, 還應結合邏輯推理、不確定推理、基於案例的推理、基於仿真的模擬推演,以及傳統的數學計算等多種手段, 或者創造新的推理方法. 另一方面, 人工智能目前還不能完全替代人類的智慧, 但兩種智能可以結合起來解決問題. 如何優化人和機器的智能分工與協作效率, 實現智能輸出的最大化, 也是值得研究的問題.

5 啟示及建議

本文對美軍 “深綠” 計劃及 AlphaGo進行了簡要的介紹, 分析了其各自的優缺點, 提出了將二者的核心技術方法結合起來, 應用於戰前推演、實時預測、臨機決策、精準控制、戰後評估等指揮與控制業務的方法.同時, 也從戰爭抽象建模、非輪次博弈、非單一目標、不完全信息、不完備規則、缺訓練樣本等方面分析了技術應用面臨的挑戰, 指出發展指揮與控制智能化應以知識表示、學習、推理等基礎問題作為著力點. 知識是智能化的核心, 而數據是根基, 所謂 “巧婦難為無米之炊”, 是當前指揮與控制智能化面臨的困境, 因此, 要大力推進知識工程建設, 積累數據是關鍵。

人工智能技術雖然不能說已經成熟, 但足以和目前的指揮與控制系統拉開足夠差距, 可以發展的空間很大, 很多傳統方法解決不了的問題有可能通過智能化技術解決。然而,發展智能化指揮與控制要一步步來,不能急功近利,“深綠” 就是前車之鑑, 把握不好, 一次重大失利, 就可能將其帶入低谷. 深度 學習技術只是人工智能的一種方法, 不能解決所有問題, 其他人工智能方法也有待進一步發展, 關鍵在於如何結合領域特徵高效轉化應用. 最後, 應當將人工智能當作指揮員的助手, 用於輔助決策, 但最終做決定的還應當是人類, 全自主化戰爭目前來看還太遙遠。來源:《指揮與控制學報》


分享到:


相關文章: