隨機博弈

隨機博弈（英語：stochastic game），或稱隨機賽局、隨機對局，在博弈論中是一類由一個或多個參與者所進行的、具有狀態概率轉移的動態博弈，由勞埃德·夏普利（Lloyd Shapley）於20世紀50年代初期提出。^[1]

定義

這類博弈由一系列階段組成。在博弈中每一階段的起始，博弈處於某種特定狀態。每一參與者選擇某種行動，然後會獲得取決於當前狀態和所選擇行動的收益。之後，博弈發展到下一階段，處於一個新的隨機狀態，這一隨機狀態的分佈取決於先前狀態和各位參與者選擇的行動。在新狀態中重複上述過程，然後博弈繼續進行有限或無限個數的階段。一個參與者得到的總收益常用各階段收益的貼現和，或是各階段收益平均值的下極限來計算。

數學描述

隨機博弈的組成部分有：有限參與者集 $I$ ；狀態空間 $M$ （可以是有限集，也可以是可測空間 $(M,{\mathcal {A}})$ ）；對於每一參與者 $i\in I$ ，存在行動集 $S^{i}\,$ （可以是有限集，也可以是可測空間 $(S^{i},{\mathcal {S}}^{i})$ ）； $P$ 是 $M\times S$ 到 $M$ 的轉移概率，其中 $S=\times _{i\in I}S^{i}$ 是行動組合， $P(A\mid m,s)$ 是下一狀態處於 $A$ 中的概率，而 $A$ 給定了當前狀態 $m$ 和當前行動組合 $s$ ；從 $M\times S$ 到 $R^{I}\,$ 的收益函數 $g$ ，其中 $g$ 的第 $i$ 個坐標 $g^{i}\,$ 是參與者 $i$ 的收益，而 $g^{i}\,$ 是狀態 $m$ 和行動組合 $s$ 的函數。

博弈以某個初始狀態 $m_{1}$ 開始。在階段 $t$ 中，參與者最先觀測到 $m_{t}$ ，同時選擇行動 $s_{t}^{i}\in S^{i}$ ，然後觀測到行動組合 $s_{t}=(s_{t}^{i})_{i}$ ，然後以概率 $P(\cdot \mid m_{t},s_{t})$ 自然選擇 $m_{t+1}$ 。一次隨機博弈 $m_{1},s_{1},\ldots ,m_{t},s_{t},\ldots$ 定義了一個收益流 $g_{1},g_{2},\ldots$ ，其中 $g_{t}=g(m_{t},s_{t})\,$ 。

例子

下面給出隨機博弈的一個例子：

當前有任意個裝着球的桶，每個桶中球的數目也是任意的，兩位參與者輪流從中取出球，且需要遵守如下規則：

每一步應至少取出一隻球，且只能從某一桶中取走部分或全部球；
誰取到最後一隻球，誰就獲勝。

重要結論

貼現因子為 $\lambda$ （ $0<\lambda \leq 1$ ）的貼現博弈 $\Gamma _{\lambda }$ 中，參與者 $i$ 的收益是 $\lambda \sum _{t=1}^{\infty }(1-\lambda )^{t-1}g_{t}^{i}$ 。 $n$ 階段博弈中，參與者 $i$ 的收益是 ${\bar {g}}_{n}^{i}:={\frac {1}{n}}\sum _{t=1}^{n}g_{t}^{i}$ 。

若存在有限多個狀態和行動的二人零和博弈 $\Gamma _{n}$ （各自是 $\Gamma _{\lambda }$ ）的值為 $v_{n}(m_{1})$ （各自是 $v_{\lambda }(m_{1})$ ），則 $v_{n}(m_{1})$ 在 $n$ 趨於無窮時收斂到一個極限，且 $v_{\lambda }(m_{1})$ 在 $\lambda$ 趨於 $0$ 時收斂到相同的極限。這一結論已被杜魯門·彪利（Truman Bewley）和艾朗·克爾伯格（Elon Kohlberg）於1976年證明。^[2]

非貼現博弈 $\Gamma _{\infty }$ 中，參與者 $i$ 的收益是各階段收益平均值的極限。在定義二人零和博弈 $\Gamma _{\infty }$ 的值與非零和博弈 $\Gamma _{\infty }$ 的均衡收益之前需要注意一些事情：若對於每一 $\varepsilon >0$ 都有正整數 $N$ 、參與者1的策略 $\sigma _{\varepsilon }$ 和參與者2的策略 $\tau _{\varepsilon }$ ，二人零和隨機博弈 $\Gamma _{\infty }$ 的一致值（uniform value） $v_{\infty }$ 存在，這樣對於每一 $\sigma$ 、 $\tau$ 和每一 $n\geq N$ ，博弈中由 $\sigma _{\varepsilon }$ 和 $\tau$ 定義的概率的 ${\bar {g}}_{n}^{i}$ 期望至少為 $v_{\infty }-\varepsilon$ ，由 $\sigma$ 和 $\tau _{\varepsilon }$ 定義的概率的 ${\bar {g}}_{n}^{i}$ 期望至多為 $v_{\infty }+\varepsilon$ 。讓·弗朗索瓦·梅頓斯（Jean Francois Mertens）和亞伯拉罕·奈曼（Abraham Neyman）於1981年證明二人零和隨機博弈具有一致值。^[3]

若參與者數量有限且行動集和狀態集有限，則有限階段隨機博弈總有納殊均衡，對於總收益是貼現和的無限多階段隨機博弈也是如此。尼古拉斯·維勒（Nicolas Vieille）已經證明當總收益是各階段收益平均值的下極限時，所有具有有限狀態和行動空間的二人隨機博弈都有近似納殊均衡。不過，當參與者多於2名時，隨機博弈是否存在這類均衡仍是一個極具挑戰性的開放性問題。^[4]

應用

隨機博弈在經濟學、演化生物學和計算機網絡中都有應用。^[5]事實上，隨機博弈是重複博弈這類每一階段都處於相同狀態的博弈的一般化形式。

有關隨機博弈的最全面的參考書籍是奈曼和索林編著的文集。^[2]菲拉爾和烏瑞茲所著的書籍更為基礎，書中提供了馬爾可夫決策過程（MDP）和二人隨機博弈理論的嚴密的統一處理方法。^[6]他們創造了Competitive MDPs這一術語來概括一人和二人隨機博弈。

參考文獻

註釋

^ Lloyd Stowell Shapley. Stochastic games. Proc. Nat. Acad. Sciences. October 1953, 39 (10): 第1095－1100頁. ISSN 1091-6490. PMC 1063912 .
^ ^2.0 ^2.1 Abraham Neyman，Sylvain Sorin. Stochastic Games and Applications. Kluwer Academic Press. 2003年10月31日. ISBN 978-1402014932 （英語）.
^ Jean Francois Mertens，Abraham Neyman. Stochastic Games (PDF). International Journal of Game Theory. June 1981, 10 (2): 第53－66頁. ISSN 0020-7276. ^{[永久失效連結]} 電子版：ISSN 1432-1270
^ Nicolas Vieille. Stochastic games: Recent results. R.J. Aumann，S. Hart (編). Handbook of Game Theory with Economic Applications. North-Holland. 2002年9月2日: 第1833–1850頁 [2010年9月7日]. ISBN 978-0-444-89428-1. doi:10.1016/S1574-0005(02)03011-4. （原始內容 (精裝書)存檔於2018年1月2日）（英語）.
^ Eitan Altman，Konstantin Avrachenkov，Nicolas Bonneau，Mérouane Debbah，Rachid El-Azouzi，Daniel Menasché. Constrained Stochastic Games in Wireless Networks. Global Telecommunications Conference, 2007. GLOBECOM '07. IEEE. Washington, DC: 第315－320頁. 2007年11月26日－30日 [2010年9月7日]. doi:10.1109/GLOCOM.2007.66. ISBN 978-1-4244-1043-9. （原始內容存檔於2016年3月4日）. 請檢查|date=中的日期值 (幫助) [] [1] （頁面存檔備份，存於互聯網檔案館）
^ Jerzy A. Filar，Koos Vrieze. Competitive Markov Decision Processes. Springer-Verlag. 1996年11月15日. ISBN 978-0387948058 （英語）.

一般參考

Anne Condon. The complexity of stochastic games. Information and Computation. 1992, 96 (2): 第203－224頁 [2010-09-07]. ISSN 0890-5401. doi:10.1016/0890-5401(92)90048-K. （原始內容存檔於2013-06-03）.

[1] Lloyd Stowell Shapley. Stochastic games. Proc. Nat. Acad. Sciences. October 1953, 39 (10): 第1095－1100頁. ISSN 1091-6490. PMC 1063912 .

[Neyman_&_Sorin-2] 2.0 ^2.1 Abraham Neyman，Sylvain Sorin. Stochastic Games and Applications. Kluwer Academic Press. 2003年10月31日. ISBN 978-1402014932 （英語）.

[3] Jean Francois Mertens，Abraham Neyman. Stochastic Games (PDF). International Journal of Game Theory. June 1981, 10 (2): 第53－66頁. ISSN 0020-7276. ^{[永久失效連結]} 電子版：ISSN 1432-1270

[4] Nicolas Vieille. Stochastic games: Recent results. R.J. Aumann，S. Hart (編). Handbook of Game Theory with Economic Applications. North-Holland. 2002年9月2日: 第1833–1850頁 [2010年9月7日]. ISBN 978-0-444-89428-1. doi:10.1016/S1574-0005(02)03011-4. （原始內容 (精裝書)存檔於2018年1月2日）（英語）.

[5] Eitan Altman，Konstantin Avrachenkov，Nicolas Bonneau，Mérouane Debbah，Rachid El-Azouzi，Daniel Menasché. Constrained Stochastic Games in Wireless Networks. Global Telecommunications Conference, 2007. GLOBECOM '07. IEEE. Washington, DC: 第315－320頁. 2007年11月26日－30日 [2010年9月7日]. doi:10.1109/GLOCOM.2007.66. ISBN 978-1-4244-1043-9. （原始內容存檔於2016年3月4日）. 請檢查|date=中的日期值 (幫助) [] [1] （頁面存檔備份，存於互聯網檔案館）

[6] Jerzy A. Filar，Koos Vrieze. Competitive Markov Decision Processes. Springer-Verlag. 1996年11月15日. ISBN 978-0387948058 （英語）.

[1]

[2]

[3]

[4]

[5]

[6]

閱論編博弈論專題
定義	正則形式的博弈 · 擴展形式的博弈 · 圖博弈論 · 合作博弈 · 資訊集合 · 偏好
均衡概念（英語：Solution concept）	納殊均衡 · 強納殊均衡（英語：Strong Nash equilibrium） · 子博弈均衡（英語：Subgame perfect equilibrium） · 貝葉斯-納殊均衡 · 貝葉斯完美均衡（英語：Perfect Bayesian equilibrium） · 顫抖手完美均衡 · 恰當均衡（英語：Proper equilibrium） · ε-均衡 · 相關均衡 · 序貫均衡 · 准完美均衡（英語：Quasi-perfect equilibrium） · 進化穩定策略（英語：Evolutionarily stable strategy） · 風險佔優（英語：Risk dominance） · 柏拉圖最適 · 自我應驗均衡（英語：Self-confirming equilibrium） · 馬爾可夫完美均衡（英語：Markov perfect equilibrium） · 默滕斯穩定均衡（英語：Mertens-stable equilibrium） · 核（英語：Core (game theory)） · 夏普利值（英語：Shapley value） · 吉布斯均衡（英語：Potentialg ame） · 量子響應均衡（英語：Quantal response equilibrium） · 謝林點
策略	優勢策略 · 純策略 · 混合策略 · 以牙還牙 · 冷酷觸發策略（英語：Grim trigger） · 策略複製論證（英語：Strategy-stealing argument） · 逆向歸納法（英語：Backward induction） · 前向歸納法（英語：Forward induction） · 馬爾可夫策略（英語：Markov strategy）
博弈類型	對稱博弈 · 完美資訊 · 序列博弈 · 重複博弈 · 信號博弈 · 廉價磋商（英語：Cheap talk） · 零和博弈 · 機制設計 · 隨機博弈 · 非傳遞博弈 · 全局博弈（英語：Global game） · 甄別博弈（英語：screening game） · 討價還價問題（英語：Bargaining problem） · 多人博弈（英語：n-player game） · 大型泊松博弈（英語：Large Poisson game） · 嚴格決定博弈 · 潛博弈（英語：Potential game） · 位勢博弈
博弈模型	圍棋 · 國際象棋 · 無限棋（英語：Infinite chess） · 西洋跳棋 · 井字棋 · 囚徒困境（可選擇的囚徒博弈（英語：Optional prisoner's dilemma） · 用餐者困境） · 旅行者困境 · 猜均值的2/3 · 協調博弈（英語：Coordination game） · 蜈蚣博弈 · 志願者困境 · 搭便車問題 · 拍賣美元 · 膽小鬼博弈 · 智豬博弈 · 性別戰 · 獵鹿博弈 · 賭便士（英語：Matching pennies） · 最後通牒博弈（海盜博弈） · 包、剪、揼 · 獨裁者博弈（信任遊戲） · 公共財博弈（英語：Public goods game） · 納殊討價還價問題（英語：Nash Bargaining Game） · 上校博弈 · 消耗戰 · 少數派博弈（El Farol酒吧問題） · 公平分配博弈（切蛋糕問題（英語：Fair cake-cutting）） · 古諾競爭 · 死結 · 庫恩撲克遊戲（英語：Kuhn poker） · 甄別博弈（英語：Screening Game） · 公主與怪獸遊戲（英語：Princess and monster game） · 約會問題（英語：Rendezvous problem） · 囚徒帽子謎題（英語：Prisoners and hats puzzle）
定理	極值定理 · 純化定理（英語：Purification theorem） · 無名氏定理 · 顯示定理（英語：Revelation principle） · 阿羅不可能定理 · 極小化極大算法 · 納殊均衡 · 策梅洛定理
關鍵人物（英語：List of game theorists）	阿爾伯特·W·塔克 · 阿摩司·特沃斯基 · 阿里埃勒·魯賓斯坦 · 克勞德·香農 · 丹尼爾·卡內曼 · 戴維·K·萊文（英語：David K. Levine） · 戴維·M·克雷普斯（英語：David M. Kreps） · 唐納德·B·吉利斯（英語：Donald B. Gillies） · 朱·弗登博格（英語：Drew Fudenberg） · 埃里克·馬斯金 · 哈羅德·W·庫恩（英語：Harold W. Kuhn） · 赫伯特·亞歷山大·西蒙（司馬賀） · 埃爾維·穆蘭（英語：Hervé Moulin） · 讓·梯若爾 · 讓-弗朗索瓦·默滕斯（英語：Jean-François Mertens） · 珍妮弗·圖爾·蔡司（英語：Jennifer Tour Chayes） · 夏仙義·亞諾什·卡羅伊 · 約翰·梅納德·史密斯 · 安托萬·奧古斯丁·庫爾諾 · 約翰·福布斯·納殊 · 約翰·馮·諾伊曼 · 肯尼斯·阿羅 · 肯尼思·賓默爾 · 里奧尼德·赫維克茲 · 勞埃德·沙普利 · 梅爾文·德雷希爾（英語：Melvin Dresher） · 梅里爾·M·弗勒德 · 奧嘉·邦達雷娃（英語：Olga Bondareva） · 奧斯卡·莫根施特恩（英語：Oskar Morgenstern） · 保羅·米爾格龍 · 佩頓·楊（英語：Peyton Young） · 賴因哈德·澤爾騰 · 羅伯特·阿克塞爾羅 · 羅伯特·約翰·奧曼 · 羅伯特·B·威爾遜 · 羅傑·梅爾森 · 塞繆爾·鮑爾斯（英語：Samuel Bowles (economist)） · 蘇珊娜·斯科奇姆 · 托馬斯·克羅姆比·謝林 · 威廉·維克里
參見	全支付拍賣 · Alpha-beta剪枝 · 伯川德悖論（英語：Bertrand paradox (economics)） · 有限理性 · 組合博弈論 · 對抗分析（英語：Confrontation analysis） · 合作性競爭 · 棋局中的先手優勢（英語：First-move advantage in chess） · 博弈機制（英語：Game mechanics） · 博弈論詞彙表（英語：Glossary of game theory） · 博弈理論家列表（英語：List of game theorists） · 特殊博弈列表 · 雙輸 · 國際象棋的解局策略（英語：Solving chess） · 拓撲博弈（英語：Topological game） · 公地悲劇 · 小決定暴政