随机博弈

随机博弈（英语：stochastic game），或称随机赛局、随机对局，在博弈论中是一类由一个或多个参与者所进行的、具有状态概率转移的动态博弈，由劳埃德·夏普利（Lloyd Shapley）于20世纪50年代初期提出。^[1]

定义

这类博弈由一系列阶段组成。在博弈中每一阶段的起始，博弈处于某种特定状态。每一参与者选择某种行动，然后会获得取决于当前状态和所选择行动的收益。之后，博弈发展到下一阶段，处于一个新的随机状态，这一随机状态的分布取决于先前状态和各位参与者选择的行动。在新状态中重复上述过程，然后博弈继续进行有限或无限个数的阶段。一个参与者得到的总收益常用各阶段收益的贴现和，或是各阶段收益平均值的下极限来计算。

数学描述

随机博弈的组成部分有：有限参与者集 $I$ ；状态空间 $M$ （可以是有限集，也可以是可测空间 $(M,{\mathcal {A}})$ ）；对于每一参与者 $i\in I$ ，存在行动集 $S^{i}\,$ （可以是有限集，也可以是可测空间 $(S^{i},{\mathcal {S}}^{i})$ ）； $P$ 是 $M\times S$ 到 $M$ 的转移概率，其中 $S=\times _{i\in I}S^{i}$ 是行动组合， $P(A\mid m,s)$ 是下一状态处于 $A$ 中的概率，而 $A$ 给定了当前状态 $m$ 和当前行动组合 $s$ ；从 $M\times S$ 到 $R^{I}\,$ 的收益函数 $g$ ，其中 $g$ 的第 $i$ 个坐标 $g^{i}\,$ 是参与者 $i$ 的收益，而 $g^{i}\,$ 是状态 $m$ 和行动组合 $s$ 的函数。

博弈以某个初始状态 $m_{1}$ 开始。在阶段 $t$ 中，参与者最先观测到 $m_{t}$ ，同时选择行动 $s_{t}^{i}\in S^{i}$ ，然后观测到行动组合 $s_{t}=(s_{t}^{i})_{i}$ ，然后以概率 $P(\cdot \mid m_{t},s_{t})$ 自然选择 $m_{t+1}$ 。一次随机博弈 $m_{1},s_{1},\ldots ,m_{t},s_{t},\ldots$ 定义了一个收益流 $g_{1},g_{2},\ldots$ ，其中 $g_{t}=g(m_{t},s_{t})\,$ 。

例子

下面给出随机博弈的一个例子：

当前有任意个装着球的桶，每个桶中球的数目也是任意的，两位参与者轮流从中取出球，且需要遵守如下规则：

每一步应至少取出一只球，且只能从某一桶中取走部分或全部球；
谁取到最后一只球，谁就获胜。

重要结论

贴现因子为 $\lambda$ （ $0<\lambda \leq 1$ ）的贴现博弈 $\Gamma _{\lambda }$ 中，参与者 $i$ 的收益是 $\lambda \sum _{t=1}^{\infty }(1-\lambda )^{t-1}g_{t}^{i}$ 。 $n$ 阶段博弈中，参与者 $i$ 的收益是 ${\bar {g}}_{n}^{i}:={\frac {1}{n}}\sum _{t=1}^{n}g_{t}^{i}$ 。

若存在有限多个状态和行动的二人零和博弈 $\Gamma _{n}$ （各自是 $\Gamma _{\lambda }$ ）的值为 $v_{n}(m_{1})$ （各自是 $v_{\lambda }(m_{1})$ ），则 $v_{n}(m_{1})$ 在 $n$ 趋于无穷时收敛到一个极限，且 $v_{\lambda }(m_{1})$ 在 $\lambda$ 趋于 $0$ 时收敛到相同的极限。这一结论已被杜鲁门·彪利（Truman Bewley）和艾朗·克尔伯格（Elon Kohlberg）于1976年证明。^[2]

非贴现博弈 $\Gamma _{\infty }$ 中，参与者 $i$ 的收益是各阶段收益平均值的极限。在定义二人零和博弈 $\Gamma _{\infty }$ 的值与非零和博弈 $\Gamma _{\infty }$ 的均衡收益之前需要注意一些事情：若对于每一 $\varepsilon >0$ 都有正整数 $N$ 、参与者1的策略 $\sigma _{\varepsilon }$ 和参与者2的策略 $\tau _{\varepsilon }$ ，二人零和随机博弈 $\Gamma _{\infty }$ 的一致值（uniform value） $v_{\infty }$ 存在，这样对于每一 $\sigma$ 、 $\tau$ 和每一 $n\geq N$ ，博弈中由 $\sigma _{\varepsilon }$ 和 $\tau$ 定义的概率的 ${\bar {g}}_{n}^{i}$ 期望至少为 $v_{\infty }-\varepsilon$ ，由 $\sigma$ 和 $\tau _{\varepsilon }$ 定义的概率的 ${\bar {g}}_{n}^{i}$ 期望至多为 $v_{\infty }+\varepsilon$ 。让·弗朗索瓦·梅顿斯（Jean Francois Mertens）和亚伯拉罕·奈曼（Abraham Neyman）于1981年证明二人零和随机博弈具有一致值。^[3]

若参与者数量有限且行动集和状态集有限，则有限阶段随机博弈总有纳什均衡，对于总收益是贴现和的无限多阶段随机博弈也是如此。尼古拉斯·维勒（Nicolas Vieille）已经证明当总收益是各阶段收益平均值的下极限时，所有具有有限状态和行动空间的二人随机博弈都有近似纳什均衡。不过，当参与者多于2名时，随机博弈是否存在这类均衡仍是一个极具挑战性的开放性问题。^[4]

应用

随机博弈在经济学、演化生物学和计算机网络中都有应用。^[5]事实上，随机博弈是重复博弈这类每一阶段都处于相同状态的博弈的一般化形式。

有关随机博弈的最全面的参考书籍是奈曼和索林编著的文集。^[2]菲拉尔和乌瑞兹所著的书籍更为基础，书中提供了马尔可夫决策过程（MDP）和二人随机博弈理论的严密的统一处理方法。^[6]他们创造了Competitive MDPs这一术语来概括一人和二人随机博弈。

参考文献

注释

^ Lloyd Stowell Shapley. Stochastic games. Proc. Nat. Acad. Sciences. October 1953, 39 (10): 第1095－1100页. ISSN 1091-6490. PMC 1063912 .
^ ^2.0 ^2.1 Abraham Neyman，Sylvain Sorin. Stochastic Games and Applications. Kluwer Academic Press. 2003年10月31日. ISBN 978-1402014932 （英语）.
^ Jean Francois Mertens，Abraham Neyman. Stochastic Games (PDF). International Journal of Game Theory. June 1981, 10 (2): 第53－66页. ISSN 0020-7276. ^{[永久失效链接]} 电子版：ISSN 1432-1270
^ Nicolas Vieille. Stochastic games: Recent results. R.J. Aumann，S. Hart (编). Handbook of Game Theory with Economic Applications. North-Holland. 2002年9月2日: 第1833–1850页 [2010年9月7日]. ISBN 978-0-444-89428-1. doi:10.1016/S1574-0005(02)03011-4. （原始内容 (精装书)存档于2018年1月2日）（英语）.
^ Eitan Altman，Konstantin Avrachenkov，Nicolas Bonneau，Mérouane Debbah，Rachid El-Azouzi，Daniel Menasché. Constrained Stochastic Games in Wireless Networks. Global Telecommunications Conference, 2007. GLOBECOM '07. IEEE. Washington, DC: 第315－320页. 2007年11月26日－30日 [2010年9月7日]. doi:10.1109/GLOCOM.2007.66. ISBN 978-1-4244-1043-9. （原始内容存档于2016年3月4日）. 请检查|date=中的日期值 (帮助) [] [1] （页面存档备份，存于互联网档案馆）
^ Jerzy A. Filar，Koos Vrieze. Competitive Markov Decision Processes. Springer-Verlag. 1996年11月15日. ISBN 978-0387948058 （英语）.

一般参考

Anne Condon. The complexity of stochastic games. Information and Computation. 1992, 96 (2): 第203－224页 [2010-09-07]. ISSN 0890-5401. doi:10.1016/0890-5401(92)90048-K. （原始内容存档于2013-06-03）.

[1] Lloyd Stowell Shapley. Stochastic games. Proc. Nat. Acad. Sciences. October 1953, 39 (10): 第1095－1100页. ISSN 1091-6490. PMC 1063912 .

[Neyman_&_Sorin-2] 2.0 ^2.1 Abraham Neyman，Sylvain Sorin. Stochastic Games and Applications. Kluwer Academic Press. 2003年10月31日. ISBN 978-1402014932 （英语）.

[3] Jean Francois Mertens，Abraham Neyman. Stochastic Games (PDF). International Journal of Game Theory. June 1981, 10 (2): 第53－66页. ISSN 0020-7276. ^{[永久失效链接]} 电子版：ISSN 1432-1270

[4] Nicolas Vieille. Stochastic games: Recent results. R.J. Aumann，S. Hart (编). Handbook of Game Theory with Economic Applications. North-Holland. 2002年9月2日: 第1833–1850页 [2010年9月7日]. ISBN 978-0-444-89428-1. doi:10.1016/S1574-0005(02)03011-4. （原始内容 (精装书)存档于2018年1月2日）（英语）.

[5] Eitan Altman，Konstantin Avrachenkov，Nicolas Bonneau，Mérouane Debbah，Rachid El-Azouzi，Daniel Menasché. Constrained Stochastic Games in Wireless Networks. Global Telecommunications Conference, 2007. GLOBECOM '07. IEEE. Washington, DC: 第315－320页. 2007年11月26日－30日 [2010年9月7日]. doi:10.1109/GLOCOM.2007.66. ISBN 978-1-4244-1043-9. （原始内容存档于2016年3月4日）. 请检查|date=中的日期值 (帮助) [] [1] （页面存档备份，存于互联网档案馆）

[6] Jerzy A. Filar，Koos Vrieze. Competitive Markov Decision Processes. Springer-Verlag. 1996年11月15日. ISBN 978-0387948058 （英语）.

[1]

[2]

[3]

[4]

[5]

[6]

查论编博弈论专题
定义	正则形式的博弈 · 扩展形式的博弈 · 图博弈论 · 合作博弈 · 信息集 · 偏好
均衡概念（英语：Solution concept）	纳什均衡 · 强纳什均衡（英语：Strong Nash equilibrium） · 子博弈均衡（英语：Subgame perfect equilibrium） · 贝叶斯-纳什均衡 · 贝叶斯完美均衡（英语：Perfect Bayesian equilibrium） · 颤抖手完美均衡 · 恰当均衡（英语：Proper equilibrium） · ε-均衡 · 相关均衡 · 序贯均衡 · 准完美均衡（英语：Quasi-perfect equilibrium） · 进化稳定策略（英语：Evolutionarily stable strategy） · 风险占优（英语：Risk dominance） · 帕累托最优 · 自我应验均衡（英语：Self-confirming equilibrium） · 马尔可夫完美均衡（英语：Markov perfect equilibrium） · 默滕斯稳定均衡（英语：Mertens-stable equilibrium） · 核（英语：Core (game theory)） · 夏普利值（英语：Shapley value） · 吉布斯均衡（英语：Potentialg ame） · 量子响应均衡（英语：Quantal response equilibrium） · 谢林点
策略	优势策略 · 纯策略 · 混合策略 · 以牙还牙 · 冷酷触发策略（英语：Grim trigger） · 策略复制论证（英语：Strategy-stealing argument） · 逆向归纳法（英语：Backward induction） · 前向归纳法（英语：Forward induction） · 马尔可夫策略（英语：Markov strategy）
博弈类型	对称博弈 · 完美信息 · 序贯博弈 · 重复博弈 · 信号博弈 · 廉价磋商（英语：Cheap talk） · 零和博弈 · 机制设计 · 随机博弈 · 非传递博弈 · 全局博弈（英语：Global game） · 甄别博弈（英语：screening game） · 讨价还价问题（英语：Bargaining problem） · 多人博弈（英语：n-player game） · 大型泊松博弈（英语：Large Poisson game） · 严格决定博弈 · 潜博弈（英语：Potential game） · 位势博弈
博弈模型	围棋 · 国际象棋 · 无限棋（英语：Infinite chess） · 西洋跳棋 · 井字棋 · 囚徒困境（可选择的囚徒博弈（英语：Optional prisoner's dilemma） · 用餐者困境） · 旅行者困境 · 猜均值的2/3 · 协调博弈（英语：Coordination game） · 蜈蚣博弈 · 志愿者困境 · 搭便车问题 · 拍卖美元 · 胆小鬼博弈 · 智猪博弈 · 性别战 · 猎鹿博弈 · 赌便士（英语：Matching pennies） · 最后通牒博弈（海盗博弈） · 剪刀、石头、布 · 独裁者博弈（信任游戏） · 公共财博弈（英语：Public goods game） · 纳什讨价还价问题（英语：Nash Bargaining Game） · 上校博弈 · 消耗战 · 少数派博弈（El Farol酒吧问题） · 公平分配博弈（切蛋糕问题（英语：Fair cake-cutting）） · 古诺竞争 · 死结 · 库恩扑克游戏（英语：Kuhn poker） · 甄别博弈（英语：Screening Game） · 公主与怪兽游戏（英语：Princess and monster game） · 约会问题（英语：Rendezvous problem） · 囚徒帽子谜题（英语：Prisoners and hats puzzle）
定理	极值定理 · 纯化定理（英语：Purification theorem） · 无名氏定理 · 显示定理（英语：Revelation principle） · 阿罗不可能定理 · 极小化极大算法 · 纳什均衡 · 策梅洛定理
关键人物（英语：List of game theorists）	阿尔伯特·W·塔克 · 阿摩司·特沃斯基 · 阿里埃勒·鲁宾斯坦 · 克劳德·香农 · 丹尼尔·卡内曼 · 戴维·K·莱文（英语：David K. Levine） · 戴维·M·克雷普斯（英语：David M. Kreps） · 唐纳德·B·吉利斯（英语：Donald B. Gillies） · 朱·弗登博格（英语：Drew Fudenberg） · 埃里克·马斯金 · 哈罗德·W·库恩（英语：Harold W. Kuhn） · 赫伯特·亚历山大·西蒙（司马贺） · 埃尔维·穆兰（英语：Hervé Moulin） · 让·梯若尔 · 让-弗朗索瓦·默滕斯（英语：Jean-François Mertens） · 珍妮弗·图尔·蔡司（英语：Jennifer Tour Chayes） · 夏仙义·亚诺什·卡罗伊 · 约翰·梅纳德·史密斯 · 安托万·奥古斯丁·库尔诺 · 约翰·福布斯·纳什 · 约翰·冯·诺伊曼 · 肯尼斯·阿罗 · 肯尼思·宾默尔 · 里奥尼德·赫维克兹 · 劳埃德·沙普利 · 梅尔文·德雷希尔（英语：Melvin Dresher） · 梅里尔·M·弗勒德 · 奥嘉·邦达雷娃（英语：Olga Bondareva） · 奥斯卡·莫根施特恩（英语：Oskar Morgenstern） · 保罗·米尔格龙 · 佩顿·杨（英语：Peyton Young） · 赖因哈德·泽尔腾 · 罗伯特·阿克塞尔罗 · 罗伯特·约翰·奥曼 · 罗伯特·B·威尔逊 · 罗杰·梅尔森 · 塞缪尔·鲍尔斯（英语：Samuel Bowles (economist)） · 苏珊娜·斯科奇姆 · 托马斯·克罗姆比·谢林 · 威廉·维克里
参见	全支付拍卖 · Alpha-beta剪枝 · 伯川德悖论（英语：Bertrand paradox (economics)） · 有限理性 · 组合博弈论 · 对抗分析（英语：Confrontation analysis） · 合作性竞争 · 棋局中的先手优势（英语：First-move advantage in chess） · 博弈机制（英语：Game mechanics） · 博弈论词汇表（英语：Glossary of game theory） · 博弈理论家列表（英语：List of game theorists） · 特殊博弈列表 · 双输 · 国际象棋的解局策略（英语：Solving chess） · 拓扑博弈（英语：Topological game） · 公地悲剧 · 小决定暴政