分散式部分可觀察馬爾可夫決策過程

維基百科，自由的百科全書

此條目可參照英語維基百科相應條目來擴充。 (2022年4月25日)
若您熟悉來源語言和主題，請協助參考外語維基百科擴充條目。請勿直接提交機械翻譯，也不要翻譯不可靠、低品質內容。依版權協議，譯文需在編輯摘要註明來源，或於討論頁頂部標記{{Translated page}}標籤。

分散式部分可觀察馬爾可夫決策過程（英語：Decentralized partially observable Markov decision process，Dec-POMDP）^[1]^[2]是一種多智慧體協調決策模型。這是一種概率模型，對於現實生活中結果、傳感器和通信的不確定性具有很好的解決能力。

該模型是馬爾可夫決策過程和部分可觀察馬可夫決策過程的泛化，適用於分佈式多智慧體的情形。^[3]

定義

正式定義

Dec-POMDP是一個7元組，其中：

$S$ 是狀態的集合，
$A_{i}$ 是智慧體i的行動集合，其中 $A=\times _{i}A_{i}$ 是聯合行動的集合，
$T$ 是是狀態間條件轉移概率的集合， $T(s,a,s')=P(s'\mid s,a)$ ，
$R:S\times A\to \mathbb {R}$ 是回報函數，
$\Omega _{i}$ 是智慧體i的觀察集合，其中 $\Omega =\times _{i}\Omega _{i}$ 是聯合觀察的集合，
$O$ 是一組條件觀察概率， $O(s',a,o)=P(o\mid s',a)$
$\gamma \in [0,1]$ 是折現因子

參考文獻

^ Bernstein, Daniel S.; Givan, Robert; Immerman, Neil; Zilberstein, Shlomo. The Complexity of Decentralized Control of Markov Decision Processes. Math. Oper. Res. November 2002, 27 (4): 819–840. ISSN 0364-765X. S2CID 1195261. arXiv:1301.3836 . doi:10.1287/moor.27.4.819.297.
^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs | SpringerLink (PDF). SpringerBriefs in Intelligent Systems. 2016 [2022-04-24]. ISBN 978-3-319-28927-4. S2CID 3263887. doi:10.1007/978-3-319-28929-8. （原始內容存檔 (PDF)於2021-09-16）（英國英語）.
^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs. Springer. 2016-06-03 [2022-04-24]. ISBN 978-3-319-28929-8. （原始內容存檔於2022-04-24）（英語）.

取自 "https://zh.wikipedia.org/w/index.php?title=分散式部分可观察马尔可夫决策过程&oldid=73255279"

分類：

馬爾可夫過程

隱藏分類：