分散式部分可觀察馬爾可夫決策過程
此條目可參照英語維基百科相應條目來擴充。 (2022年4月25日) |
分散式部分可觀察馬爾可夫決策過程(英語:Decentralized partially observable Markov decision process,Dec-POMDP)[1][2]是一種多智慧體協調決策模型。這是一種概率模型,對於現實生活中結果、傳感器和通信的不確定性具有很好的解決能力。
該模型是馬爾可夫決策過程和部分可觀察馬可夫決策過程的泛化,適用於分佈式多智慧體的情形。[3]
定義
正式定義
Dec-POMDP是一個7元組,其中:
- 是狀態的集合,
- 是智慧體i的行動集合,其中是聯合行動的集合,
- 是是狀態間條件轉移概率的集合,,
- 是回報函數,
- 是智慧體i的觀察集合,其中是聯合觀察的集合,
- 是一組條件觀察概率,
- 是折現因子
參考文獻
- ^ Bernstein, Daniel S.; Givan, Robert; Immerman, Neil; Zilberstein, Shlomo. The Complexity of Decentralized Control of Markov Decision Processes. Math. Oper. Res. November 2002, 27 (4): 819–840. ISSN 0364-765X. S2CID 1195261. arXiv:1301.3836 . doi:10.1287/moor.27.4.819.297.
- ^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs | SpringerLink (PDF). SpringerBriefs in Intelligent Systems. 2016 [2022-04-24]. ISBN 978-3-319-28927-4. S2CID 3263887. doi:10.1007/978-3-319-28929-8. (原始內容存檔 (PDF)於2021-09-16) (英國英語).
- ^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs. Springer. 2016-06-03 [2022-04-24]. ISBN 978-3-319-28929-8. (原始內容存檔於2022-04-24) (英語).