拉奧-布萊克韋爾定理

在統計學中，拉奧-布萊克韋爾定理(Rao–Blackwell theorem)，有時稱為拉奧-布萊克韋爾定理-柯爾莫果洛夫定理，是一項結果，它描述了如何將任意粗糙的估計量轉化為通過均方誤差準則或任何一種類似準則優化的估計量。

定理指出，如果g(X)是某個參數θ的任何一種估計量，那麼在給定充分統計量T(X)的條件下，g(X)的條件期望通常比g(X)本身更好地估計了θ，而且從來不會更糟。有時，可以非常容易地構造一個非常粗糙的估計量g(X)，然後評估條件期望值，以獲得在各種意義上都是最優的估計量。其中，充分統計量的意義是其包含數據樣本中所有與待估計參數相關的信息，且不含任何冗餘信息。

這個定理是以卡利安普迪·拉達克里希納·拉奧和戴維·布萊克韋爾命名的。使用拉奧-布萊克韋爾定理來轉化一個估計量的過程可以被稱為拉奧-布萊克韋爾化。轉化後的估計量被稱為拉奧-布萊克韋爾估計量。 ^[1]^[2]^[3]

定義

一個估計量δ(X)是一個可觀測的隨機變量（即統計量），用於估計某些不可觀測的量。例如，我們可能無法觀測到X大學所有男學生的平均身高，但我們可以觀測40個學生的身高。這40個學生的平均身高——"樣本平均數"——可以用作估計不可觀測的"總體平均數"的估計量。
一個充分統計量T(X)是從數據X計算出來的一個統計量，用於估計某個參數θ，而除了這個統計量以外，從數據X中計算出來的其他統計量不會提供關於θ的任何額外信息。它被定義為一個可觀測的隨機變量，使得給定T(X)的條件概率分布不依賴於未觀測到的參數θ，例如整個數據樣本的平均值或標準差等。在最常被引用的例子中，「未觀測到的」量是指參數，這些參數根據已知的概率分布族來對數據進行參數化。

換句話說，對於參數θ，一個充分統計量T(X)是這樣一個統計量，使得給定T(X)的條件下，數據X的條件分布不依賴於參數θ。

一個未觀測量θ的拉奧-布萊克韋爾估計量δ₁(X)是給定充分統計量T(X)的條件下，某個估計量δ(X)的條件期望值E(δ(X)|T(X))。我們把δ(X)稱為"原始估計量"，把δ₁(X)稱為"改進估計量"。改進估計量的重要性在於它是可觀測的，即它不依賴於θ。一般而言，給定這些數據中的一個函數的條件期望值，另一個函數的條件期望值會依賴於θ，但是上述充分統計量的定義說明了這個條件期望值不會依賴於θ。
不可觀測量θ的拉奧-布萊克韋爾估計量δ₁(X) 是給定充分統計量T(X)的某個估計量 δ(X)的條件期望值E(δ(X)|T(X))。將δ(X) 稱為「原始估計量」 ，將 δ₁(X)稱為「改進後的估計量」 。重要的是改進後的估計器是可觀察的，即它不依賴於θ。通常，在給定這些數據的另一個函數的情況下，這些數據的一個函數的條件期望值確實取決於θ，但上面給出的充分性的定義本身就意味着這個不成立。
一個估計量的均方誤差是它與待估計的參數θ的偏差的平方的期望值。

定理

均方誤差版本

拉奧-布萊克韋爾定理的一個特例可以表述為：

拉奧-布萊克韋爾估計量的均方誤差不超過原始估計量的均方誤差。

換句話說，

\operatorname {E} ((\delta _{1}(X)-\theta )^{2})\leq \operatorname {E} ((\delta (X)-\theta )^{2}).

除了上述定義，證明該定理所需的關鍵工具包括全期望公式和以下事實：對於任何隨機變量Y，E(Y²)不會小於[E(Y)]²。這個不等式是琴生不等式的一個特例，儘管它也可以立即從經常提到的事實得出

0\leq \operatorname {Var} (Y)=\operatorname {E} ((Y-\operatorname {E} (Y))^{2})=\operatorname {E} (Y^{2})-(\operatorname {E} (Y))^{2}.

更精確地說，拉奧-布萊克韋爾估計量的均方誤差有以下分解形式^[4]

\operatorname {E} [(\delta _{1}(X)-\theta )^{2}]=\operatorname {E} [(\delta (X)-\theta )^{2}]-\operatorname {E} [\operatorname {Var} (\delta (X)\mid T(X))]

由於 $\operatorname {E} [\operatorname {Var} (\delta (X)\mid T(X))]\geq 0$ ，因此拉奧-布萊克韋爾定理可以立即得出。

凸損失泛化

拉奧-布萊克韋爾定理的更一般版本涉及到「期望損失」或風險函數：

\operatorname {E} (L(\delta _{1}(X)))\leq \operatorname {E} (L(\delta (X)))

其中「損失函數」L可以是任何凸函數。如果損失函數是二次可微的，例如均方誤差的情況，那麼我們可以得到更精確的不等式^[4]

\operatorname {E} (L(\delta (X)))-\operatorname {E} (L(\delta _{1}(X)))\geq {\frac {1}{2}}\operatorname {E} _{T}\left[\inf _{x}L''(x)\operatorname {Var} (\delta (X)\mid T)\right].

性質

改進估計量無偏當且僅當原始估計量無偏，這可以立即通過使用全期望公式得到。無論使用偏倚還是無偏估計量，該定理都成立。

改進後的估計量是無偏的當且僅當原始估計量是無偏的，這可以通過使用總期望定律立即看出。無論使用有偏估計量還是無偏估計量，該定理都成立。

這個定理看起來很弱，它僅僅表明拉奧-布萊克韋爾估計量不會比原始估計量更差。但在實踐中，改進通常是巨大的，因為使用充分統計量來改進估計量可以減少估計誤差，提高估計的準確性。^[5]

例子

電話呼叫以平均每分鐘λ個的泊松過程到達交換機板。這個速率是不可觀測的，但是我們可以觀測到在n個連續的一分鐘時間段內到達的電話數量X₁, ..., X_n。現在我們希望估計在下一個一分鐘時間段內沒有電話呼叫的概率e^−λ。

一個極其粗略的估計量可以用來估計所需概率：

\delta _{0}=\left\{{\begin{matrix}1&{\text{if}}\ X_{1}=0,\\0&{\text{otherwise,}}\end{matrix}}\right.

也就是說，如果在第一分鐘內沒有電話呼叫，則它會將此概率估計為1，否則估計值為0。儘管這個估計量的限制顯而易見，但是通過對其進行拉奧-布萊克韋爾化處理得到的結果是一個非常好的估計量。

總和

S_{n}=\sum _{i=1}^{n}X_{i}=X_{1}+\cdots +X_{n}

可以很容易地證明，這個求和式是λ的一個充分統計量，即數據X₁, ..., X_n的條件分布只通過這個求和式依賴於λ。因此，我們可以得到拉奧-布萊克韋爾估計量：

\delta _{1}=\operatorname {E} (\delta _{0}\mid S_{n}=s_{n}).

通過一些計算我們可以得出

{\begin{aligned}\delta _{1}&=\operatorname {E} \left(\mathbf {1} _{\{X_{1}=0\}}{\Bigg |}\sum _{i=1}^{n}X_{i}=s_{n}\right)\\&=P\left(X_{1}=0{\Bigg |}\sum _{i=1}^{n}X_{i}=s_{n}\right)\\&=P\left(X_{1}=0,\sum _{i=2}^{n}X_{i}=s_{n}\right)\times P\left(\sum _{i=1}^{n}X_{i}=s_{n}\right)^{-1}\\&=e^{-\lambda }{\frac {\left((n-1)\lambda \right)^{s_{n}}e^{-(n-1)\lambda }}{s_{n}!}}\times \left({\frac {(n\lambda )^{s_{n}}e^{-n\lambda }}{s_{n}!}}\right)^{-1}\\&={\frac {\left((n-1)\lambda \right)^{s_{n}}e^{-n\lambda }}{s_{n}!}}\times {\frac {s_{n}!}{(n\lambda )^{s_{n}}e^{-n\lambda }}}\\&=\left(1-{\frac {1}{n}}\right)^{s_{n}}\end{aligned}}

由於在前n分鐘內到達電話的平均數量為nλ，因此如果n很大，這個估計量有相當高的概率接近於

\left(1-{1 \over n}\right)^{n\lambda }\approx e^{-\lambda }.

因此，δ₁顯然是最後一個數量的一個大大改進的估計量。事實上，由於S_n是完全的而δ₀是無偏的，根據Lehmann–Scheffé定理（英語），δ₁是唯一的最小方差無偏估計量。

冪等性

拉奧-布萊克韋爾化是一個冪等操作。使用它來改進已經改進的估計器不會獲得進一步的改進，而只會返回相同的改進後的估計器作為輸出。

完全性和 Lehmann–Scheffé 最小方差

如果條件統計量既是完全的又是充分的，並且起始估計量是無偏的，則拉奧-布萊克韋爾估計量是唯一的「最佳無偏估計量」：參見Lehmann-Scheffé 定理。

Galili Meilijson 2016年提供了一個可改進的拉奧-布萊克韋爾改進的例子，當使用一個不完全的最小充分統計量時。假設 $X_{1},\ldots ,X_{n}$ 是從比例均勻分布 $X\sim U\left((1-k)\theta ,(1+k)\theta \right)$ 的隨機樣本，其中未知均值為 $E[X]=\theta$ ，已知設計參數 $k\in (0,1)$ 。在尋找 $\theta$ 的「最佳」可能無偏估計器時，自然而然地考慮 $X_{1}$ 作為初始（粗糙的）無偏估計器，然後嘗試改進它。由於 $X_{1}$ 不是由 $T=\left(X_{(1)},X_{(n)}\right)$ 確定的 $\theta$ 的最小充分統計量（其中 $X_{(1)}=\min(X_{i})$ 且 $X_{(n)}=\max(X_{i})$ ），因此可以使用拉奧-布萊克韋爾定理改進如下：

{\hat {\theta }}_{RB}=E_{\theta }\left[X_{1}|X_{(1)},X_{(n)}\right]={\frac {X_{(1)}+X_{(n)}}{2}}.

但是，可以證明以下無偏估計量具有較低的方差：

{\hat {\theta }}_{LV}={\frac {1}{2\left(k^{2}{\frac {n-1}{n+1}}+1\right)}}\left[(1-k){{X}_{(1)}}+(1+k){{X}_{(n)}}\right].

事實上，當使用以下估算量時，它甚至可以進一步改進：

{\hat {\theta }}_{BAYES}={\frac {n+1}{n}}\left[1-{\frac {{\frac {\left({\frac {{X}_{(1)}}{1-k}}\right)}{\left({\frac {{X}_{(n)}}{1+k}}\right)}}-1}{{{\left[{\frac {\left({\frac {{X}_{(1)}}{1-k}}\right)}{\left({\frac {{X}_{(n)}}{1+k}}\right)}}\right]}^{n+1}}-1}}\right]{\frac {X_{(n)}}{1+k}}

該模型是一個比例參數模型（英語），可以導出對於不變損失函數的最優不變估計量。 ^[6]

另見

巴蘇定理—完全充分和輔助統計的另一個結果

參考

^ Blackwell, D. Conditional expectation and unbiased sequential estimation. Annals of Mathematical Statistics. 1947, 18 (1): 105–110. MR 0019903. Zbl 0033.07603. doi:10.1214/aoms/1177730497 .
^ Kolmogorov, A. N. Unbiased estimates. Izvestiya Akad. Nauk SSSR. Ser. Mat. 1950, 14: 303–326. MR 0036479.
^ Rao, C. Radhakrishna. Information and accuracy attainable in the estimation of statistical parameters. Bulletin of the Calcutta Mathematical Society. 1945, 37 (3): 81–91.
^ ^4.0 ^4.1 J. G. Liao & A. Berg. Sharpening Jensen's Inequality. The American Statistician. 22 June 2018, 73 (3): 278–281. S2CID 88515366. arXiv:1707.08644 . doi:10.1080/00031305.2017.1419145.
^ Carpenter, Bob. Rao-Blackwellization and discrete parameters in Stan. Statistical Modeling, Causal Inference, and Social Science. January 20, 2020 [September 13, 2021]. （原始內容存檔於2023-03-07）. The Rao-Blackwell theorem states that the marginalization approach has variance less than or equal to the direct approach. In practice, this difference can be enormous.
^ Taraldsen, Gunnar. Micha Mandel (2020), "The Scaled Uniform Model Revisited," The American Statistician, 74:1, 98–100: Comment. The American Statistician. 2020, 74 (3): 315. ISSN 0003-1305. S2CID 219493070. doi:10.1080/00031305.2020.1769727.

外部連結

Nikulin, M.S., Rao–Blackwell–Kolmogorov theorem, Hazewinkel, Michiel (編), 数学百科全书, Springer, 2001, ISBN 978-1-55608-010-4

[LS1-1] Blackwell, D. Conditional expectation and unbiased sequential estimation. Annals of Mathematical Statistics. 1947, 18 (1): 105–110. MR 0019903. Zbl 0033.07603. doi:10.1214/aoms/1177730497 .

[LS2-2] Kolmogorov, A. N. Unbiased estimates. Izvestiya Akad. Nauk SSSR. Ser. Mat. 1950, 14: 303–326. MR 0036479.

[LS3-3] Rao, C. Radhakrishna. Information and accuracy attainable in the estimation of statistical parameters. Bulletin of the Calcutta Mathematical Society. 1945, 37 (3): 81–91.

[LiaoBerg2018-4] 4.0 ^4.1 J. G. Liao & A. Berg. Sharpening Jensen's Inequality. The American Statistician. 22 June 2018, 73 (3): 278–281. S2CID 88515366. arXiv:1707.08644 . doi:10.1080/00031305.2017.1419145.

[LS4-5] Carpenter, Bob. Rao-Blackwellization and discrete parameters in Stan. Statistical Modeling, Causal Inference, and Social Science. January 20, 2020 [September 13, 2021]. （原始內容存檔於2023-03-07）. The Rao-Blackwell theorem states that the marginalization approach has variance less than or equal to the direct approach. In practice, this difference can be enormous.

[6] Taraldsen, Gunnar. Micha Mandel (2020), "The Scaled Uniform Model Revisited," The American Statistician, 74:1, 98–100: Comment. The American Statistician. 2020, 74 (3): 315. ISSN 0003-1305. S2CID 219493070. doi:10.1080/00031305.2020.1769727.

[1]

[2]

[3]

[4]

[5]

[6]