集中不等式 是数学 中的一类不等式,描述了一个随机变量 是否集中在某个取值附近。例如大数定律 说明了一系列独立 同分布 随机变量的平均值 在概率 上趋近于它们的数学期望 ,这表示随着变量数目增大,平均值会集中在数学期望附近[ 1] 。
马尔可夫不等式
马尔可夫不等式给出了一个实值随机变量取值大于等于某个特定数值的概率的上限。设X是一个随机变量,a>0为正实数,那么以下不等式成立[ 1] :
P
(
|
X
|
≥
a
)
≤
E
(
|
X
|
)
a
.
{\displaystyle \mathbb {P} (|X|\geq a)\leq {\frac {\mathbb {E} (|X|)}{a}}.}
这个不等式可以推广。对所有的单调严格递增的非零函数
Φ
{\displaystyle \Phi }
,都有类似的不等式[ 1] :
P
(
X
≥
a
)
=
P
(
Φ
(
X
)
≥
Φ
(
a
)
)
≤
E
(
Φ
(
X
)
)
Φ
(
a
)
.
{\displaystyle \mathbb {P} (X\geq a)=\mathbb {P} (\Phi (X)\geq \Phi (a))\leq {\frac {\mathbb {E} (\Phi (X))}{\Phi (a)}}.}
切比雪夫不等式
马尔可夫不等式给出了随机变量处于区间
[
a
,
∞
)
{\displaystyle [a,\infty )}
之概率的上限估计。切比雪夫不等式则给出了随机变量集中在距离其数学期望值距离不超过a的区间上之概率的上限估计。设X是一个随机变量,a>0为正实数,那么只要对随机变量
Y
=
(
X
−
E
X
)
2
{\displaystyle Y=(X-\mathbb {E} X)^{2}}
应用马尔可夫不等式就可以得到:
P
(
|
X
−
E
(
X
)
|
≥
a
)
≤
Var
(
X
)
a
2
,
{\displaystyle \mathbb {P} (|X-\mathbb {E} (X)|\geq a)\leq {\frac {\operatorname {Var} (X)}{a^{2}}},}
其中的
Var
(
X
)
{\displaystyle \operatorname {Var} (X)}
表示变量X的方差 ,也就是:
Var
(
X
)
=
E
[
(
X
−
E
(
X
)
)
2
]
.
{\displaystyle \operatorname {Var} (X)=\mathbb {E} [(X-\mathbb {E} (X))^{2}].}
霍夫丁不等式
霍夫丁不等式适用于有界的随机变量。设有两两独立的一系列随机变量
X
1
,
…
,
X
n
{\displaystyle X_{1},\dots ,X_{n}\!}
。假设对所有的
1
≤
i
≤
n
{\displaystyle 1\leq i\leq n}
,
X
i
{\displaystyle X_{i}}
都是几乎 有界的变量,即满足:
P
(
X
i
∈
[
a
i
,
b
i
]
)
=
1.
{\displaystyle \mathbb {P} (X_{i}\in [a_{i},b_{i}])=1.\!}
那么这n个随机变量的经验期望:
X
¯
=
X
1
+
⋯
+
X
n
n
{\displaystyle {\overline {X}}={\frac {X_{1}+\cdots +X_{n}}{n}}}
满足以下的不等式[ 1] [ 2] :
P
(
X
¯
−
E
[
X
¯
]
≥
t
)
≤
exp
(
−
2
t
2
n
2
∑
i
=
1
n
(
b
i
−
a
i
)
2
)
,
{\displaystyle \mathbb {P} ({\overline {X}}-\mathbb {E} [{\overline {X}}]\geq t)\leq \exp \left(-{\frac {2t^{2}n^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\!}
P
(
|
X
¯
−
E
[
X
¯
]
|
≥
t
)
≤
2
exp
(
−
2
t
2
n
2
∑
i
=
1
n
(
b
i
−
a
i
)
2
)
,
{\displaystyle \mathbb {P} (|{\overline {X}}-\mathbb {E} [{\overline {X}}]|\geq t)\leq 2\exp \left(-{\frac {2t^{2}n^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\!}
Efron–Stein不等式
Efron–Stein不等式给出了随机变量方差的一个上限估计。设有两两独立的随机变量
X
1
…
X
n
{\displaystyle X_{1}\dots X_{n}}
和
X
1
′
…
X
n
′
{\displaystyle X_{1}'\dots X_{n}'}
,并且对所有的
i
{\displaystyle i}
,
X
i
′
{\displaystyle X_{i}'}
与
X
i
{\displaystyle X_{i}}
有着相同的分布。那么令
X
=
(
X
1
,
…
,
X
n
)
,
X
(
i
)
=
(
X
1
,
…
,
X
i
−
1
,
X
i
′
,
X
i
+
1
,
…
,
X
n
)
{\displaystyle X=(X_{1},\dots ,X_{n}),X^{(i)}=(X_{1},\dots ,X_{i-1},X_{i}',X_{i+1},\dots ,X_{n})}
,则有
V
a
r
(
f
(
X
)
)
≤
1
2
∑
i
=
1
n
E
[
(
f
(
X
)
−
f
(
X
(
i
)
)
)
2
]
.
{\displaystyle \mathrm {Var} (f(X))\leq {\frac {1}{2}}\sum _{i=1}^{n}E[(f(X)-f(X^{(i)}))^{2}].}
[ 1]
参考来源
^ 1.0 1.1 1.2 1.3 1.4 Stéphane Boucheron, Gabor Lugosi, Olivier Bousquet. Concentration Inequalities (PDF) . Université de Paris-Sud, Laboratoire d'Informatique. [2012年9月7日] . (原始内容存档 (PDF) 于2020年9月28日). (英文)
^ Wassily Hoeffding, Probability inequalities for sums of bounded random variables, Journal of the American Statistical Association 58 (301): 13–30, March 1963. (JSTOR )(英文)