本文定義了表徵兩個或者多個隨機變量概率分佈特點的術語。
條件概率(英語:conditional probability)就是事件B發生的條件下事件A發生的概率。條件概率表示為P(A|B),讀作「A在B發生的條件下發生的概率」。
聯合概率表示兩個事件共同發生的概率。A與B的聯合概率表示為或者或者。
邊緣概率是某個事件發生的概率。邊緣概率是這樣得到的:在聯合概率中,把最終結果中不需要的那些事件合併成其事件的全概率而消失(對離散隨機變量用求和得全概率,對連續隨機變量用積分得全概率)。這稱為邊緣化(marginalization)。A的邊緣概率表示為P(A),B的邊緣概率表示為P(B)。
需要注意的是,在這些定義中A與B之間不一定有因果或者時間序列關係。A可能會先於B發生,也可能相反,也可能二者同時發生。A可能會導致B的發生,也可能相反,也可能二者之間根本就沒有因果關係。
例如考慮一些可能是新的資訊的概率條件性可以通過貝氏定理實現。
定義
設 A 與 B 為樣本空間 Ω 中的兩個事件,其中 P(B)>0。那麼在事件 B 發生的條件下,事件 A 發生的條件概率為:
條件概率有時候也稱為:後驗概率。
統計獨立性
當且僅當兩個隨機事件A與B滿足
的時候,它們才是統計獨立的,這樣聯合概率可以表示為各自概率的簡單乘積。
同樣,對於兩個獨立事件A與B有
以及
- 。
換句話說,如果A與B是相互獨立的,那麼A在B這個前提下的條件概率就是A自身的概率;同樣,B在A的前提下的條件概率就是B自身的概率。
互斥性
當且僅當A與B滿足
且
- ,
的時候,A與B是互斥的。
因此,
- 。
換句話說,如果B已經發生,由於A不能和B在同一場合下發生,那麼A發生的概率為零;同樣,如果A已經發生,那麼B發生的概率為零。
其它
- 如果事件的概率,那麼在所有事件上所定義的函數就是概率測度。
- 如果,沒有定義。
- 條件概率可以用決策樹進行計算。
形式定義
考慮概率空間Ω(S, σ(S)),其中σ(S)是集S上的σ代數,Ω上對應於隨機變量X的概率測度(可以理解為概率分佈)為PX;又A∈σ(S),PX(A)≥0(這裏可以理解為事件A,A不是零測集)。則∀E∈σ(S),可以定義集函數PX|A如下:
PX|A(E)=PX(A∩E)/PX(A)。
易知PX|A也是Ω上的概率測度,此測度稱為X在A下的條件測度(條件概率分佈)。
獨立性:設A,B∈σ(S),稱A,B在概率測度P下為相互獨立的,若P(A∩E)=P(A)P(E)。
條件概率謬論
條件概率的謬論是假設P(A|B)大致等於P(B|A)。數學家John Allen Paulos在他的《數學盲》一書中指出醫生、律師以及其他受過很好教育的非統計學家經常會錯誤解讀陽性和陰性預測值。這種錯誤可以通過用實數而不是概率來描述數據的方法來避免。
P(A|B)與P(B|A)的關係如下所示:
- 。
下面是一個虛構但寫實的例子,P(A|B)與P(B|A)的差距可能令人驚訝,同時也相當明顯。
若想分辨某些個體是否有重大疾病,以便早期治療,我們可能會對一大群人進行檢驗。雖然其益處明顯可見,但同時,檢驗行為有一個地方引起爭議,就是有檢出假陽性的結果的可能:若有個未得疾病的人,卻在初檢時被誤檢為得病,他可能會感到苦惱煩悶,一直持續到更詳細的檢測顯示他並未得病為止。而且就算在告知他其實是健康的人後,也可能因此對他的人生有負面影響。
這個問題的重要性,最適合用條件概率的觀點來解釋。
假設人群中有1%的人罹患此疾病,而其他人是健康的。我們隨機選出任一個體,並將患病以disease、健康以well表示:
- ,。
假設檢驗動作實施在未患病的人身上時,有1%的概率其結果為假陽性(陽性以positive表示)。意即:
- ,而且。
最後,假設檢驗動作實施在患病的人身上時,有1%的概率其結果為假陰性(陰性以negative表示)。意即:
- 且。
現在,由計算可知:
是整群人中健康、且測定為陰性者的比率。
是整群人中得病、且測定為陽性者的比率。
是整群人中被測定為假陽性者的比率。
是整群人中被測定為假陰性者的比率。
進一步得出:
是整群人中被測出為陽性者的比率。
是某人被測出為陽性時,實際上真的得了病的概率。
這個例子裏面,我們很輕易可以看出P(positive|disease)=99%與P(disease|positive)=50%的差距:前者是你得了病,而被檢出為陽性的條件概率;後者是你被檢出為陽性,而你實際上真得了病的條件概率。由我們在本例中所選的數字,最終結果可能令人難以接受:被測定為陽性者,其中的半數實際上是假陽性。
參見