關聯規則學習
機器學習與資料探勘 |
---|
關聯規則學習(英語:Association rule learning)是一種在大型數據庫中發現變量之間的有趣性關係的方法。它的目的是利用一些有趣性的量度來識別數據庫中發現的強規則。[1] 基於強規則的概念,Rakesh Agrawal等人[2]引入了關聯規則以發現由超市的POS系統記錄的大批交易數據中產品之間的規律性。例如,從銷售數據中發現的規則 {洋蔥, 馬鈴薯}→{漢堡} 會表明如果顧客一起買洋蔥和馬鈴薯,他們也有可能買漢堡的肉。此類信息可以作為做出促銷定價或產品置入等營銷活動決定的根據。除了上面購物籃分析中的例子以外, 關聯規則如今還被用在許多應用領域中,包括網絡用法探勘、入侵檢測、連續生產及生物信息學中。與序列探勘相比,關聯規則學習通常不考慮在事務中、或事務間的項目的順序。
基本概念
TID | 網球拍 | 網球 | 運動鞋 | 羽毛球 |
---|---|---|---|---|
1 | 1 | 1 | 1 | 0 |
2 | 1 | 1 | 0 | 0 |
3 | 1 | 0 | 0 | 0 |
4 | 1 | 0 | 1 | 0 |
5 | 0 | 1 | 1 | 1 |
6 | 1 | 1 | 0 | 0 |
根據韓家煒等[3],關聯規則定義為:
假設 是項目的集合(項集)。給定一個交易數據庫 ,其中每個交易(Transaction) 是 的子集,即 ,每一個交易都與一個唯一的標識符TID(Transaction ID)對應。關聯規則是形如 的蘊涵式,其中 且 , 和 分別稱為關聯規則的先導(antecedent 或 left-hand-side, LHS)和後繼(consequent 或 right-hand-side, RHS)。關聯規則 在 中的支持度(support)是 中交易包含 的百分比,即概率 ;置信度(confidence)是包含 的交易中同時包含 的百分比,即條件概率 。如果同時滿足最小支持度閾值和最小置信度閾值,則認為關聯規則是有利或有用的。這些閾值由用戶或者專家設定。
用一個簡單的例子說明。表1是顧客購買記錄的數據庫D,包含6個交易。項集 {網球拍,網球,運動鞋,羽毛球}。考慮關聯規則:網球拍網球,交易1,2,3,4,6包含網球拍,交易1,2,6同時包含網球拍和網球,支持度,置信度。若給定最小支持度,最小置信度,關聯規則網球拍網球是有趣的,認為購買網球拍和購買網球之間存在強關聯。
分類
關聯規則有以下常見分類[3]:
根據關聯規則所處理的值的類型
- 如果考慮關聯規則中的數據項是否出現,則這種關聯規則是布爾關聯規則(Boolean association rules)。例如上面的例子。
- 如果關聯規則中的數據項是數量型的,這種關聯規則是數量關聯規則(quantitative association rules)。例如年齡("20-25")購買("網球拍"),年齡是一個數量型的數據項。在這種關聯規則中,一般將數量離散化(discretize)為區間。
根據關聯規則所涉及的數據維數
- 如果關聯規則各項只涉及一個維,則它是單維關聯規則(single-dimensional association rules),例如購買("網球拍")購買("網球")只涉及「購買」一個維度。
- 如果關聯規則涉及兩個或兩個以上維度,則它是多維關聯規則(multi-dimensional association rules),例如年齡("20-25")購買("網球拍")涉及「年齡」和「購買」兩個維度。
根據關聯規則所涉及的抽象層次
- 如果不涉及不同層次的數據項,得到的是單層關聯規則(single-level association rules)。
- 在不同抽象層次中挖掘出的關聯規則稱為廣義關聯規則(generalized association rules)。例如年齡("20-25")購買("HEAD網球拍")和年齡("20-25")購買("網球拍")是廣義關聯規則,因為"HEAD網球拍"和"網球拍"屬於不同的抽象層次。
算法
Apriori 演算法
Apriori演算法所使用的前置統計量包括:
- 最大規則物件數:規則中物件組所包含的最大物件數量;
- 最小支援:規則中物件或是物件組必須符合的最低案例數;
- 最小信心水準:計算規則所必須符合的最低信心水準門檻。
F-P算法
參考文獻
- ^ Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.
- ^ Agrawal, R.; Imieliński, T.; Swami, A. Mining association rules between sets of items in large databases. Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93. 1993: 207. ISBN 0897915925. doi:10.1145/170035.170072.
- ^ 3.0 3.1 J. Han, M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann: 2000