日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢(xún)
選擇下列產(chǎn)品馬上在線(xiàn)溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案
5分鐘掌握Python關(guān)聯(lián)規(guī)則分析

 1. 關(guān)聯(lián)規(guī)則

大家可能聽(tīng)說(shuō)過(guò)用于宣傳數(shù)據(jù)挖掘的一個(gè)案例:啤酒和尿布;據(jù)說(shuō)是沃爾瑪超市在分析顧客的購(gòu)買(mǎi)記錄時(shí),發(fā)現(xiàn)許多客戶(hù)購(gòu)買(mǎi)啤酒的同時(shí)也會(huì)購(gòu)買(mǎi)嬰兒尿布,于是超市調(diào)整了啤酒和尿布的貨架擺放,讓這兩個(gè)品類(lèi)擺放在一起;結(jié)果這兩個(gè)品類(lèi)的銷(xiāo)量都有明顯的增長(zhǎng);分析原因是很多剛生小孩的男士在購(gòu)買(mǎi)的啤酒時(shí),會(huì)順手帶一些嬰幼兒用品。

創(chuàng)新互聯(lián)公司堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿(mǎn)足客戶(hù)于互聯(lián)網(wǎng)時(shí)代的大竹網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!

不論這個(gè)案例是否是真實(shí)的,案例中分析顧客購(gòu)買(mǎi)記錄的方式就是關(guān)聯(lián)規(guī)則分析法Association Rules。

關(guān)聯(lián)規(guī)則分析也被稱(chēng)為購(gòu)物籃分析,用于分析數(shù)據(jù)集各項(xiàng)之間的關(guān)聯(lián)關(guān)系。

1.1 基本概念

  •  項(xiàng)集:item的集合,如集合{牛奶、麥片、糖}是一個(gè)3項(xiàng)集,可以認(rèn)為是購(gòu)買(mǎi)記錄里物品的集合。
  •  頻繁項(xiàng)集:顧名思義就是頻繁出現(xiàn)的item項(xiàng)的集合。如何定義頻繁呢?用比例來(lái)判定,關(guān)聯(lián)規(guī)則中采用支持度和置信度兩個(gè)概念來(lái)計(jì)算比例值
  •  支持度:共同出現(xiàn)的項(xiàng)在整體項(xiàng)中的比例。以購(gòu)買(mǎi)記錄為例子,購(gòu)買(mǎi)記錄100條,如果商品A和B同時(shí)出現(xiàn)50條購(gòu)買(mǎi)記錄(即同時(shí)購(gòu)買(mǎi)A和B的記錄有50),那邊A和B這個(gè)2項(xiàng)集的支持度為50%   

  •  置信度:購(gòu)買(mǎi)A后再購(gòu)買(mǎi)B的條件概率,根據(jù)貝葉斯公式,可如下表示:  

  •  提升度:為了判斷產(chǎn)生規(guī)則的實(shí)際價(jià)值,即使用規(guī)則后商品出現(xiàn)的次數(shù)是否高于商品單獨(dú)出現(xiàn)的評(píng)率,提升度和衡量購(gòu)買(mǎi)X對(duì)購(gòu)買(mǎi)Y的概率的提升作用。如下公式可見(jiàn),如果X和Y相互獨(dú)立那么提升度為1,提升度越大,說(shuō)明X->Y的關(guān)聯(lián)性越強(qiáng)

1.2 關(guān)聯(lián)規(guī)則Apriori算法

關(guān)聯(lián)規(guī)則方法的步驟如下:

  •  發(fā)現(xiàn)頻繁項(xiàng)集
  •  找出關(guān)聯(lián)規(guī)則

Apriori算法是經(jīng)典的關(guān)聯(lián)規(guī)則算法。Apriori算法的目標(biāo)是找到最大的K項(xiàng)頻繁集。Apriori算法從尋找1項(xiàng)集開(kāi)始,通過(guò)最小支持度閾值進(jìn)行剪枝,依次尋找2項(xiàng)集,3項(xiàng)集直到?jīng)]有更過(guò)項(xiàng)集為止。

下面是一個(gè)案例圖解:

  •  圖中有4個(gè)記錄,記錄項(xiàng)有1,2,3,4,5若干
  •  首先先找出1項(xiàng)集對(duì)應(yīng)的支持度(C1),可以看出4的支持度低于最小支持閾值,先剪掉(L1)。
  •  從1項(xiàng)集生成2項(xiàng)集,并計(jì)算支持度(C2),可以看出(1,5)(1,2)支持度低于最小支持閾值,先剪掉(L2)
  •  從2項(xiàng)集生成3項(xiàng)集,(1,2,3)(1,2,5)(2,3,5)只有(2,3,5)滿(mǎn)足要求
  •  沒(méi)有更多的項(xiàng)集了,就定制迭代

2. mlxtend實(shí)戰(zhàn)關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則目前在scikit-learn中并沒(méi)有實(shí)現(xiàn)。這里介紹另一個(gè)python庫(kù)mlxtend。

2.1 安裝

 
 
 
 
  1. pip install mlxtend 

2.2 簡(jiǎn)單的例子

  •  來(lái)看下數(shù)據(jù)集: 
 
 
 
 
  1. import pandas as pd  
  2.  item_list = [['牛奶','面包'],  
  3.      ['面包','尿布','啤酒','土豆'],  
  4.      ['牛奶','尿布','啤酒','可樂(lè)'],  
  5.      ['面包','牛奶','尿布','啤酒'],  
  6.      ['面包','牛奶','尿布','可樂(lè)']]  
  7.  item_df = pd.DataFrame(item_list) 
  •  數(shù)據(jù)格式處理,傳入模型的數(shù)據(jù)需要滿(mǎn)足bool值的格式 
 
 
 
 
  1. from mlxtend.preprocessing import TransactionEncode  
  2.  te = TransactionEncoder()  
  3.  df_tf = te.fit_transform(item_list)  
  4.  df = pd.DataFrame(df_tf,columns=te.columns_)     

  • 計(jì)算頻繁項(xiàng)集

 

 
 
 
 
  1. from mlxtend.frequent_patterns import apriori  
  2. # use_colnames=True表示使用元素名字,默認(rèn)的False使用列名代表元素, 設(shè)置最小支持度min_support  
  3. frequent_itemsets = apriori(df, min_support=0.05, use_colnames=True)  
  4. frequent_itemsets.sort_values(by='support', ascending=False, inplace=True)  
  5. # 選擇2頻繁項(xiàng)集  
  6. print(frequent_itemsets[frequent_itemsets.itemsets.apply(lambda x: len(x)) == 2])   

  •  計(jì)算關(guān)聯(lián)規(guī)則   
 
 
 
 
  1. from mlxtend.frequent_patterns import association_rules  
  2.     # metric可以有很多的度量選項(xiàng),返回的表列名都可以作為參數(shù)  
  3.     association_rule = association_rules(frequent_itemsets,metric='confidence',min_threshold=0.9)  
  4.     #關(guān)聯(lián)規(guī)則可以提升度排序  
  5.     association_rule.sort_values(by='lift',ascending=False,inplace=True)   
  6.     association_rule  
  7.     # 規(guī)則是:antecedents->consequents  

選擇出來(lái)關(guān)聯(lián)規(guī)則之后,根據(jù)提升度排序后,可能最高提升度的規(guī)則是在我們常識(shí)范圍內(nèi),那這個(gè)規(guī)則的價(jià)值就不高。所以我們要在產(chǎn)生的規(guī)則中根據(jù)業(yè)務(wù)特點(diǎn)進(jìn)行篩選,像開(kāi)篇提到(啤酒->尿布)完全不同的品類(lèi)之間的關(guān)聯(lián)。

筆者最近用關(guān)聯(lián)規(guī)則分析用戶(hù)的體檢報(bào)告記錄,也得出了關(guān)于各個(gè)病癥的有意義的關(guān)聯(lián),如并發(fā)癥,不同病癥相互影響等。

3. 總結(jié)

本分介紹關(guān)聯(lián)規(guī)則的基本概念和經(jīng)典算法Apriori,以及python的實(shí)現(xiàn)庫(kù)mlxtend使用。

總結(jié)如下:

  •  關(guān)聯(lián)規(guī)則用于分析數(shù)據(jù)集各項(xiàng)之間的關(guān)聯(lián)關(guān)系,想一想啤酒和尿布的故事
  •  三個(gè)重要概念:支持度,置信度和提升度
  •  Apriori通過(guò)迭代先找1項(xiàng)集,用支持度過(guò)濾項(xiàng)集,逐步找出所有k項(xiàng)集
  •  用置信度或提升度來(lái)選擇滿(mǎn)足的要求的規(guī)則
  •  mlxtend對(duì)數(shù)據(jù)要求轉(zhuǎn)換成bool值才可用 

文章標(biāo)題:5分鐘掌握Python關(guān)聯(lián)規(guī)則分析
分享鏈接:http://www.dlmjj.cn/article/djciice.html