亚洲欧洲国产码专区在线观看,久草青青亚洲国产,亚洲第一福利网站

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

Python中有哪些關(guān)聯(lián)規(guī)則

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)碛嘘P(guān)Python中有哪些關(guān)聯(lián)規(guī)則，文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

目前成都創(chuàng)新互聯(lián)已為上千多家的企業(yè)提供了網(wǎng)站建設(shè)、域名、虛擬空間、網(wǎng)站托管、服務(wù)器托管、企業(yè)網(wǎng)站設(shè)計(jì)、東興網(wǎng)站維護(hù)等服務(wù)，公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略，正道將秉承"和諧、參與、激情"的文化，與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng)，共同發(fā)展。

1.1 基本概念

項(xiàng)集：item的集合，如集合{牛奶、麥片、糖}是一個(gè)3項(xiàng)集，可以認(rèn)為是購(gòu)買記錄里物品的集合。
頻繁項(xiàng)集：顧名思義就是頻繁出現(xiàn)的item項(xiàng)的集合。如何定義頻繁呢？用比例來判定，關(guān)聯(lián)規(guī)則中采用支持度和置信度兩個(gè)概念來計(jì)算比例值
支持度：共同出現(xiàn)的項(xiàng)在整體項(xiàng)中的比例。以購(gòu)買記錄為例子，購(gòu)買記錄100條，如果商品A和B同時(shí)出現(xiàn)50條購(gòu)買記錄（即同時(shí)購(gòu)買A和B的記錄有50），那邊A和B這個(gè)2項(xiàng)集的支持度為50%

Python中有哪些關(guān)聯(lián)規(guī)則

置信度：購(gòu)買A后再購(gòu)買B的條件概率，根據(jù)貝葉斯公式，可如下表示：

Python中有哪些關(guān)聯(lián)規(guī)則

提升度：為了判斷產(chǎn)生規(guī)則的實(shí)際價(jià)值，即使用規(guī)則后商品出現(xiàn)的次數(shù)是否高于商品單獨(dú)出現(xiàn)的評(píng)率，提升度和衡量購(gòu)買X對(duì)購(gòu)買Y的概率的提升作用。如下公式可見，如果X和Y相互獨(dú)立那么提升度為1，提升度越大，說明X->Y的關(guān)聯(lián)性越強(qiáng)

Python中有哪些關(guān)聯(lián)規(guī)則

1.2 關(guān)聯(lián)規(guī)則Apriori算法

關(guān)聯(lián)規(guī)則方法的步驟如下：

發(fā)現(xiàn)頻繁項(xiàng)集
找出關(guān)聯(lián)規(guī)則

Apriori算法是經(jīng)典的關(guān)聯(lián)規(guī)則算法。Apriori算法的目標(biāo)是找到最大的K項(xiàng)頻繁集。Apriori算法從尋找1項(xiàng)集開始，通過最小支持度閾值進(jìn)行剪枝，依次尋找2項(xiàng)集，3項(xiàng)集直到?jīng)]有更過項(xiàng)集為止。

下面是一個(gè)案例圖解：

Python中有哪些關(guān)聯(lián)規(guī)則

圖中有4個(gè)記錄，記錄項(xiàng)有1，2，3，4，5若干
首先先找出1項(xiàng)集對(duì)應(yīng)的支持度（C1），可以看出4的支持度低于最小支持閾值，先剪掉（L1）。
從1項(xiàng)集生成2項(xiàng)集，并計(jì)算支持度（C2），可以看出（1，5）（1，2）支持度低于最小支持閾值，先剪掉（L2）
從2項(xiàng)集生成3項(xiàng)集，（1，2，3）（1，2，5）（2，3，5）只有（2，3，5）滿足要求
沒有更多的項(xiàng)集了，就定制迭代

2. mlxtend實(shí)戰(zhàn)關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則目前在scikit-learn中并沒有實(shí)現(xiàn)。這里介紹另一個(gè)python庫(kù)mlxtend。

2.1 安裝

pip install mlxtend

2.2 簡(jiǎn)單的例子

來看下數(shù)據(jù)集：

import pandas as pd   item_list = [['牛奶','面包'],       ['面包','尿布','啤酒','土豆'],       ['牛奶','尿布','啤酒','可樂'],       ['面包','牛奶','尿布','啤酒'],       ['面包','牛奶','尿布','可樂']]   item_df = pd.DataFrame(item_list)

數(shù)據(jù)格式處理，傳入模型的數(shù)據(jù)需要滿足bool值的格式

from mlxtend.preprocessing import TransactionEncode   te = TransactionEncoder()   df_tf = te.fit_transform(item_list)   df = pd.DataFrame(df_tf,columns=te.columns_)

Python中有哪些關(guān)聯(lián)規(guī)則

計(jì)算頻繁項(xiàng)集

from mlxtend.frequent_patterns import apriori  # use_colnames=True表示使用元素名字，默認(rèn)的False使用列名代表元素, 設(shè)置最小支持度min_support  frequent_itemsets = apriori(df, min_support=0.05, use_colnames=True)  frequent_itemsets.sort_values(by='support', ascending=False, inplace=True)  # 選擇2頻繁項(xiàng)集  print(frequent_itemsets[frequent_itemsets.itemsets.apply(lambda x: len(x)) == 2])

Python中有哪些關(guān)聯(lián)規(guī)則

計(jì)算關(guān)聯(lián)規(guī)則

from mlxtend.frequent_patterns import association_rules      # metric可以有很多的度量選項(xiàng)，返回的表列名都可以作為參數(shù)      association_rule = association_rules(frequent_itemsets,metric='confidence',min_threshold=0.9)      #關(guān)聯(lián)規(guī)則可以提升度排序      association_rule.sort_values(by='lift',ascending=False,inplace=True)       association_rule      # 規(guī)則是：antecedents->consequents

Python中有哪些關(guān)聯(lián)規(guī)則

選擇出來關(guān)聯(lián)規(guī)則之后，根據(jù)提升度排序后，可能最高提升度的規(guī)則是在我們常識(shí)范圍內(nèi)，那這個(gè)規(guī)則的價(jià)值就不高。所以我們要在產(chǎn)生的規(guī)則中根據(jù)業(yè)務(wù)特點(diǎn)進(jìn)行篩選，像開篇提到（啤酒->尿布）完全不同的品類之間的關(guān)聯(lián)。

上述就是小編為大家分享的Python中有哪些關(guān)聯(lián)規(guī)則了，如果剛好有類似的疑惑，不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

分享名稱：Python中有哪些關(guān)聯(lián)規(guī)則
本文URL：http://www.dlmjj.cn/article/jgiejh.html

日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

新聞中心

2. mlxtend實(shí)戰(zhàn)關(guān)聯(lián)規(guī)則

其他資訊