日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
解決數(shù)據(jù)科學(xué)項(xiàng)目的六個(gè)基本技巧

在本文中,你將學(xué)習(xí)一些技術(shù)技巧,這些技巧可以幫助你在處理不同的數(shù)據(jù)科學(xué)項(xiàng)目時(shí)提高工作效率并實(shí)現(xiàn)你的目標(biāo)。

1. 花時(shí)間在數(shù)據(jù)準(zhǔn)備上

數(shù)據(jù)準(zhǔn)備是清理原始數(shù)據(jù)并將其轉(zhuǎn)換為可用于分析和創(chuàng)建預(yù)測(cè)模型的有用特征的過(guò)程。這一步至關(guān)重要,可能很難完成。這將花費(fèi)你很多時(shí)間(數(shù)據(jù)科學(xué)項(xiàng)目的 60%)。

數(shù)據(jù)是從不同來(lái)源以不同格式收集的,這使你的數(shù)據(jù)科學(xué)項(xiàng)目與其他項(xiàng)目非常獨(dú)特,你可能需要應(yīng)用不同的技術(shù)來(lái)準(zhǔn)備數(shù)據(jù)。

記住,如果你的數(shù)據(jù)沒(méi)有準(zhǔn)備好,不要期望在你的模型中得到最好的結(jié)果。

以下是在數(shù)據(jù)準(zhǔn)備中可以執(zhí)行的活動(dòng)列表:


  • 探索性數(shù)據(jù)分析:分析和可視化你的數(shù)據(jù)。
  • 數(shù)據(jù)清理:識(shí)別和糾正數(shù)據(jù)中的錯(cuò)誤。例如缺失值
  • 特征選擇:識(shí)別與任務(wù)最相關(guān)的特征。
  • 數(shù)據(jù)轉(zhuǎn)換:改變特征/變量的規(guī)?;蚍植肌?/li>
  • 特征工程:從可用數(shù)據(jù)中推導(dǎo)出新變量。
  • 拆分?jǐn)?shù)據(jù):準(zhǔn)備你的訓(xùn)練和測(cè)試集,例如 75% 用于訓(xùn)練和 25% 用于測(cè)試

2.交叉驗(yàn)證訓(xùn)練

交叉驗(yàn)證是評(píng)估預(yù)測(cè)模型有效性的統(tǒng)計(jì)方法。這是一項(xiàng)非常有用的技術(shù),因?yàn)樗梢詭椭苊饽P椭械倪^(guò)擬合問(wèn)題。建議在數(shù)據(jù)科學(xué)項(xiàng)目的早期階段建立交叉驗(yàn)證技術(shù)。

???

你可以嘗試不同的交叉驗(yàn)證技術(shù),如下所述。非常推薦使用 K-fold交叉驗(yàn)證技術(shù)。


  • 留一 交叉驗(yàn)證
  • 留p 交叉驗(yàn)證
  • 堅(jiān)持交叉驗(yàn)證
  • 重復(fù)隨機(jī)抽樣驗(yàn)證
  • k-fold交叉驗(yàn)證
  • 分層 k-fold交叉驗(yàn)證
  • 時(shí)間序列交叉驗(yàn)證
  • 嵌套交叉驗(yàn)證

3.訓(xùn)練許多算法并運(yùn)行許多實(shí)驗(yàn)

除了使用不同的算法訓(xùn)練數(shù)據(jù)之外,沒(méi)有其他方法可以找到具有更高性能的最佳預(yù)測(cè)模型。你還需要運(yùn)行不同的實(shí)驗(yàn)(很多實(shí)驗(yàn))來(lái)找到能夠產(chǎn)生最佳性能的最佳超參數(shù)值。

建議嘗試多種算法以了解模型性能如何變化,然后選擇產(chǎn)生最佳結(jié)果的算法。

???

4. 調(diào)整你的超參數(shù)

超參數(shù)是一個(gè)參數(shù),其值用于控制算法的學(xué)習(xí)過(guò)程。超參數(shù)優(yōu)化或調(diào)整是為學(xué)習(xí)算法選擇一組最佳超參數(shù)的過(guò)程,以提供最佳結(jié)果/性能。

以下是推薦使用的技術(shù)列表:


  • 隨機(jī)搜索
  • 網(wǎng)格搜索
  • Scikit 優(yōu)化
  • 奧普?qǐng)D納
  • 超視距
  • Keras 調(diào)諧器

這是一個(gè)簡(jiǎn)單的示例,展示了如何使用隨機(jī)搜索來(lái)調(diào)整超參數(shù)。

from sklearn.linear_model import LogisticRegression from sklearn.model_selection import RandomizedSearchCV  # instatiate logistic regression logistic = LogisticRegression()  # define search space distribution = dict(C=uniform(loc=0, scale=4), penalty = ['l1','l2'])  # define search clf = RandomizedSearchCV(logistic, distributions, random_state=0)  # execute search search = clf.fit(X,y)  # print best parameters print(search.best_params_) 

{'C':2, '懲罰':'l1}

 5、利用云平臺(tái)

我們的本地機(jī)器無(wú)法處理大型數(shù)據(jù)集的訓(xùn)練來(lái)創(chuàng)建預(yù)測(cè)模型。該過(guò)程可能非常緩慢,你將無(wú)法運(yùn)行所需數(shù)量的實(shí)驗(yàn)。云平臺(tái)可以幫你解決這個(gè)問(wèn)題。

簡(jiǎn)單來(lái)說(shuō),云平臺(tái)是指通過(guò)互聯(lián)網(wǎng)提供不同服務(wù)和資源的操作系統(tǒng)。與本地機(jī)器相比,它們還具有強(qiáng)大的計(jì)算能力,可以幫助你使用大型數(shù)據(jù)集訓(xùn)練模型并在短時(shí)間內(nèi)運(yùn)行大量實(shí)驗(yàn)。

例如、谷歌云、Azure、AWS等,這些平臺(tái)中的大多數(shù)都帶有免費(fèi)試用版,你可以嘗試使用并選擇適合你的數(shù)據(jù)科學(xué)項(xiàng)目并可以提供專門服務(wù)的試用版。

6. 應(yīng)用集成方法

有時(shí)多個(gè)模型比一個(gè)更好,以獲得良好的性能。你可以通過(guò)應(yīng)用將多個(gè)基本模式組合到一個(gè)組模型中的集成方法來(lái)實(shí)現(xiàn)這一點(diǎn),從而比單獨(dú)使用每個(gè)模型表現(xiàn)得更好。

???

這是一個(gè)投票分類器算法的簡(jiǎn)單示例,該算法結(jié)合了多個(gè)算法來(lái)進(jìn)行預(yù)測(cè)。

# instantiate individual models  clf_1 = KNeighborsClassifier() clf_2 = LogisticRegression() clf_3 = DecisionTreeClassifier()   # Create voting classifier voting_ens = VotingClassifier(estimators=[('knn',clf_1), ('lr',clf_2),('dt',clf_3)], voting='hard')  # Fit and predict with the individual model and ensemble model. for clf in (clf_1,clf_2,clf_3, voting_ens): clf.fit(x_train,y_train) y_pred = clf.predict(X_test) print(clf.__class__.__name__, accuracy_score(y_test,y_pred)) 

???

結(jié)果表明 VotingClassfier 的性能優(yōu)于單個(gè)模型。

希望以上這些技術(shù)技巧對(duì)你的數(shù)據(jù)科學(xué)項(xiàng)目非常有用。掌握這些技術(shù)需要大量的實(shí)踐和實(shí)驗(yàn),然后才能實(shí)現(xiàn)數(shù)據(jù)科學(xué)項(xiàng)目的目標(biāo)并獲得最佳結(jié)果。

【譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為.com】


分享題目:解決數(shù)據(jù)科學(xué)項(xiàng)目的六個(gè)基本技巧
鏈接地址:http://www.dlmjj.cn/article/ccdehpo.html