新聞中心
很多機器學(xué)習(xí)入門者對測試集和驗證集的概念有所混淆,甚至很多機器學(xué)習(xí)開發(fā)工程師常常都會混淆這兩個概念。因為當(dāng)我們采用驗證集的時候,測試集好像和驗證集實際上并沒有多大區(qū)別,所以本文從學(xué)界定義到實踐中的具體影響探討驗證集和測試集間的區(qū)別。

天津網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)!從網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、自適應(yīng)網(wǎng)站建設(shè)等網(wǎng)站項目制作,到程序開發(fā),運營維護。創(chuàng)新互聯(lián)公司2013年成立到現(xiàn)在10年的時間,我們擁有了豐富的建站經(jīng)驗和運維經(jīng)驗,來保證我們的工作的順利進行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)。
驗證數(shù)據(jù)集(validation dataset)是模型訓(xùn)練過程中留出的樣本集,它可以用于調(diào)整模型的超參數(shù)和評估模型的能力。但測試數(shù)據(jù)集(test dataset)不同,雖然同是模型訓(xùn)練過程中留出的樣本集,但它是用于評估最終模型的性能,幫助對比多個最終模型并做出選擇。在開發(fā)機器學(xué)習(xí)系統(tǒng)時,我們對驗證數(shù)據(jù)集及其與測試數(shù)據(jù)集的區(qū)別存在諸多混淆。本文將介紹訓(xùn)練數(shù)據(jù)集(train dataset)、測試數(shù)據(jù)集和驗證數(shù)據(jù)集的確切定義,以及如何在機器學(xué)習(xí)項目中使用這三種數(shù)據(jù)集。
通過閱讀本文,我們將了解:
- 機器學(xué)習(xí)領(lǐng)域的專家對訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集和驗證數(shù)據(jù)集的定義。
- 驗證數(shù)據(jù)集和測試數(shù)據(jù)集在實踐中的區(qū)別。
- 使用哪些過程能充分利用驗證數(shù)據(jù)集和測試數(shù)據(jù)集進行模型評估。
專家對驗證數(shù)據(jù)集的定義
本節(jié),我們將了解部分***教科書和參考文獻如何定義訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集和驗證數(shù)據(jù)集及其區(qū)別。
通常情況下,「驗證數(shù)據(jù)集」指模型訓(xùn)練過程中留出的樣本集,可與「測試數(shù)據(jù)集」這個術(shù)語互換。在訓(xùn)練數(shù)據(jù)集上對模型能力進行評估得到的結(jié)果存在偏差。因此,用留出的樣本對模型能力進行評估得出的結(jié)果偏差更小。我們通常稱之為使用訓(xùn)練集測試集劃分方法(train-test split approach)進行算法評估。
| 假如我們想評估在一系列觀察值上使用特定的數(shù)據(jù)學(xué)習(xí)方法后所產(chǎn)生的測試誤差,那么驗證集方法非常適合該任務(wù)。它包括將這些觀察值任意切分成兩部分:訓(xùn)練集和驗證集(又稱留出集,hold-out set)。模型在訓(xùn)練集上進行擬合,然后使用擬合后的模型對驗證集中保留的數(shù)據(jù)樣本進行預(yù)測。并定量地計算模型驗證誤差,通常我們使用 MSE 對錯誤率進行評估,評估生成的驗證集錯誤率即測試錯誤率。 ——Gareth James, et al., Page 176, An Introduction to Statistical Learning: with Applications in R, 2013. |
在 Kuhn 和 Johnson 的著作《應(yīng)用預(yù)測建模》(Applied Predictive Modeling)一書中,我們可以看到作者認(rèn)為「驗證數(shù)據(jù)集」和「測試數(shù)據(jù)集」這兩個詞語可以互換。他們在實例中明確指出,必須在留出的數(shù)據(jù)集上進行最終模型評估,無論評估目的是訓(xùn)練模型還是調(diào)整模型參數(shù)。
| 理想情況下,模型評估應(yīng)該在未用于模型構(gòu)建或微調(diào)的樣本上進行,這樣才能對模型效率進行無偏評估。因此如果我們有大量數(shù)據(jù)可用,則可以留出一部分樣本集用于最終模型的評估。訓(xùn)練數(shù)據(jù)集指構(gòu)建模型時使用的樣本集,而測試數(shù)據(jù)集或驗證數(shù)據(jù)集用于評估模型性能。 ——Max Kuhn and Kjell Johnson, Page 67, Applied Predictive Modeling, 2013 |
傳統(tǒng)情況下,對最終模型進行性能評估的數(shù)據(jù)叫作「測試集」。Russell 和 Norvig 在 AI 教科書《人工智能:一種現(xiàn)代方法》中再次強調(diào)了保持測試集完全獨立的重要性。他們認(rèn)為,以任何形式使用測試集中的信息都是一種「窺探」(peeking),因此他們建議封存測試集,直到模型調(diào)整全部完成再作為***的評估。
重要的是,Russel 和 Norvig 認(rèn)為用于模型擬合的訓(xùn)練數(shù)據(jù)集可以進一步劃分成訓(xùn)練集和驗證集。驗證集是訓(xùn)練數(shù)據(jù)集的子集,用于對模型能力進行初步評估。
該領(lǐng)域的其他教科書級的著作也佐證了此定義。Ripley 的著作《模式識別與神經(jīng)網(wǎng)絡(luò)》(Pattern Recognition and Neural Networks)中的術(shù)語表就是一個經(jīng)典實例。具體來說,訓(xùn)練集、驗證集和測試集的定義如下:
| 訓(xùn)練集:用來學(xué)習(xí)的樣本集,用于分類器參數(shù)的擬合。 驗證集:用來調(diào)整分類器超參數(shù)的樣本集,如在神經(jīng)網(wǎng)絡(luò)中選擇隱藏層神經(jīng)元的數(shù)量。 測試集:僅用于對已經(jīng)訓(xùn)練好的分類器進行性能評估的樣本集。 —Brian Ripley, page 354, Pattern Recognition and Neural Networks, 1996 |
這些是數(shù)據(jù)集推薦的定義和用法。重申 Ripley 的術(shù)語定義之后,讓我們來繼續(xù)討論「測試集」和「驗證集」在機器學(xué)習(xí)建模過程中的常見混淆。
| 機器學(xué)習(xí)相關(guān)文獻通常顛倒「驗證集」和「測試集」的意思。這是人工智能研究中最明顯的術(shù)語混淆。關(guān)鍵在于,神經(jīng)網(wǎng)絡(luò)的文獻對測試集的標(biāo)準(zhǔn)定義認(rèn)為測試集不應(yīng)用于選擇兩個或多個網(wǎng)絡(luò)較好的那個,因此測試集上的誤差才是泛化誤差的無偏評估(假設(shè)測試集和實際總體服從同一分布)。 —Subject: What are the population, sample, training set, design set, validation set, and test set? |
訓(xùn)練數(shù)據(jù)集、驗證數(shù)據(jù)集和測試數(shù)據(jù)集的定義
為了強調(diào)上文中專家的研究結(jié)果,本節(jié)為這三個術(shù)語提供明確的定義。
- 訓(xùn)練數(shù)據(jù)集:用于模型擬合的數(shù)據(jù)樣本。
- 驗證數(shù)據(jù)集:用于調(diào)整模型的超參數(shù),為擬合后的模型提供無偏評估。如果模型配置中已包括在驗證集上的調(diào)整,則該評估偏差會更大。
- 測試數(shù)據(jù)集:為擬合后的最終模型提供無偏評估。
我們可以通過下列偽代碼具體來看它們的定義:
- # split data
- data = ...
- train, validation, test = split(data)
- # tune model hyperparameters
- parameters = ...
- for params in parameters:
- model = fit(train)
- skill = evaluate(model, validation)
- # evaluate final model for comparison with other models
- model = fit(train)
- skill = evaluate(model, test)
以下是額外需要理解的內(nèi)容:
- 驗證數(shù)據(jù)集可能在其他形式的模型預(yù)準(zhǔn)備中發(fā)揮作用,如特征選擇。
- 最終模型可以在訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集上進行擬合。
只有驗證數(shù)據(jù)集遠(yuǎn)遠(yuǎn)不夠
在未知數(shù)據(jù)上對模型性能進行評估還有其他方式。一個常見的實例是使用 K-折交叉驗證(k-fold cross-validation)來調(diào)整模型超參數(shù),而不是使用單獨的驗證數(shù)據(jù)集。Kuhn 和 Johnson 在「Data Splitting Recommendations」一章中指出使用單獨的「測試集」(或驗證集)的局限性。
如前所述,k 折交叉驗證是一種足以取代單獨、獨立測試集的技術(shù):
- 測試集是對模型的單次評估,無法完全展現(xiàn)評估結(jié)果的不確定性。
- 將大的測試集劃分成測試集和驗證集會增加模型性能評估的偏差。
- 分割的測試集樣本規(guī)模太小。
- 模型可能需要每一個可能存在的數(shù)據(jù)點來確定模型值。
- 不同測試集生成的結(jié)果不同,這造成測試集具備極大的不確定性。
- 重采樣方法可對模型在未來樣本上的性能進行更合理的預(yù)測。
Max Kuhn 和 Kjell Johnson 等人還推薦了適用于小規(guī)模樣本的 10-折交叉驗證,其偏差低、性能評估變化小;他們還推薦適用于模型性能比較的自助法(bootstrap method),該方法性能評估變化小。對于規(guī)模稍大的樣本集,他們同樣推薦 10-折交叉驗證方法。
驗證數(shù)據(jù)集和測試數(shù)據(jù)集會淡化
很可能你再也不會在應(yīng)用機器學(xué)習(xí)中看到訓(xùn)練數(shù)據(jù)集、驗證數(shù)據(jù)集和測試數(shù)據(jù)集。
當(dāng)實踐者選擇在訓(xùn)練數(shù)據(jù)集中使用 k-折交叉驗證方法調(diào)整模型超參數(shù)時,「驗證集」的概念就已經(jīng)淡化了。
我們可以通過以下為代碼具體來看:
- # split data
- data = ...
- train, test = split(data)
- # tune model hyperparameters
- parameters = ...
- k = ...
- for params in parameters:
- skills = list()
- for i in k:
- fold_train, fold_val = cv_split(i, k, train)
- model = fit(fold_train, params)
- skill_estimate = evaluate(model, fold_val)
- skills.append(skill_estimate)
- skill = summarize(skills)
- # evaluate final model for comparison with other models
- model = fit(train)
- skill = evaluate(model, test)
結(jié)語
在本教程中,你會了解「驗證數(shù)據(jù)集」和「測試數(shù)據(jù)集」中的很多謬誤,以及在評估機器學(xué)習(xí)模型的能力時如何正確地區(qū)分這些術(shù)語。
具體來說:
- 過去的專家學(xué)者已經(jīng)對模型評估中「訓(xùn)練數(shù)據(jù)集」、「驗證數(shù)據(jù)集」和「測試數(shù)據(jù)集」給出了明確定義。
- 「驗證數(shù)據(jù)集」主要用于調(diào)整超參數(shù)和數(shù)據(jù)準(zhǔn)備時對模型進行評估,而「測試數(shù)據(jù)集」主要用于對比多個最終模型時的評估。
- 如果采用 k-折交叉驗證等重采樣方法,尤其當(dāng)重采樣方法已經(jīng)被嵌套在模型驗證中時,「驗證數(shù)據(jù)集」和「測試數(shù)據(jù)集」的概念可能會淡化。
原文:http://machinelearningmastery.com/difference-test-validation-datasets/
【本文是專欄機構(gòu)“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】
戳這里,看該作者更多好文
網(wǎng)站名稱:似乎沒區(qū)別,但你混淆過驗證集和測試集嗎?
標(biāo)題網(wǎng)址:http://www.dlmjj.cn/article/dpoegoc.html


咨詢
建站咨詢
