日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
NLP模型超越人類水平?你可能碰到了大忽悠

大數(shù)據(jù)文摘出品

創(chuàng)新互聯(lián)公司主營宣威網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營網(wǎng)站建設(shè)方案,App定制開發(fā),宣威h5微信平臺小程序開發(fā)搭建,宣威網(wǎng)站營銷推廣歡迎宣威等地區(qū)企業(yè)咨詢

來源:thegradient

編譯:張睿毅、武帥、錢天培

一個軍方訓(xùn)練的神經(jīng)網(wǎng)絡(luò)聲稱可以分類圖像中的坦克,但實際上,它只是學(xué)會了識別不同的亮度,因為一種類型的坦克僅出現(xiàn)在明亮的圖片中,而另一種類型僅出現(xiàn)在較暗的圖片中。

一個游戲AI在學(xué)會了在第一關(guān)的最后故意死去,而不是在更難的第二關(guān)的開局死去,因為這樣可以得到更高的分數(shù)。

AI通過某種讓人啼笑皆非的奇怪方式嘗試騙過人類,并達到自己的目的,這樣的案例之前文摘菌總結(jié)過一大批。

模型通過學(xué)習“錯誤”的信息來解決任務(wù)的問題已經(jīng)存在很長時間了,并被稱之為“聰明漢斯效應(yīng)(Clever Hans effect)”。

該效應(yīng)說的是,一匹名為漢斯的馬看似能完成一些簡單的智力任務(wù),但實際上只是依賴于人們給出的無意識線索。

“聰明漢斯效應(yīng)(Clever Hans effect)”在圖像檢測領(lǐng)域早已有之,但最近,在一篇最新論文中,來自臺灣國立成功大學(xué)的Niven和Kao指出,這一現(xiàn)象也正在NLP領(lǐng)域大受關(guān)注。脫去它的影響后,BERT也許沒有我們想得那么神奇。

先附上論文鏈接,再一起看看這個論證過程:https://www.aclweb.org/anthology/P19-1459/

Niven和Kao采用了一個論證理解數(shù)據(jù)集。隨機選擇的準確率為50%;之前表現(xiàn)最好的模型的準確率為71%;然后他們選擇了BERT,僅僅微調(diào)后,便達到了驚人的77%的準確率。

如此看來,BERT似乎確實名不虛傳。

但是,作者對這一看似很成功的“微調(diào)”產(chǎn)生了懷疑,并嘗試對此進行論證。

NLP迎來“聰明的漢斯”時刻

論證理解是一項相當困難的任務(wù),需要世界知識和常識推理。雖然BERT毫無疑問是目前為止最好的語言模型之一,其遷移學(xué)習正是“NLP的Imagenet時刻”,但鮮有證據(jù)表明,語言模型已經(jīng)習得高級自然語言理解這一技能。

給定一個論點和一個原因,我們需要找出使得該推理成立的論據(jù)。

舉個例子,假設(shè)論點是“谷歌不存在壟斷”,原因是“人們可以選擇不使用谷歌”。這一推理成立背后需要一個論據(jù),即“其他搜索引擎并沒有導(dǎo)向谷歌”。但是如果說“其他搜索引擎都導(dǎo)向了谷歌”,那么論點就不能成立了。

作者也對BERT模型進行了三項分析。

首先,他們在可能的答案(即論點)中計算了一元文法(unigrams)和二元文法(bigrams),并觀察到像not,is,or之類的單個一元文法相較于隨機概率而言,能夠更好地預(yù)測出正確的論點。這表明這些線索是有用的,并且也可能為模型所利用。

接著,為了檢查模型是否確實利用了這些線索,作者只給模型提供了部分輸入,這使得模型不可能推出正確答案。例如,如果沒有給出論點或原因,就不可能推斷出“其他搜索引擎沒有重定向到谷歌”或“其他搜索引擎全都重定向到了谷歌”這兩個論據(jù)哪一個是正確的。然而,模型并不理會這一不可能性,并以71%的準確率識別出了正確的論點。

在試驗完其他兩項類似的任務(wù)之后(僅論點和論據(jù);僅原因和論據(jù)),作者總結(jié)到,數(shù)據(jù)集中包含著統(tǒng)計線索,而BERT的良好表現(xiàn)完全歸功于對這些線索的利用。

為了說明這一點,在他們的第三個實驗中,作者構(gòu)建了一個數(shù)據(jù)集,其中的線索不再提供信息,發(fā)現(xiàn)BERT性能下降到隨機概率水平。

相信大多數(shù)人會同意,一個基于大量的如not,is,do之類的一元文法做出預(yù)測的模型是不可能真正理解論證的。

因而,作者聲明他們的SOTA結(jié)果毫無意義。

這讓人聯(lián)想到最近兩個臭名昭著的案例。一個是圖像分類器,聲稱能夠區(qū)分罪犯的面孔和守法公民的面孔,但實際上只是在檢測微笑;另一個是所謂的“性取向檢測器”,實則是在檢測眼鏡,胡須和眼影。

如果NLP跟隨計算機視覺的腳步,似乎也注定要重蹈它的覆轍。

回到論文中,作者指出,最近大量的工作顯示NLP數(shù)據(jù)集中的“聰明漢斯效應(yīng)”。

要明確的是,這也不是說像BERT這樣的大型模型或深度學(xué)習都是無用的。但是,對于深度學(xué)習模型在高級自然語言理解任務(wù)中表現(xiàn)出的近乎人類表現(xiàn)的報告,我們應(yīng)該持懷疑態(tài)度。

模型表現(xiàn)超好?別急著開心,試試能不能騙過它!

發(fā)現(xiàn)聰明漢斯效應(yīng)案例的論文越來越多,這為NLP研究提出了重要的新議題。最明顯的一個議題就是,如何預(yù)防這種影響。

當數(shù)據(jù)集中的模式與手頭任務(wù)的目標一致時,那么能夠識別、記住并概括這些模式的模型就是可取的。 如果不是的話,那模型就很可能在不理解任務(wù)的情況下依然表現(xiàn)良好。

為了防止聰明漢斯效應(yīng),我們需要更好的數(shù)據(jù)集,并且對模型進行嚴格的魯棒性分析。

提出一個模型、并對其進行改進可以讓你在開發(fā)過程中獲得即時的滿足感。此外,在公共數(shù)據(jù)集上的SOTA也可以確保論文被接收。

然而,創(chuàng)建數(shù)據(jù)集所獲得的的滿足感更加滯后且不確定。據(jù)說,ACL會議評審人員對提出獲取SOTA的新模型的論文的默認立場是“接受”,而引入新數(shù)據(jù)集的論文則很可能因為“本文只引入新數(shù)據(jù)集”而拒絕。他們認為,創(chuàng)建數(shù)據(jù)集的人沒有做真正的科學(xué)研究。

移除模型的一部分(ablation)并觀察其對性能的影響是驗證某部件是否有用的常用方法。 如果性能沒有下降,那么該部件就是無用的,應(yīng)該被消除。

這也應(yīng)該成為執(zhí)行數(shù)據(jù)集消除任務(wù)的常見做法,例如:

  • 僅提供不完整的輸入(如前文所述):這將驗證是否需要完整輸。如果不需要,則說明數(shù)據(jù)集包含著一些可以采取捷徑的線索。
  • 打亂輸入:這可以驗證單詞(或句子)順序的重要性。 如果分數(shù)沒有太大變化,那說明模型并沒有理解輸入的順序信息。
  • 分配隨機標簽:如果10%的實例被隨機重新標記,性能會下降多少呢?所有實例重新標記呢?如果分數(shù)沒有太大變化,那么模型可能沒有學(xué)到任何有趣的東西。
  • 隨機替換內(nèi)容詞:如果所有名詞短語或動詞短語都被隨機名詞短語和動詞替換,性能會下降多少?如果不多,則數(shù)據(jù)集可能提供了預(yù)料之外的非內(nèi)容提示,例如句子長度或功能詞的分布。

再舉個例子。如果在輸入中添加一個不相關(guān)的句子會導(dǎo)致問答模型給出不同的答案(見下圖),就說明該模型并不能真正理解問題。

除了創(chuàng)建更好的數(shù)據(jù)集外,模型的創(chuàng)建者也應(yīng)該有“建造它,破壞它”(Build It,Break It)的心態(tài)。模型不僅要在特定數(shù)據(jù)集上獲得高分,也要有足夠的魯棒性。

如果你的模型表現(xiàn)優(yōu)良,先別急著開心!嘗試改變你的輸入,看看你是否能能夠騙過你的模型。

如果你挖空心思也無法騙過你的模型,大概這時你才創(chuàng)造出了一個真正的好模型!

相關(guān)報道:

https://thegradient.pub/nlps-clever-hans-moment-has-arrived/?nsukey=zGUM%2BitIg2PGgczL9OmBgiXDHkdeWy4hJYQG33fkllynu9PqhCkmZecP%2Bjrltr7xEB14BaM3FGFlyRWfJj9geFWr9cIsH%2FXosh%2B1kWc8%2BYCti2mUogfGmD8YTXENuU9X2slPjqbQOkYURwZHDx%2FnRv68UyeFpeWbEu6YIyOjk2eonxejiqu8sWZT%2B8FWxdUSAEOqQ%2Bwr6iGpCV8y3AgrAA%3D%3D

【本文是專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】


本文名稱:NLP模型超越人類水平?你可能碰到了大忽悠
網(wǎng)站地址:http://www.dlmjj.cn/article/dhdgepj.html