日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產(chǎn)品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
主流大語言模型集體曝出訓練數(shù)據(jù)泄露漏洞

論文指出,當前絕大多數(shù)大語言模型的記憶(訓練數(shù)據(jù))可被恢復,無論該模型是否進行了所謂的“對齊”。黑客可以通過查詢模型來有效提取訓練數(shù)據(jù),甚至無需事先了解訓練數(shù)據(jù)集。

我們提供的服務有:網(wǎng)站制作、成都網(wǎng)站制作、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認證、烏蘭ssl等。為上千企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務,是有科學管理、有技術的烏蘭網(wǎng)站制作公司

研究者展示了如何從Pythia或GPT-Neo等開源語言模型、LLaMA或Falcon等主流半開放模型以及ChatGPT等封閉模型中提取數(shù)以GB計的訓練數(shù)據(jù)。

研究者指出,已有技術足以攻擊未對齊的模型,對于已經(jīng)對齊的ChatGPT,研究者開發(fā)了一種新的發(fā)散數(shù)據(jù)提取攻擊,該攻擊會導致大語言模型改變聊天機器人的內容生成方式,以比正常行為高150倍的速率瘋狂輸出訓練數(shù)據(jù)(下圖):

圖1:發(fā)散攻擊導致對齊后的chatGPT以150倍的速度輸出訓練數(shù)據(jù)

研究者表示:發(fā)散數(shù)據(jù)提取攻擊方法在實際攻擊中可恢復的訓練數(shù)據(jù)大大超出了事前的預期,同時也證明當前的大語言模型對齊技術并不能真正消除記憶。

研究者利用偏差攻擊提取訓練數(shù)據(jù)中的隱私信息

據(jù)研究者介紹,大型語言模型(LLMs)會從其訓練數(shù)據(jù)集中記憶樣本,可被攻擊者利用提取隱私信息(上圖)。先前的安全研究工作已經(jīng)對開源模型記憶的訓練數(shù)據(jù)總量進行了大規(guī)模研究,并且通過手動標注示記憶和非記憶樣本,開發(fā)并驗證了針對(相對)小型模型如GPT-2的訓練數(shù)據(jù)提取攻擊。

在最新發(fā)布的論文中,研究者將“成員推斷攻擊”(用于確定數(shù)據(jù)樣本是否訓練數(shù)據(jù))和數(shù)據(jù)提取攻擊兩種方法統(tǒng)一起來,對語言模型中的“可提取記憶”進行了大規(guī)模研究。

研究者開發(fā)了一種可擴展方法,通過與TB級數(shù)據(jù)集比對,檢測模型輸出的數(shù)萬億個token的記憶內容,并對流行的開源模型(例如Pythia,GPT-Neo)和半開源模型(例如LLaMA,F(xiàn)alcon)進行了分析。研究者發(fā)現(xiàn),無論開源還是閉源的大語言模型都無法避免新的數(shù)據(jù)提取攻擊,而且參數(shù)和Tokens規(guī)模更大、性能更強勁的模型更容易受到數(shù)據(jù)提取攻擊:

九個開源大語言模型測試結果

九個半開源(訓練算法和訓練數(shù)據(jù)不公開)大語言模型的測試結果

研究者發(fā)現(xiàn),“對齊模型”也不能避免新的數(shù)據(jù)提取攻擊。例如,gpt-3.5-turbo對常規(guī)數(shù)據(jù)提取攻擊免疫,看上去似乎成功“忘記了”訓練數(shù)據(jù)。研究者推測是因為ChatGPT已經(jīng)通過RLHF進行了對齊,目的是使其成為“安全高效”的,可推向市場(生產(chǎn)環(huán)境)的個人聊天助手。

但研究者開發(fā)了新的提示策略(僅適用于GPT3.5turbo),成功繞過了gpt-3.5-turbo的對齊技術,使其“偏離”預設的聊天機器人風格,表現(xiàn)得像一個基礎語言模型,以典型的web文本格式大量輸出文本。

為了檢查這些輸出的文本是否是此前從互聯(lián)網(wǎng)上采集的訓練數(shù)據(jù),研究者將幾個公開可用的大型網(wǎng)絡訓練數(shù)據(jù)集合并成一個9TB大小的數(shù)據(jù)集。通過與這個數(shù)據(jù)集匹配,研究者以200美元的查詢成本從ChatGPT對話中恢復了一萬多個訓練數(shù)據(jù)集樣本。研究者粗略估計,通過更多的查詢可以提取超過10倍的(訓練)數(shù)據(jù)。

研究者在論文中透露,在7月11日發(fā)現(xiàn)該漏洞后,通知了包括OPT、Falcon、Mistral和LLaMA等模型開發(fā)者,并在8月30日向OpenAI披露了其漏洞,并根據(jù)90天漏洞披露規(guī)則,于11月30日發(fā)布論文,希望能喚起業(yè)界對大語言模型數(shù)據(jù)安全和對齊挑戰(zhàn)的關注。

最后,研究者警告大語言模型應用開發(fā)者,滲透測試結果表明現(xiàn)有的大語言模型安全措施(模型對齊和內容記憶測試)難以發(fā)現(xiàn)大語言模型的隱私漏洞,更不用說那些隱藏在模型算法代碼中的“休眠漏洞”。如果沒有極端的安全措施,現(xiàn)階段不應訓練和部署涉及隱私和敏感信息的大模型應用(編者:例如醫(yī)療、法律、工程)。


網(wǎng)頁標題:主流大語言模型集體曝出訓練數(shù)據(jù)泄露漏洞
文章起源:http://www.dlmjj.cn/article/codihjh.html