激情在线看片网站污污污,久久九九福利视频一区二区,欧美群交第三页在线观看

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

Llama-2上下文擴(kuò)展至128k，10倍吞吐量僅需1/6內(nèi)存

它僅用8k大小的token文檔進(jìn)行訓(xùn)練，就能將Llama-2窗口擴(kuò)展至128k。

泗洪網(wǎng)站制作公司哪家好，找成都創(chuàng)新互聯(lián)公司！從網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)公司等網(wǎng)站項(xiàng)目制作，到程序開發(fā)，運(yùn)營維護(hù)。成都創(chuàng)新互聯(lián)公司成立與2013年到現(xiàn)在10年的時(shí)間，我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn)，來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選成都創(chuàng)新互聯(lián)公司。

最重要的是，在這個(gè)過程中，只需要原來1/6的內(nèi)存，模型就獲得了10倍吞吐量。

除此之外，它還能大大降低訓(xùn)練成本：

用該方法對7B大小的羊駝2進(jìn)行改造，只需要一塊A100就能搞定。

團(tuán)隊(duì)表示：

希望這個(gè)方法有用、好用，為未來的LLM們提供廉價(jià)又有效的長上下文能力。

目前，模型和代碼都已在HuggingFace和GitHub上發(fā)布。

只需添加兩個(gè)組件

這個(gè)方法名叫CEPE，全稱“并行編碼上下文擴(kuò)展（Context Expansion with Parallel Encoding）”。

作為輕量級框架，它可用于擴(kuò)展任何預(yù)訓(xùn)練和指令微調(diào)模型的上下文窗口。

對于任何預(yù)訓(xùn)練的僅解碼器語言模型，CEPE通過添加兩個(gè)小組件來實(shí)現(xiàn)擴(kuò)展：

一個(gè)是小型編碼器，用于對長上下文進(jìn)行塊編碼；

一個(gè)是交叉注意力模塊，插入到解碼器的每一層，用于關(guān)注編碼器表示。

完整架構(gòu)如下：

在這個(gè)示意圖中，編碼器模型并行編碼上下文的3個(gè)額外塊，并與最終隱藏表示進(jìn)行連接，然后作為解碼器交叉注意力層的輸入。

在此，交叉注意力層主要關(guān)注解碼器模型中自注意力層和前饋層之間的編碼器表示。

通過仔細(xì)選擇無需標(biāo)記的訓(xùn)練數(shù)據(jù)，CEPE就幫助模型具備了長上下文能力，并且也擅長文檔檢索。

作者介紹，這樣的CEPE主要包含3大優(yōu)勢：

（1）長度可泛化

因?yàn)樗皇芪恢镁幋a的約束，相反，它的上下文是分段編碼的，每一段都有自己的位置編碼。

（2）效率高
使用小型編碼器和并行編碼來處理上下文可以降低計(jì)算成本。

同時(shí)，由于交叉注意力僅關(guān)注編碼器最后一層的表示，而僅使用解碼器的語言模型則需要緩存每個(gè)層每個(gè)token的鍵-值對，所以對比起來，CEPE需要的內(nèi)存大大減少。
（3）降低訓(xùn)練成本

與完全微調(diào)方法不同，CEPE只調(diào)整編碼器和交叉注意力，同時(shí)保持大型解碼器模型凍結(jié)。

作者介紹，通過將7B解碼器擴(kuò)充為具有400M編碼器和交叉注意力層的模型（總計(jì)14億參數(shù)），用一塊80GB的A100 GPU就可以完成。

困惑度持續(xù)降低

團(tuán)隊(duì)將CEPE應(yīng)用于Llama-2，并在200億 token的RedPajama過濾版本上進(jìn)行訓(xùn)練（僅為Llama-2預(yù)訓(xùn)練預(yù)算的1%）。

首先，與Llama-2-32K和YARN-64K這兩種完全微調(diào)的模型相比，CEPE在所有數(shù)據(jù)集上都實(shí)現(xiàn)了更低或相當(dāng)?shù)?strong>困惑度，同時(shí)具有更低的內(nèi)存使用率和更高的吞吐量。

在將上下文提升到128k時(shí)（遠(yuǎn)超其8k訓(xùn)練長度），CEPE的困惑度更是持續(xù)保持降低，同時(shí)保持低內(nèi)存狀態(tài)。

相比之下，Llama-2-32K和YARN-64K不僅不能推廣到其訓(xùn)練長度之外，還伴隨著內(nèi)存成本顯著增加。

其次，檢索能力增強(qiáng)。

如下表所示：

通過使用檢索到的上下文，CEPE可以有效改善模型困惑度，性能優(yōu)于RePlug。

值得注意的是，即使讓段落k=50?（訓(xùn)練是60），CEPE仍會繼續(xù)改善困惑度。

這表明CEPE可以很好地轉(zhuǎn)移到檢索增強(qiáng)設(shè)置，而全上下文解碼器模型在這個(gè)能力上卻退化了。

第三，開放域問答能力顯著超越。

如下圖所示，CEPE在所有數(shù)據(jù)集和段落k參數(shù)上都大幅優(yōu)于其他模型，且不像別的模型那樣，k值越來越大之后性能明顯下降。

這也表明，CEPE對大量冗余或不相關(guān)的段落并不敏感。

所以總結(jié)一下就是，與大多數(shù)其他解決辦法相比，CEPE在上述所有任務(wù)上都能以低得多的內(nèi)存和計(jì)算成本勝出。

最后，作者在這些基礎(chǔ)上，提出了專門用于指令調(diào)優(yōu)模型的CEPE-Distilled?(CEPED)。

它僅使用未標(biāo)記的數(shù)據(jù)來擴(kuò)展模型的上下文窗口，通過輔助KL散度損失將原始指令調(diào)整模型的行為提煉為新架構(gòu)，由此無需管理昂貴的長上下文指令跟蹤數(shù)據(jù)。

最終，CEPED可以在保留指令理解能力的同時(shí)，擴(kuò)展Llama-2的上下文窗口，提高模型長文本性能。

團(tuán)隊(duì)介紹

CEPE一共3位作者。

一作為顏和光（Howard Yen），普林斯頓大學(xué)計(jì)算機(jī)科學(xué)專業(yè)碩士生在讀。

二作為高天宇，同校博士生在讀，清華本科畢業(yè)。

名稱欄目：Llama-2上下文擴(kuò)展至128k，10倍吞吐量僅需1/6內(nèi)存
轉(zhuǎn)載來于：http://www.dlmjj.cn/article/djsidcp.html

日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

新聞中心

只需添加兩個(gè)組件

困惑度持續(xù)降低

團(tuán)隊(duì)介紹

其他資訊