日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案
ChatGPT技術(shù)解構(gòu)
文章摘要: 使用有監(jiān)督學(xué)習(xí)方式,基于GPT3.5微調(diào)訓(xùn)練一個(gè)初始模型;訓(xùn)練數(shù)據(jù)約為2w~3w量級(jí)根據(jù)InstructGPT的訓(xùn)練數(shù)據(jù)量級(jí)估算,參照P33 Table6),由標(biāo)注師分別扮演用戶和聊天機(jī)器人,產(chǎn)生人工精標(biāo)的多輪對(duì)話數(shù)據(jù);值得注意的是,在人類(lèi)扮演聊天機(jī)器人時(shí),會(huì)得到機(jī)器生成的一些建議來(lái)幫助人類(lèi)撰寫(xiě)自己的回復(fù),以此提高撰寫(xiě)標(biāo)注效率。以上精標(biāo)的訓(xùn)練數(shù)據(jù)雖然數(shù)據(jù)量不大,但質(zhì)量和多樣性非常高,且來(lái)自真實(shí)世界數(shù)據(jù),這是很關(guān)鍵的一點(diǎn)。

ChatGPT的訓(xùn)練主要分為三個(gè)步驟,如圖所示:

創(chuàng)新互聯(lián)主要從事網(wǎng)站建設(shè)、成都網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)烏當(dāng),十余年網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專業(yè),歡迎來(lái)電咨詢建站服務(wù):18980820575

Step1:

使用有監(jiān)督學(xué)習(xí)方式,基于GPT3.5微調(diào)訓(xùn)練一個(gè)初始模型;訓(xùn)練數(shù)據(jù)約為2w~3w量級(jí)(根據(jù)InstructGPT的訓(xùn)練數(shù)據(jù)量級(jí)估算,參照https://arxiv.org/pdf/2203.02155.pdf?P33 Table6),由標(biāo)注師分別扮演用戶和聊天機(jī)器人,產(chǎn)生人工精標(biāo)的多輪對(duì)話數(shù)據(jù);值得注意的是,在人類(lèi)扮演聊天機(jī)器人時(shí),會(huì)得到機(jī)器生成的一些建議來(lái)幫助人類(lèi)撰寫(xiě)自己的回復(fù),以此提高撰寫(xiě)標(biāo)注效率。

以上精標(biāo)的訓(xùn)練數(shù)據(jù)雖然數(shù)據(jù)量不大,但質(zhì)量和多樣性非常高,且來(lái)自真實(shí)世界數(shù)據(jù),這是很關(guān)鍵的一點(diǎn)。經(jīng)過(guò)第一步,微調(diào)過(guò)的GPT3.5初步具備了理解人類(lèi)Prompt所包含意圖的能力,可以根據(jù)不同意圖給出高質(zhì)量的回答。

Step2:

收集相同上文下,根據(jù)回復(fù)質(zhì)量進(jìn)行排序的數(shù)據(jù):即隨機(jī)抽取一大批Prompt,使用第一階段微調(diào)模型,產(chǎn)生多個(gè)不同回答,之后標(biāo)注人員對(duì)結(jié)果排序,形成??組訓(xùn)練數(shù)據(jù)對(duì),使用pairwise loss來(lái)訓(xùn)練Reward Model,從而可以預(yù)測(cè)出標(biāo)注者更喜歡哪個(gè)輸出。這種比較學(xué)習(xí)可以給出相對(duì)精確的reward值。

這一步使得ChatGPT從命令驅(qū)動(dòng)轉(zhuǎn)向了意圖驅(qū)動(dòng)。訓(xùn)練數(shù)據(jù)不需過(guò)多,維持在萬(wàn)量級(jí)即可,因?yàn)樗恍枰F盡所有的問(wèn)題,只是要告訴模型人類(lèi)的喜好,強(qiáng)化模型意圖驅(qū)動(dòng)的能力。

Step3:

使用PPO來(lái)微調(diào)第一階段的模型。核心思想是隨機(jī)抽取新的Prompt,用第二階段的Reward Model給產(chǎn)生的回答打分,這個(gè)分?jǐn)?shù)即回答的整體reward;進(jìn)而將此reward回傳,由此產(chǎn)生的策略梯度可以更新PPO模型參數(shù);整個(gè)過(guò)程迭代數(shù)次直到模型收斂。

以上三個(gè)步合稱為文獻(xiàn)中提到的?RLHF(Reinforcement Learning from Human Feedback) 技術(shù)。

相關(guān)技術(shù)

InstructGPT

ChatGPT是InstructGPT的兄弟模型(sibling model),后者經(jīng)過(guò)訓(xùn)練以遵循Prompt中的指令,提供詳細(xì)的響應(yīng)。InstructGPT是OpenAI在今年3月在Training language models to follow instructions with human feedback中提出的模型,整體流程和以上的ChatGPT流程基本相同,除了在數(shù)據(jù)收集和基座模型(GPT3 vs GPT 3.5),以及第三步初始化PPO模型時(shí)略有不同。

在InstuctGPT的工作中,與ChatGPT類(lèi)似,給定Instruction,需要人工寫(xiě)回答。首先訓(xùn)練一個(gè)InstructGPT的早期版本,使用完全人工標(biāo)注的數(shù)據(jù),數(shù)據(jù)分為3類(lèi):Instruction+Answer,Instruction+多個(gè)examples和用戶在使用API過(guò)程中提出的需求。從第二類(lèi)數(shù)據(jù)的標(biāo)注,推測(cè)ChatGPT可能用檢索來(lái)提供多個(gè)In Context Learning的示例,供人工標(biāo)注。剩余步驟與以上ChatGPT相同。

尤其需要重視但往往容易被忽視的,即OpenAI對(duì)于數(shù)據(jù)質(zhì)量和數(shù)據(jù)泛化性的把控,這也是OpenAI的一大優(yōu)勢(shì):

1)尋找高質(zhì)量標(biāo)注者:尋找在識(shí)別和回應(yīng)敏感提示的能力篩選測(cè)試中,表現(xiàn)良好的labeler;

2)使用集外標(biāo)注者保證泛化性:即用未經(jīng)歷以上1)步驟的更廣大群體的標(biāo)注者對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行驗(yàn)證,保證訓(xùn)練數(shù)據(jù)與更廣泛群體的偏好一致。

在完成以上工作后,我們可以來(lái)看看InstuctGPT與GPT3的區(qū)別,通過(guò)下圖可以明顯看出:

GPT3的回答簡(jiǎn)短,回復(fù)過(guò)于通用毫無(wú)亮點(diǎn);而InstructGPT“侃侃而談”,解釋自由主義為何愚蠢,顯然模型學(xué)到了對(duì)于此類(lèi)問(wèn)題人們更想要的長(zhǎng)篇大論的回答。

GPT3只是個(gè)語(yǔ)言模型,它被用來(lái)預(yù)測(cè)下一個(gè)單詞,絲毫沒(méi)有考慮用戶想要的答案;當(dāng)使用代表用戶喜好的三類(lèi)人工標(biāo)注為微調(diào)數(shù)據(jù)后,1.3B參數(shù)的InstructGPT在多場(chǎng)景下的效果超越175B的GPT3:?

InstuctGPT的工作具有開(kāi)創(chuàng)性,它挖掘了GPT3學(xué)到的海量數(shù)據(jù)中的知識(shí)和能力,但這些僅通過(guò)快速的In-context的方式較難獲得;可以說(shuō),InstuctGPT找到了一種面向主觀任務(wù)來(lái)解鎖GPT3強(qiáng)大語(yǔ)言能力的方式。

PPO

PPO(Proximal Policy Optimization) 一種新型的Policy Gradient算法(Policy Gradient是一種強(qiáng)化學(xué)習(xí)算法,通過(guò)優(yōu)化智能體的行為策略來(lái)解決在環(huán)境中實(shí)現(xiàn)目標(biāo)的問(wèn)題)。我們只需了解普通的Policy Gradient算法對(duì)步長(zhǎng)十分敏感,但是又難以選擇合適的步長(zhǎng),在訓(xùn)練過(guò)程中新舊策略的的變化差異如果過(guò)大則不利于學(xué)習(xí)。

而PPO提出了新的目標(biāo)函數(shù)可以在多個(gè)訓(xùn)練步驟實(shí)現(xiàn)小批量的更新,解決了Policy Gradient算法中步長(zhǎng)難以確定的問(wèn)題。由于其實(shí)現(xiàn)簡(jiǎn)單、性能穩(wěn)定、能同時(shí)處理離散/連續(xù)動(dòng)作空間問(wèn)題、利于大規(guī)模訓(xùn)練等優(yōu)勢(shì),近年來(lái)收到廣泛的關(guān)注,同時(shí)也成為OpenAI默認(rèn)強(qiáng)化學(xué)習(xí)算法。

GPT與強(qiáng)化學(xué)習(xí)

再往前回溯,其實(shí)在2019年GPT2出世后,OpenAI就有嘗試結(jié)合GPT-2和強(qiáng)化學(xué)習(xí)。在NIPS2020的Learning to Summarize with Human Feedback中,OpenAI對(duì)于摘要生成任務(wù),利用了人類(lèi)反饋對(duì)強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練??梢詮倪@篇工作的整體流程圖中,看出三步走的核心思想: 收集反饋數(shù)據(jù) -> 訓(xùn)練獎(jiǎng)勵(lì)模型 -> PPO強(qiáng)化學(xué)習(xí)。

RLHF第一階段,針對(duì)多個(gè)候選摘要,人工排序(這里就體現(xiàn)出OpenAI的鈔能力,按標(biāo)注時(shí)間計(jì)費(fèi),標(biāo)注過(guò)快的會(huì)被開(kāi)除);第二階段,訓(xùn)練排序模型(依舊使用GPT模型);第三階段,利用PPO算法學(xué)習(xí)Policy(在摘要任務(wù)上微調(diào)過(guò)的GPT)。

文中模型可以產(chǎn)生比10倍大模型容量更好的摘要效果。但文中也同樣指出,模型的成功部分歸功于增大了Reward Model的規(guī)模,而這需要很大量級(jí)的計(jì)算資源,訓(xùn)練6.7B的強(qiáng)化學(xué)習(xí)模型需要320 GPU-days的成本。

另一篇2020年初的工作,是OpenAI的Fine-Tuning GPT-2 from Human Preferences。同樣首先利用預(yù)訓(xùn)練模型,訓(xùn)練Reward模型;進(jìn)而使用PPO策略進(jìn)行強(qiáng)化學(xué)習(xí),整體步驟初見(jiàn)ChatGPT的雛形。

而RLHF的思想,是在更早的2017年6月的OpenAI Deep Reinforcement Learning from Human Preferences提出,核心思想是利用人類(lèi)的反饋,判斷最接近視頻行為目標(biāo)的片段,通過(guò)訓(xùn)練來(lái)找到最能解釋人類(lèi)判斷的獎(jiǎng)勵(lì)函數(shù),然后使用RL來(lái)學(xué)習(xí)如何實(shí)現(xiàn)這個(gè)目標(biāo)。

可以說(shuō),ChatGPT是站在InstructGPT以及以上理論的肩膀上完成的一項(xiàng)出色的工作,它們將LLM (large language model) / PTM (pretrain language model) 與 RL (reinforcement learning) 出色結(jié)合,證明這個(gè)方向可行。

WebGPT和CICERO

WebGPT是2021年底OpenAI的工作,其核心思想是使用GPT3模型強(qiáng)大的生成能力,學(xué)習(xí)人類(lèi)使用搜索引擎的一系列行為,通過(guò)訓(xùn)練獎(jiǎng)勵(lì)模型來(lái)預(yù)測(cè)人類(lèi)的偏好,使WebGPT可以自己搜索網(wǎng)頁(yè)來(lái)回答開(kāi)放域的問(wèn)題,而產(chǎn)生的答案盡可能滿足人類(lèi)的喜好。

Cicero是Meta AI上個(gè)月發(fā)布的可以以人類(lèi)水平玩文字策略游戲的AI系統(tǒng), 其同樣可以與人類(lèi)互動(dòng),可以使用戰(zhàn)略推理和自然語(yǔ)言與人類(lèi)在游戲玩法中進(jìn)行互動(dòng)和競(jìng)爭(zhēng)。Cicero的核心是由一個(gè)對(duì)話引擎和一個(gè)戰(zhàn)略推理引擎共同驅(qū)動(dòng)的,而戰(zhàn)略推理引擎集中使用了RL,對(duì)話引擎與GPT3類(lèi)似。

應(yīng)用難點(diǎn)

對(duì)于ChatGPT的規(guī)模,目前沒(méi)有更多信息支撐,所以無(wú)法明確如此智能的ChatGPT是在何規(guī)模下達(dá)成的。 最早的175B的GPT-3代號(hào)是Davinci,其他大小的模型有不同的代號(hào)。然而自此之后的代號(hào)幾乎是一片迷霧,不僅沒(méi)有任何論文,官方的介紹性博客也沒(méi)有。OpenAI稱Davinci-text-002/003是GPT-3.5,而它們均為InstrucGPT類(lèi)型的模型,ChatGPT是基于其中一個(gè)微調(diào)模型得到,固由此推測(cè)ChatGPT可能是千億模型。

大家一般沒(méi)有機(jī)會(huì)接觸千億模型(Bloom之前沒(méi)有開(kāi)源的千億模型,GPT-3也是收費(fèi)的),不了解現(xiàn)在千億模型的能力邊界,對(duì)全量微調(diào)這個(gè)級(jí)別的模型也無(wú)從估計(jì)。ChatGPT的推斷成本是比較高的。根據(jù)GPT3.5(Davinci)的成本推測(cè):

1k tokens≈700 words為0.02美元,則換算后,一篇2k字的文章,直接調(diào)用需要0.4人民幣,若保守按照日活1w用戶,人均10篇文章計(jì)算,則每日調(diào)用成本為:10000x10x0.4=40000元。

和以前的模型比較,以BERT和T5為代表的早期Transformer和現(xiàn)在的大模型已不是一個(gè)量級(jí)。事實(shí)上11月28日OpenAI上新了text-davinci-003幾乎沒(méi)有引起國(guó)內(nèi)的任何討論,如果ChatGPT(11.30發(fā)布)不是免費(fèi)試用,或許也不會(huì)引起這么大的反響。

同一時(shí)期的工作還有Deepmind的Sparrow和Google的LaMDA,效果與ChatGPT應(yīng)該不相上下。同樣以上提到的WebGPT和Cicero也在國(guó)內(nèi)沒(méi)有太大的水花。這兩年LLM發(fā)展已經(jīng)到了這個(gè)層級(jí),或許因?yàn)槌杀净蛘吖こ袒y度的問(wèn)題,某種層面上在國(guó)內(nèi)被忽視了。而此次ChatGPT正好找到了好的“曝光點(diǎn)”,一炮而紅。

從OpenAI的成功可以看出,優(yōu)秀的數(shù)據(jù)是一種極大的優(yōu)勢(shì)——除去技術(shù)上的考量,OpenAI很少開(kāi)源數(shù)據(jù),顯然他們?cè)跀?shù)據(jù)上也下了大功夫,訓(xùn)練語(yǔ)料質(zhì)量和開(kāi)源的C4或The Pile不能同日而語(yǔ);對(duì)于我們目前核心使用的擴(kuò)增模型,Bloom作為千億模型有很多待挖掘的能力。Bloom的微調(diào)任務(wù)中缺乏生成式的對(duì)話和問(wèn)答,某些表現(xiàn)不如ChatGPT也在預(yù)料之中(實(shí)際上在Bloom的測(cè)試中,唯一與InstructGPT有重合的任務(wù),是Bloom表現(xiàn)更好)。但是對(duì)于很多任務(wù)來(lái)說(shuō),配合In-context Learning,這個(gè)差距會(huì)被進(jìn)一步縮小。

所以,我們應(yīng)該思考如何利用這些令人激動(dòng)的最新成果,而其中關(guān)鍵是如何找到適合我們?nèi)肟诘姆绞?。比如使用ChatGPT,按不同需求生成高質(zhì)量小樣本數(shù)據(jù),克服現(xiàn)有數(shù)據(jù)難獲得的瓶頸;進(jìn)而利用現(xiàn)有Bloom(GPT3模型)進(jìn)行數(shù)據(jù)擴(kuò)增。


網(wǎng)站題目:ChatGPT技術(shù)解構(gòu)
文章鏈接:http://www.dlmjj.cn/article/cdgdpij.html