日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
高達(dá)99.5%準(zhǔn)確率,火眼金睛的“鑒黃系統(tǒng)”背后技術(shù)大揭秘

悟空鑒黃系統(tǒng)在京東上線已一年多,在京東云上提供接口也有數(shù)月,同時(shí)服務(wù)于京東主圖、曬單圖及京東公有云網(wǎng)站的圖片審核,并向外部提供通用鑒黃功能。

創(chuàng)新新互聯(lián),憑借十年的成都網(wǎng)站建設(shè)、成都做網(wǎng)站經(jīng)驗(yàn),本著真心·誠心服務(wù)的企業(yè)理念服務(wù)于成都中小企業(yè)設(shè)計(jì)網(wǎng)站有上千案例。做網(wǎng)站建設(shè),選創(chuàng)新互聯(lián)。

其中通用鑒黃算法在大于 99.5% 準(zhǔn)確率下,可以節(jié)省 90% 以上的審核人工。主圖和曬單圖每日調(diào)用量超過千萬次,京東云相關(guān)每日調(diào)用量達(dá)到了數(shù)百萬次。

本篇將講解鑒黃問題的特點(diǎn)和難點(diǎn),并為大家揭秘悟空鑒黃系統(tǒng)背后的技術(shù)。

圖像分類和鑒黃任務(wù)

圖像分類是計(jì)算機(jī)視覺中的基礎(chǔ)任務(wù)之一,悟空鑒黃系統(tǒng)背后的算法解決的就是一個(gè)分類問題,判斷待審核的圖像中包含的物體/內(nèi)容屬于哪一類:

  • 色情:露點(diǎn),明顯性行為。
  • 性感:非色情,但是暴露,或是帶有性暗示的肢體挑逗畫面。
  • 其他:其他。

圖1:鑒黃算法流程示意

注:這里的“性感”和描述女神男神時(shí)的“性感”含義并不完全重合。

01鑒黃問題自身特有的難點(diǎn)

雖然看上去是個(gè)簡單的三分類問題,但是和常見的 MNIST/CIFAR/ImageNet 等分類任務(wù)不同,鑒黃問題有自身特有的難點(diǎn):

多標(biāo)簽數(shù)據(jù)

和 ImageNet 等單標(biāo)簽數(shù)據(jù)集不同,鑒黃模型面對的圖片沒有特定類型,畫面中包含的物體也沒有限制。

比如穿著暴露的人和全裸露點(diǎn)的人物同時(shí)出現(xiàn)在畫面內(nèi),輸出的最終結(jié)果不能是色情+性感,而是判定為色情圖片。也就是說是個(gè)帶優(yōu)先級的分類任務(wù):色情>性感>其他。

非符號化(Non-iconic)圖像

在 ImageNet/CIFAR 等數(shù)據(jù)集中,圖像內(nèi)容往往是比較明確的,比如下圖中第一行的狗和人物肖像,圖像信息明確,主題占比通常較大。而鑒黃任務(wù)中,面向的是真實(shí)場景中的圖像,包含大量的非符號化數(shù)據(jù),比如下圖中第二行的例子。

在這種圖像中,哪怕是畫面中不引人注意的位置上,很小的一部分畫面出現(xiàn)了色情信息,也需要被判別為色情圖片。

圖2:Iconic 和 Non-iconic 圖片示意

數(shù)據(jù)特殊性

鑒黃任務(wù)中,色情和性感圖片在像素空間占據(jù)的只是很小的區(qū)域,其他類別占據(jù)了絕大部分像素空間。而在模型中,我們則是期望模型學(xué)習(xí)到的特征主要是和色情和性感圖片相關(guān)的特征。

在用于分類的特征空間中,因?yàn)槠渌悇e圖片種類非常豐富,所以和色情/性感類別的分類邊界是難以捉摸的,另一方面色情/性感類別圖片因?yàn)槌3:芟嗨?,所以分類邊界的求解非常有難度。

針對鑒黃問題的特點(diǎn)和難點(diǎn),我們進(jìn)行了一系列技術(shù)上的嘗試和探索,下面為大家一一道來。

02卷積神經(jīng)網(wǎng)絡(luò)

在當(dāng)前,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)已經(jīng)成為幾乎所有圖像分類任務(wù)的標(biāo)配。

早在 1989 年,Yann LeCun 就發(fā)明了卷積神經(jīng)網(wǎng)絡(luò),并且被廣泛應(yīng)用于美國的很多銀行系統(tǒng)中,用來識別支票上的手寫數(shù)字。

2012 年,一個(gè)加強(qiáng)版的卷積神經(jīng)網(wǎng)絡(luò) AlexNet 在 ILSVRC 比賽中的圖像分類指標(biāo)超越了基于傳統(tǒng)算法近 10 個(gè)百分點(diǎn),自此卷積神經(jīng)網(wǎng)絡(luò)就逐漸成了識別相關(guān)的計(jì)算機(jī)視覺任務(wù)中的標(biāo)配。

圖3:AlexNet

2014 年,Network in Network 被提出,1x1 卷積和 Global Pooling 被廣泛應(yīng)用。

圖4:NIN

同年的 GoogLeNet 開始把“并聯(lián)”卷積路徑的方式發(fā)揚(yáng)光大,并在 ILSVRC 中拿下了分類指標(biāo)的冠軍。

圖5:GoogLeNet

2015 年,為了解決深度網(wǎng)絡(luò)隨著層數(shù)加深性能卻退化的問題,當(dāng)時(shí)還在 MSRA 的何愷明,提出了 Residual Block 并基于此和前人經(jīng)驗(yàn)推出了 ResNet 這個(gè)大殺器,在 ISLVRC 和 COCO 上橫掃了所有對手。

圖6:Residual Block

ResNet 雖然看上去更深了,直觀來理解其實(shí)是不同深度網(wǎng)絡(luò)的一個(gè) ensemble,Cornell 的 Serge Belongie 教授專門用一篇論文討論了這個(gè)問題。

圖7:Residual Block 的 Ensemble 解釋

沿著這個(gè)思路,清華、Cornell 和 FAIR 在 2016 年合作提出了 DenseNet,并獲得了 2017 年 CVPR 的最佳論文。

圖8:DenseNet

也有沿著 GoogLeNet 繼續(xù)把“并聯(lián)”卷積研究到極致的,同樣是發(fā)表在 CVPR2017 的 Xception。作者的觀點(diǎn)是,卷積核的維度和學(xué)習(xí)難度也直接相關(guān),讓卷積響應(yīng)圖之間去掉關(guān)聯(lián),既能學(xué)習(xí)到?jīng)]有相關(guān)性的特征,還能降低卷積核學(xué)習(xí)的難度。

圖9:Xeception Depthwise Convolutions

總之研究者們在優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)的道路上還在繼續(xù),不過從實(shí)用的角度看,越是復(fù)雜的網(wǎng)絡(luò),訓(xùn)練的難度也常常越高。

在鑒黃模型研發(fā)的長時(shí)間摸索中,我們發(fā)現(xiàn) ResNet 是在訓(xùn)練難度和模型性能上最平衡的一種結(jié)構(gòu)。所以目前悟空鑒黃算法是在 ResNet 基礎(chǔ)上進(jìn)行了優(yōu)化和改進(jìn)的一種結(jié)構(gòu)。

03遷移學(xué)習(xí)

萬事開頭難,盡管網(wǎng)絡(luò)上的十八禁資源到處都是,數(shù)據(jù)的積累卻常常不是一蹴而就。在悟空系統(tǒng)的起步階段,遷移學(xué)習(xí)是快速得到可用模型的法寶之一。

具體到鑒黃算法上,我們的方法是基于其他經(jīng)過大量數(shù)據(jù)訓(xùn)練過的卷積神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上,利用有限的數(shù)據(jù)進(jìn)行參數(shù)微調(diào)。

微調(diào)的思想是,在神經(jīng)網(wǎng)絡(luò)中,特征是分層一步步組合的。低層參數(shù)學(xué)習(xí)的一般是線條,紋理,顏色等信息,再高一些的層學(xué)習(xí)到簡單圖案,形狀等,最高層的參數(shù)學(xué)習(xí)到的是由底層特征組合成的語義信息。

圖10:CNN 特征的分層表達(dá)示意

所以在不同任務(wù)中,低層的特征往往是差不多的,那么只需要改變高層的參數(shù)就可以在不同任務(wù)間最大化共享信息,并達(dá)到很好的泛化。

直觀來理解,色情圖片的檢測中,背景畫面部分就是一般的圖片,色情內(nèi)容其實(shí)也是人,很多信息是和一般數(shù)據(jù)集,比如 ImageNet 數(shù)據(jù)共享的。

所以只需要學(xué)習(xí)到針對色情圖片的高層語義信息就可以用少量數(shù)據(jù)訓(xùn)練一個(gè)良好泛化的模型。

為了實(shí)現(xiàn)微調(diào),我們首先會找一個(gè)常見的基礎(chǔ)模型,比如 ImageNet 預(yù)訓(xùn)練好的各種流行網(wǎng)絡(luò)結(jié)構(gòu)。然后凍結(jié)低層參數(shù)的學(xué)習(xí)率,只讓模型高層和語義相關(guān)的參數(shù)在少量樣本上進(jìn)行學(xué)習(xí)。

那么,怎么知道哪些層需要凍結(jié),哪些層需要學(xué)習(xí)呢?我們探索過兩種基于可視化的辦法,一種是 2013 年 ILSVRC 分類冠軍 Matthew Zeiler 的 Deconvolution,通過從上至下的 Transposed Convolution 把響應(yīng)圖和特定圖片中的相應(yīng)區(qū)域關(guān)聯(lián)在一起,可以觀察響應(yīng)圖激活對應(yīng)的區(qū)域。

圖11:基于 Deconvolution 的卷積核可視化

不過這種方法實(shí)現(xiàn)較麻煩,而且需要對給定圖片進(jìn)行觀察,有時(shí)候難以幫助發(fā)現(xiàn)模型本身的特點(diǎn)。

另一種方法是直接在圖像空間上以最大化激活特定卷積核得到的響應(yīng)圖作為目標(biāo)(Activation Maximization),對輸入圖像進(jìn)行優(yōu)化,看最后得到的圖案,這種方法最早是 Bengio 組在 2009 年的一個(gè) Tech report:《Visualizing Higher-Layer Features of a Deep Network》,后來被用到了很多地方,包括可視化、對抗樣本生成和 DeepDream。

圖12:基于激活最大化的卷積層可視化

這個(gè)方法的優(yōu)點(diǎn)是簡單易操作,缺點(diǎn)是圖像常??床怀鍪鞘裁?,有時(shí)需要腦補(bǔ)。所以即使有了可視化手段的輔助,決定如何微調(diào)參數(shù)仍是個(gè)經(jīng)驗(yàn)活,如果機(jī)器資源足夠可以寫個(gè)腳本自動訓(xùn)練所有可能情況進(jìn)行暴力搜索。

除了基于圖像分類模型,VOC 和 COCO 等數(shù)據(jù)集訓(xùn)練出的檢測模型的網(wǎng)絡(luò)也是很好的微調(diào)基礎(chǔ)。

檢測和分類雖然是不同的任務(wù),但關(guān)系十分緊密,尤其是鑒黃應(yīng)用中,露點(diǎn)是決定是否色情的關(guān)鍵標(biāo)準(zhǔn)之一,而露出的“點(diǎn)”是個(gè)位置屬性很強(qiáng)的信息。

在悟空鑒黃研發(fā)的過程中,我們也基于遷移學(xué)習(xí)的思想,嘗試了很多分類和檢測結(jié)合的手段,對最終模型的效果也起到了很大的促進(jìn)。

04類別響應(yīng)圖可視化

當(dāng)一個(gè)模型訓(xùn)練好之后,為了提升指標(biāo),我們會探索一些模型本身的特性,然后做針對性的改進(jìn),可視化是這一步驟中最常見的手段之一。

上一部分中,已經(jīng)提到了激活最大化的方法,在訓(xùn)練好的模型中,這也是非常有效的一個(gè)手段。

舉個(gè)例子,對于 ImageNet 訓(xùn)練出的模型,如果我們對啞鈴進(jìn)行激活最大化的可視化,會看到下面的圖像:

圖13:ImageNet 預(yù)訓(xùn)練模型中啞鈴類別的最大激活圖像

除了啞鈴,還會出現(xiàn)手,而手并不是目標(biāo)的特征。在黃圖中,比如某類數(shù)據(jù)中露點(diǎn)的部位 A(例:大長腿)常常伴隨著一個(gè)其他特定圖案 B(例:露點(diǎn))出現(xiàn),就會發(fā)生類似的情況。

這樣的后果是一些沒有包含露點(diǎn)部位 A 的正常圖片,因?yàn)榘颂囟▓D案 B,就會有被誤判為色情圖片的傾向。通過可視化的手段,如果發(fā)現(xiàn)了這樣的情形,就可以在數(shù)據(jù)層面進(jìn)行改進(jìn),讓真正 A 的特征被學(xué)習(xí)到。

從直觀角度講,基于激活最大化的方法并不是很好,所以更常用的一個(gè)辦法是類別激活響應(yīng)圖(Class Activation Map,CAM)。

CAM 自從 NIN 中提出 1x1 卷積和 Global Pooling 就被很多人使用過,不過第一次比較明確的探討是在 MIT 的 Bolei Zhou 的論文《Learning Deep Features for Discriminative Localization》中。

圖14:類別激活響應(yīng)圖

這種方法的基本思想是把 Global Pooling 之后,特定類別的權(quán)重應(yīng)用在 pooling 之前的 feature channel上,然后按照像素加權(quán)求和,得到該類別激活在不同位置上的響應(yīng)。

這種方法非常直觀地告訴我們,當(dāng)前類別中圖像的哪些部分是主要的激活圖案。在分析模型的漏檢和誤檢樣本的時(shí)候,我們通過這種方法分析模型對圖像中人一眼就能識別的圖案是否敏感,決定改進(jìn)模型時(shí)更新數(shù)據(jù)的策略。

05Loss Function

一般來說,我們在進(jìn)行機(jī)器學(xué)習(xí)任務(wù)時(shí),使用的每一個(gè)算法都有一個(gè)目標(biāo)函數(shù),算法便是對這個(gè)目標(biāo)函數(shù)進(jìn)行優(yōu)化,特別是在分類或者回歸任務(wù)中,便是使用損失函數(shù)(Loss Function)作為其目標(biāo)函數(shù),又稱為代價(jià)函數(shù)(Cost Function)。

損失函數(shù)是用來評價(jià)模型的預(yù)測值 Y^=f(X) 與真實(shí)值 Y 的不一致程度,它是一個(gè)非負(fù)實(shí)值函數(shù)。通常使用 L(Y,f(x)) 來表示,損失函數(shù)越小,模型的性能就越好。

設(shè)總有 N 個(gè)樣本的樣本集為 (X,Y)=(xi,yi),yi,i∈[1,N] 為樣本i的真實(shí)值,yi^=f(xi),i∈[1,N] 為樣本 i 的預(yù)測值,f 為分類或者回歸函數(shù)。那么總的損失函數(shù)為:

選擇一個(gè)合適的損失函數(shù),是成功訓(xùn)練一個(gè)深度學(xué)習(xí)模型的關(guān)鍵,也是機(jī)器學(xué)習(xí)從業(yè)者研究和專注改進(jìn)的目標(biāo)。

各種各樣的損失函數(shù)層出不窮,其中包括:適用于訓(xùn)練回歸任務(wù)的歐式距離損失函數(shù)(Euclidean Loss),適用于 Siamese 網(wǎng)絡(luò)的對比損失函數(shù)(Contrastive loss),適用于一對多分類任務(wù)的鉸鏈損失函數(shù)(Hinge Loss),預(yù)測目標(biāo)概率分布的 Sigmoid 交叉熵?fù)p失函數(shù)(Sigmoid Cross Entropy Loss),信息增益損失函數(shù)(InformationGain Loss),多項(xiàng)式邏輯損失函數(shù)(Multinomial Logistic Loss),Softmax損失函數(shù) (SoftmaxWithLoss) 等等。

TripletLoss 是一種基于歐式距離的損失函數(shù),自從 Google 提出后,在人臉識別等領(lǐng)域得到了廣泛應(yīng)用。

優(yōu)化 TripletLoss 時(shí),算法盡量減小正樣例對的歐氏距離,增大負(fù)樣例對的歐式距離。廣為人知的是,基于歐式距離的分類,對銳化圖像和模糊圖像缺少區(qū)分能力。

圖15:Triplet 訓(xùn)練示意

SoftmaxWithLoss 是深度學(xué)習(xí)分類任務(wù)中最常用的損失函數(shù),softmax 采用了連續(xù)函數(shù)來進(jìn)行函數(shù)的逼近,最后采用概率的形式進(jìn)行輸出,這樣弱化了歐氏距離損失函數(shù)帶來的問題。

對抗樣本及 GAN 在鑒黃算法中的應(yīng)用

在鑒黃算法的研發(fā)過程中,我們也做了一些在學(xué)術(shù)界前沿和熱門算法落地的嘗試,主要包括對抗訓(xùn)練和生成式對抗網(wǎng)絡(luò)。

01對抗樣本和對抗訓(xùn)練

對抗樣本是指專門針對模型產(chǎn)生的讓模型失敗的樣本。深度學(xué)習(xí)雖然在圖像分類任務(wù)上大幅超越了其他各種算法,但是作為一種非局部泛化的參數(shù)模型,卻是非常容易被攻擊的模型。

比如一幅圖,加上一個(gè)針對模型產(chǎn)生的攻擊“噪聲”之后,就會被以非常高的置信度分為錯(cuò)誤的類別。

圖16:攻擊樣本示意

對抗樣本實(shí)際上會對模型的分類邊界進(jìn)行改善,在悟空鑒黃算法的研發(fā)中,我們引入了對抗訓(xùn)練,來提高模型的泛化性。

02生成式對抗網(wǎng)絡(luò)(GAN)簡介

生成式對抗網(wǎng)絡(luò)是 2017 年視覺和機(jī)器學(xué)習(xí)領(lǐng)域的絕對熱點(diǎn)。生成式對抗網(wǎng)絡(luò)包含兩部分,一個(gè)是用于生成樣本的生成式模型 G,另一個(gè)是用于區(qū)分生成樣本和真實(shí)樣本的判別模型 D。

從思想上來說,生成模型的思路是讓一個(gè)簡單分布(比如多維高斯分布)經(jīng)過模型的變換生成一個(gè)較為復(fù)雜的分布,這個(gè)分布要盡量逼近目標(biāo)數(shù)據(jù)的分布,這樣就可以利用生成模型得到目標(biāo)數(shù)據(jù)的樣本了。

圖17:生成式模型示意

所以目標(biāo)是要讓兩個(gè)分布貼近,最基礎(chǔ)的想法就是學(xué)習(xí)參數(shù)讓樣本似然最大,比如 MLE;或者變換另一個(gè)思路,讓兩個(gè)分布的差異盡量小,GAN 就屬于這一類。

圖18:GAN 示意

GAN 中由 G 產(chǎn)生的樣本會盡量朝著數(shù)據(jù)所在的流形貼近,目標(biāo)是讓 D 分不出來,而 D 也會在每次訓(xùn)練中讓自身能力提升,盡量區(qū)分哪些樣本是真實(shí)的、哪些是 G 產(chǎn)生的,相當(dāng)于一個(gè)零和博弈,這就是對抗的由來。

理想情況下,最后 D 再也無法提升,G 學(xué)習(xí)到真實(shí)的數(shù)據(jù)分布,并且和輸入分布所在空間建立一種對應(yīng)。

03半監(jiān)督學(xué)習(xí)

具體到鑒黃算法中,GAN 的作用主要體現(xiàn)在通過改善數(shù)據(jù)的分類邊界,對少量類型數(shù)據(jù)的提升。

吳恩達(dá)提到過,深度學(xué)習(xí)中,算法是引擎,數(shù)據(jù)是燃料。雖然現(xiàn)在悟空鑒黃系統(tǒng)已經(jīng)達(dá)到千萬級海量數(shù)據(jù),但是數(shù)據(jù)總是越多越好,并且對于有些特定類型的數(shù)據(jù),數(shù)量未必高到可以單純訓(xùn)練就達(dá)到很好效果。這種情況下,半監(jiān)督學(xué)習(xí)是改善模型性能的一個(gè)選項(xiàng)。

2016 年,在鑒黃算法研發(fā)初期,我們就嘗試過用 GAN 學(xué)習(xí)特定類別的數(shù)據(jù),并生成數(shù)據(jù),作為偽色情和偽性感類別加入到模型當(dāng)中進(jìn)行更多類別的半監(jiān)督模型訓(xùn)練,使用的時(shí)候再拋棄偽類別。

定性來看,在數(shù)據(jù)很少的時(shí)候,每個(gè)類別之間的分類邊界會非常粗糙,傾向于“原理”數(shù)據(jù)所在的流形,而用 GAN 生成的數(shù)據(jù)中,和真實(shí)數(shù)據(jù)有一定的相似性(紋理,局部圖案),肉眼卻一眼就能分辨不同于真實(shí)數(shù)據(jù)(因?yàn)槟壳胺菞l件 GAN 只能生成一些簡單數(shù)據(jù)比如人臉、火山、星球等)。

這相當(dāng)于產(chǎn)生了一批更靠近真實(shí)數(shù)據(jù)的偽數(shù)據(jù),讓判別器學(xué)習(xí)真實(shí)數(shù)據(jù)和這種數(shù)據(jù)之間的分類邊界就可以讓邊界離真實(shí)數(shù)據(jù)靠的更近。數(shù)據(jù)量少的時(shí)候,這種方法能帶來非常大的泛化性能提高。

不過需要注意的是這種方法有個(gè)假設(shè):G 網(wǎng)絡(luò)不能生成很完美的圖像,否則 G 網(wǎng)絡(luò)就相當(dāng)于一個(gè)數(shù)據(jù)發(fā)生器,會導(dǎo)致分類網(wǎng)絡(luò)崩潰。后來和我們做法類似的方法開始出現(xiàn)在論文里,比如NVIDIA的《Semi-Supervised Learning with Generative Adversarial Networks》。

04數(shù)據(jù)的模擬和生成

在鑒黃算法的研發(fā)中,我們也嘗試了一些看上去比較超前的算法,比如 Image-to-Image Translation。

鑒黃問題中色情和性感類別因?yàn)橛泻芨叩南嗨菩允欠浅ky區(qū)分的,比如一個(gè)險(xiǎn)些露點(diǎn)的圖片就是性感類別,而一旦露點(diǎn)了,即使畫面其他部分幾乎一樣,也是色情類別。

為了針對這種情況提高準(zhǔn)確率,我們的思路如果能生成圖片對,一幅是色情一幅是性感,就可以針對這樣的圖片對進(jìn)行訓(xùn)練,達(dá)到對色情/性感類別更強(qiáng)的分類能力。

沿著這個(gè)思路,我們嘗試了 UC Berkeley 發(fā)表的 Pix2Pix:《Image-to-Image Translation with Conditional Adversarial Networks》和 Cycle-GAN:《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》。

利用 Pix2Pix,我們可以把帶馬賽克的圖片(標(biāo)注為性感)中的馬賽克去掉(標(biāo)注為色情)。Pix2Pix 其實(shí)就是一種單純的對圖像進(jìn)行變換的 CNN 結(jié)構(gòu),模型的訓(xùn)練上就是把圖片配好對,訓(xùn)練輸入圖片盡量生成和輸出差不多的圖片。

傳統(tǒng)的類似結(jié)構(gòu)中,都是用重建誤差來作為訓(xùn)練目標(biāo),不過基于重建誤差的目標(biāo)往往會導(dǎo)致重建的圖片非常模糊,而 GAN 中的 Adversarial loss 正好可以解決模糊問題,所以被廣泛應(yīng)用于需要生成豐富細(xì)節(jié)的圖像的應(yīng)用,Pix2Pix 是其中之一。

圖19:Pix2Pix

Pix2Pix 去除馬賽克的效果大致貼出來大家感受一下(左邊是馬賽克圖片,右邊是 Ground Truth,中間是模型生成圖片):

圖20:Pix2Pix 去除馬賽克效果展示

帶馬賽克的圖片算是比較小眾的一種圖像,在實(shí)際場景中未必會對模型有很大幫助,如果能有穿衣服-不穿衣服的圖像對,對泛化能力的提升應(yīng)該會更有意義,所以我們又嘗試了 Cycle-GAN。

Cycle-GAN 其實(shí)也只是用到了 Adversarial loss,和生成模型沒什么關(guān)系,主要的貢獻(xiàn)還是把對偶學(xué)習(xí)結(jié)合 Adversarial loss 用到了圖像翻譯上。

在 Cycle-GAN 中,每一次訓(xùn)練會把一個(gè) domain 中的圖像翻譯到另一個(gè) domain,然后在翻譯回來,并檢查一致性,同時(shí)每次被翻譯的圖像是否和該 domain 真實(shí)樣本可區(qū)分,通過 adversarial loss 實(shí)現(xiàn):

最后穿衣服的效果如下(左圖馬賽克為手動加上):

圖21:Cycle-GAN 穿衣服效果展示

因?yàn)樯蓤D片的成功率較低,最后并沒有應(yīng)用到實(shí)際的訓(xùn)練中。不過隨著整個(gè) AI 領(lǐng)域技術(shù)的不斷進(jìn)步,各種開腦洞的辦法會越來越多,我們也會持續(xù)探索和改進(jìn),讓我們的鑒黃算法更加準(zhǔn)確、高效和可靠,成為真正的“火眼金睛”。


文章標(biāo)題:高達(dá)99.5%準(zhǔn)確率,火眼金睛的“鑒黃系統(tǒng)”背后技術(shù)大揭秘
本文網(wǎng)址:http://www.dlmjj.cn/article/cohidpp.html