日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
AI自動(dòng)評(píng)審論文,CMU這個(gè)工具可行嗎?我們用它評(píng)審了下論文

  近年來(lái),各大學(xué)術(shù)頂會(huì)的論文投稿量暴增,這使得論文評(píng)審的工作量大大增加。那么,有沒(méi)有可能自動(dòng)生成論文的評(píng)審結(jié)果呢?最近,CMU 研究者對(duì)此展開(kāi)了探索,創(chuàng)建了一個(gè)自動(dòng)論文評(píng)審系統(tǒng),上傳 PDF 論文即可自動(dòng)生成評(píng)審結(jié)果,這或許會(huì)為論文評(píng)審帶來(lái)一些改變。

科學(xué)技術(shù)的快速發(fā)展伴隨著同行評(píng)審科學(xué)出版物的指數(shù)級(jí)增長(zhǎng)。與此同時(shí),論文的評(píng)審是一個(gè)耗時(shí)耗力的過(guò)程,必須由相應(yīng)領(lǐng)域的專家來(lái)完成。這樣一來(lái),為不斷增長(zhǎng)的論文提供高質(zhì)量的評(píng)審成為一大挑戰(zhàn)。那么,有沒(méi)有可能自動(dòng)生成論文評(píng)審呢?

在近日發(fā)表的一篇論文中,來(lái)自 CMU 的研究者創(chuàng)建了一個(gè)自動(dòng)生成論文評(píng)審結(jié)果的 Demo 網(wǎng)站 ReviewAdvisor ,只需要上傳 PDF 論文,即可自動(dòng)生成評(píng)審結(jié)果。

論文鏈接:https://arxiv.org/pdf/2102.00176.pdf

在論文中,研究者探討了使用 SOTA 自然語(yǔ)言處理(NLP)模型生成學(xué)術(shù)論文同行評(píng)審結(jié)果的可能性。其中,最困難的部分首先是如何定義「好的」評(píng)審結(jié)果,因此該研究先討論了評(píng)審結(jié)果的度量指標(biāo)。然后,就是數(shù)據(jù)問(wèn)題。研究者收集了機(jī)器學(xué)習(xí)領(lǐng)域的論文集合,使用每個(gè)評(píng)審涵蓋的不同方面(aspect)內(nèi)容對(duì)論文進(jìn)行注釋,并訓(xùn)練目標(biāo)摘要模型,以生成評(píng)審結(jié)果。

實(shí)驗(yàn)結(jié)果表明,與人類專家給出的評(píng)審結(jié)果相比,系統(tǒng)生成的評(píng)審?fù)婕暗秸撐牡母喾矫?。但是,生成的評(píng)審文本除了對(duì)論文核心理念的解釋之外,其他方面的解讀邏輯性都不強(qiáng),而關(guān)于核心理念的評(píng)審則大多是正確的。最后,研究者總結(jié)了構(gòu)建表現(xiàn)良好的論文評(píng)審生成系統(tǒng)面臨的八個(gè)挑戰(zhàn)以及可能的解決方案。

不過(guò),研究者發(fā)現(xiàn),人類專家評(píng)審和系統(tǒng)自動(dòng)評(píng)審都表現(xiàn)出了不同程度的偏見(jiàn),并且與人類專家評(píng)審相比,系統(tǒng)生成的評(píng)審結(jié)果具有更強(qiáng)的偏見(jiàn)性。

上面這段話來(lái)自該論文的第一部分「TL;QR」,有趣的是,這部分內(nèi)容正是由其開(kāi)發(fā)的系統(tǒng)生成的。

ReviewAdvisor 系統(tǒng)試用

試用該系統(tǒng)時(shí),用戶需要在瀏覽器中允許所有 Cookie,否則系統(tǒng)無(wú)法正常工作。研究者使用 sciparser 工具從 PDF 論文中提取信息,所以如果上傳的論文采用的是不熟悉的模板,則系統(tǒng)也可能不工作。目前 ReviewAdvisor 支持 ICML、Neurips、ICLR、ACL、EMNLP、AAAI 等計(jì)算機(jī)科學(xué)頂會(huì)或期刊的論文。

這個(gè)自動(dòng)論文評(píng)審系統(tǒng)效果究竟如何呢?機(jī)器之心嘗試上傳了該研究所用的示例論文《Attention Is All You Need》。

Abstract+CE (with aspect) 又可細(xì)分為摘要、清晰度、原創(chuàng)性、可靠性、Substance 和對(duì)比 6 個(gè)方面。

下圖展示了對(duì)示例論文《Attention is All You Need》原創(chuàng)性與魯棒性的評(píng)審意見(jiàn),其中關(guān)于原創(chuàng)性的評(píng)審意見(jiàn)為「使用自注意力的 idea 非常有趣且新穎」(下圖左黃色部分),關(guān)于可靠性的評(píng)審意見(jiàn)則是「該論文未解釋清楚 transformer 模型為什么優(yōu)于其他基準(zhǔn)模型」(下圖右綠色部分)。

看起來(lái),效果還不錯(cuò)。但是,機(jī)器之心在上傳其他論文時(shí),系統(tǒng)并未及時(shí)生成評(píng)審,或者上傳多次后才生成評(píng)審結(jié)果。研究者表示,由于系統(tǒng)采用的計(jì)算機(jī)服務(wù)器是二作 Pengfei Liu 自己建立的,所以會(huì)出現(xiàn)內(nèi)存不足的情況。這可能是無(wú)法及時(shí)生成論文評(píng)審結(jié)果的原因之一。

此外,研究者強(qiáng)調(diào),ReviewAdvisor 系統(tǒng)可能會(huì)生成不正確、不完整或者帶有偏見(jiàn)的評(píng)審結(jié)果,這些評(píng)審結(jié)果不能代替人類專家的評(píng)審結(jié)果。

優(yōu)秀同行評(píng)審有哪些標(biāo)準(zhǔn)?

該研究首先總結(jié)了評(píng)估同行評(píng)審結(jié)果的常用標(biāo)準(zhǔn):

  • 決斷性(Decisiveness):好的同行評(píng)審應(yīng)該立場(chǎng)明確,對(duì)是否接收論文提出明確建議;
  • 全面性(Comprehensiveness):好的同行評(píng)審應(yīng)該有條理,首先簡(jiǎn)要總結(jié)論文貢獻(xiàn),然后從不同方面評(píng)估論文質(zhì)量;
  • 正當(dāng)性(Justification):好的同行評(píng)審應(yīng)該有理有據(jù),尤其是在指出論文缺點(diǎn)時(shí)要明確理由;
  • 準(zhǔn)確性(Accuracy):好的同行評(píng)審應(yīng)該確保事實(shí)正確;
  • 友好(Kindness):好的同行評(píng)審應(yīng)該措辭禮貌善意。

數(shù)據(jù)集

該研究介紹了如何構(gòu)建具有更細(xì)粒度的元數(shù)據(jù)的評(píng)審數(shù)據(jù)集,該數(shù)據(jù)集 Aspect-enhanced Peer Review (ASAP-Review) 可用于系統(tǒng)訓(xùn)練和多角度的評(píng)審評(píng)估。

數(shù)據(jù)收集

研究者通過(guò) OpenReview 爬取了 2017-2020 年間的 ICLR 論文,通過(guò) NeurIPS 論文集爬取了 2016-2019 年間的 NeurIPS 論文。對(duì)于每篇論文,研究者都保留了盡可能多的元數(shù)據(jù)信息,包括如下:

  • 參考評(píng)審,由委員會(huì)成員撰寫;
  • 元評(píng)審,通常由領(lǐng)域主席(高級(jí)委員會(huì)成員)撰寫;
  • 論文接收結(jié)果,即論文最終被「接收」還是「拒稿」;
  • 其他信息,包括 url、標(biāo)題、作者等。

該研究使用 Allenai Science-parse 解析每篇論文的 pdf,并保留結(jié)構(gòu)化的文本信息(例如標(biāo)題、作者、章節(jié)內(nèi)容和參考文獻(xiàn))。下表 2 顯示了 ASAP-Review 數(shù)據(jù)集的基本統(tǒng)計(jì)信息:

Aspect-enhanced Review 數(shù)據(jù)集

盡管評(píng)審呈現(xiàn)出下圖 3 所示的內(nèi)部結(jié)構(gòu):評(píng)審?fù)ǔR哉_(kāi)始,然后分方面列出不同觀點(diǎn),并給出證據(jù)。實(shí)際上,這種有用的結(jié)構(gòu)化信息并不能直接獲取??紤]到評(píng)審中各方面的細(xì)粒度信息在評(píng)估中起著至關(guān)重要的作用,該研究對(duì)評(píng)審進(jìn)行了方面注釋(aspect annotation)。為此,該研究首先介紹方面類型(aspect typology),然后進(jìn)行人工注釋。

該研究定義的類型包含以下 8 個(gè)方面,遵循 ACL 審核指南,并做了一些小改動(dòng):

  • 摘要 (SUM)
  • 動(dòng)機(jī) / 影響(MOT)
  • 原創(chuàng)性(ORI)
  • 可靠性 / 正確性(SOU)
  • Substance(SUB)
  • 可復(fù)現(xiàn)性(REP)
  • 有意義的對(duì)比(CMP)
  • 清晰度(CLA)

總體而言,數(shù)據(jù)注釋涉及 4 個(gè)步驟,如下圖 1 所示:

ReviewAdvisor 如何生成科學(xué)評(píng)審結(jié)果?

首先我們來(lái)看什么是「科學(xué)評(píng)審生成」任務(wù)。該任務(wù)可以被概念化地理解為基于 aspect 的科學(xué)論文摘要任務(wù),但存在一些重要的區(qū)別。例如,大部分當(dāng)前的工作要么從「作者視角」總結(jié)論文(即僅使用作者所寫的內(nèi)容構(gòu)建摘要),要么從「讀者視角」進(jìn)行總結(jié),即認(rèn)為論文摘要應(yīng)考慮研究社區(qū)成員的視角。

而 CMU 研究者在這項(xiàng)工作中將科學(xué)論文摘要的視角從「作者」或「讀者」擴(kuò)展到了「評(píng)審」,并認(rèn)為好的科學(xué)論文摘要不僅應(yīng)反映論文的核心 idea,還要包含領(lǐng)域?qū)<覐牟煌矫孀龀龅闹匾u(píng)價(jià),而這需要源論文以外的知識(shí)。

這一想法的好處在于:1)幫助作者發(fā)現(xiàn)論文中的缺陷,使之更強(qiáng);2)幫助評(píng)審者緩解一部分評(píng)審負(fù)擔(dān);3)幫助讀者快速掌握論文主要思想,并了解「領(lǐng)域?qū)<摇梗丛撗芯縿?chuàng)建的系統(tǒng))對(duì)論文的評(píng)價(jià)。如下圖 3 所示:

系統(tǒng)設(shè)計(jì)

該研究創(chuàng)建的評(píng)審數(shù)據(jù)集包含的訓(xùn)練樣本少于其他基準(zhǔn)摘要數(shù)據(jù)集,不過(guò)近期語(yǔ)境化預(yù)訓(xùn)練模型的少樣本(few-shot)學(xué)習(xí)能力使得基于該數(shù)據(jù)集訓(xùn)練評(píng)審生成系統(tǒng)成為可能。該研究使用 BART 作為預(yù)訓(xùn)練模型,該模型在多個(gè)生成任務(wù)上展現(xiàn)出卓越的性能。

然而,即使有了 BART 的加持,如何使用它處理長(zhǎng)文本仍是一大挑戰(zhàn)。經(jīng)過(guò)多次試驗(yàn)后,研究者選擇了一種兩階段方法。

利用兩階段系統(tǒng)處理長(zhǎng)文本

該研究利用「提取 - 生成」(extract-then-generate)機(jī)制,將文本生成分解為兩步。具體而言,首先進(jìn)行內(nèi)容選擇,即從源論文中提取顯著文本片段,然后基于這些文本生成摘要。

aspect 感知的摘要(aspect-aware Summarization)

通常在 extract-then-generate 機(jī)制中,可以直接使用提取內(nèi)容,并構(gòu)建用于生成文本的序列到序列模型。為了生成具備更多樣化方面的評(píng)審結(jié)果,以及透過(guò)其內(nèi)部結(jié)構(gòu)解釋評(píng)審結(jié)果,該研究更進(jìn)一步提出了 extract-then-generate-and-predict 生成框架。

具體而言,研究者使用其標(biāo)注 aspect 作為額外信息,設(shè)計(jì)了一個(gè)預(yù)測(cè)生成文本(評(píng)審)aspect 的輔助任務(wù),參見(jiàn)下圖 5:

實(shí)驗(yàn)

研究者通過(guò)以下兩個(gè)問(wèn)題,來(lái)評(píng)估該系統(tǒng)的效果。

該系統(tǒng)擅長(zhǎng)什么?不擅長(zhǎng)什么?

基于該研究定義的評(píng)估度量指標(biāo),研究者對(duì)參考評(píng)審和生成評(píng)審進(jìn)行了自動(dòng)評(píng)估和人工評(píng)估,來(lái)分析自動(dòng)評(píng)審生成系統(tǒng)在哪些子任務(wù)上發(fā)揮良好,又在哪些子任務(wù)上失敗。下表 5 展示了評(píng)估結(jié)果:

實(shí)驗(yàn)發(fā)現(xiàn),該評(píng)審生成系統(tǒng)存在一些缺陷,主要表現(xiàn)在以下幾個(gè)方面:

缺乏對(duì)論文的高級(jí)理解:系統(tǒng)無(wú)法準(zhǔn)確分辨高質(zhì)量論文和低質(zhì)量論文,大多數(shù)時(shí)候負(fù)面 aspect 的證據(jù)并不可靠;

模仿源數(shù)據(jù)的風(fēng)格:在不同生成評(píng)審結(jié)果中常出現(xiàn)某些特定句子,這表明生成評(píng)審的風(fēng)格易受訓(xùn)練樣本中高頻句子模式的影響;

缺乏問(wèn)題:生成評(píng)審很少對(duì)論文內(nèi)容提出問(wèn)題,而這是同行評(píng)審的重要組成部分。

當(dāng)然,該系統(tǒng)也有一些優(yōu)勢(shì)。它通常能夠準(zhǔn)確總結(jié)輸入論文的核心思想,生成評(píng)審覆蓋的論文質(zhì)量 aspect 也多于人類評(píng)審人員。

案例研究

研究者還進(jìn)行了案例研究,下表 6 展示了示例評(píng)審結(jié)果。從中可以看出,該模型不僅能生成流暢的文本,還能意識(shí)到生成文本是關(guān)于哪個(gè)方面及其正確的極性。例如紫色部分是「摘要」,黃色部分是「清晰度」,+ 表示評(píng)論較為正面。

雖然生成的方面通常是小型文本片段,還存在一些微小的對(duì)齊問(wèn)題,但該模型仍然能清晰地感知到不同方面。

系統(tǒng)生成的評(píng)審帶有偏見(jiàn)嗎?

文本中的偏見(jiàn)普遍存在,但檢測(cè)難度高。該研究除了設(shè)計(jì)生成評(píng)審的模型外,還提出了一種偏見(jiàn)分析方法,以便更細(xì)粒度地識(shí)別和量化人類標(biāo)注和系統(tǒng)生成數(shù)據(jù)中的偏見(jiàn)。

首先是度量評(píng)審中的偏見(jiàn)。下圖 6 展示了參考評(píng)審和生成評(píng)審之間的差異:

該研究按照「Nativeness」和「Anonymity」將所有評(píng)審進(jìn)行分類,詳情參見(jiàn)下表 7:

分析發(fā)現(xiàn),Native 論文(即作者列表中至少有一位英語(yǔ)母語(yǔ)者)和非匿名論文的參考評(píng)審和生成評(píng)審得分更高。具體結(jié)果參見(jiàn)下圖:

在論文最后,研究者還列舉了自動(dòng)評(píng)審生成系統(tǒng)面臨的八項(xiàng)挑戰(zhàn),涉及模型、數(shù)據(jù)、評(píng)估三個(gè)方面,分別是:長(zhǎng)文本建模、針對(duì)科學(xué)領(lǐng)域的預(yù)訓(xùn)練模型、結(jié)構(gòu)信息、外部知識(shí)、更多細(xì)粒度評(píng)審數(shù)據(jù)、更準(zhǔn)確和強(qiáng)大的科學(xué)論文解析器、生成文本的公平性和偏見(jiàn)、真實(shí)性與可靠性。

回到這個(gè)問(wèn)題「科學(xué)評(píng)審可以自動(dòng)化嗎?」,答案依然是「還不能」。

但是,說(shuō)不定在不久的將來(lái),自動(dòng)評(píng)審生成系統(tǒng)能夠至少幫助人類評(píng)審更快速、高效地完成評(píng)審工作。


網(wǎng)站題目:AI自動(dòng)評(píng)審論文,CMU這個(gè)工具可行嗎?我們用它評(píng)審了下論文
文章起源:http://www.dlmjj.cn/article/cdhiieh.html