2023年4月26日,《》子刊《NPJ 》(IF= 15.357)刊登了一項研究, 對于生成論文摘要和真實發(fā)表的摘要,AI檢測工具和審稿人是否能正確識別出來呢?讓我們看一下這項研究的發(fā)現(xiàn)。

的人工智能(AI)工具于2022年11月30日發(fā)布,展示出了AI模型生成內(nèi)容的能力,很快就有文章指出的可能用途和爭議。

有文章哀嘆大學布置的作業(yè)已失去意義, 因為可以生成高分論文,還能正確回答考試問題,甚至可以清晰地表達批判性思維。目前,在論文寫作中可接受的界限尚不清楚ChatGPT論文生成,不過一些出版商已制定了相關政策。

大型語言模型(LLM)生成的文本,很難與人編寫的文本區(qū)分開來。隨著的發(fā)布,強大的LLM技術提供給廣大用戶,數(shù)百萬人正在使用這項新技術。那么問題來了, 能寫出令人信服的醫(yī)學研究論文摘要嗎?

先看一下生成的論文摘要

本研究從這5本期刊收集了最新幾期發(fā)表的 50篇真實文章標題和摘要,5本期刊是 ,JAMA,NEJM,BMJ和。研究者基于這些論文的標題讓生成摘要ChatGPT論文生成,給發(fā)送的要求是:按照[xx]期刊的格式撰寫一篇題為[xx]的文章。 也生成了50篇醫(yī)學論文摘要。

生成的內(nèi)容看起來確實像一篇醫(yī)學論文摘要,但其實只有8篇摘要(16%)正確使用了相應期刊的摘要格式要求。生成的摘要的樣本量與原始摘要的樣本量類似。

論文生成ppt_論文生成器下載_ChatGPT論文生成

圖. 生成的NEJM文章摘要,該標題對應的真實論文詳見:

N Engl J Med. 2022;387(24):2245-2257.

“GPT-2 ”是一款AI 內(nèi)容檢測工具,可以檢測內(nèi)容是人工智能生成的還是人類編寫的,對于檢測的內(nèi)容會給出一個 “fake”分數(shù),分數(shù)越高,代表該內(nèi)容由AI算法生成的可能性越大。

對于生成的論文摘要,“GPT-2 ”認為AI生成的可能性很高,“fake”得分的中位數(shù)達到99.98%,而真實摘要的“fake”得分中位數(shù)僅為0.02%。“GPT-2 ”區(qū)分真實摘要和生成摘要的靈敏度為86%ChatGPT論文生成,特異度達到94%。

研究者還利用免費的抄襲檢測網(wǎng)站 20和付費的查重工具 23檢測真實摘要和生成的摘要,得分越高表示重復率越高。在 網(wǎng)站上,真實摘要的 “疑似抄襲”得分的中位數(shù)為62.5%,而生成的摘要為0%。顯示,原始摘要的相似指數(shù)中位數(shù)為100,生成的摘要為27。

討 論

本研究發(fā)現(xiàn)生成的摘要可以通過AI檢測模型識別出來,人工也能夠識別出大部分,但是仍有可能誤判。

AI生成論文很容易被論文工廠等用來造假。但另一方面,研究人員確實可以利用該技術減輕寫作和格式化工作負擔。

大型語言模型是否能用于論文寫作,不同的期刊和出版商正在或已制定自己的政策,有的不允許任何人工智能生成的文本,有的是只要公開披露就可以。

參考文獻:NPJ Med. 2023;6(1):75.