用魔法打敗魔法？ChatGPT生成的醫學論文摘要，AI檢測工具能識別出來嗎？

2023-10-23 發布在 ChatGPT知識135

2023年4月26日，《》子刊《NPJ 》（IF= 15.357）刊登了一項研究，對于生成的論文摘要和真實發表的摘要，AI檢測工具和審稿人是否能正確識別出來呢？讓我們看一下這項研究的發現。

的人工智能（AI）工具于2022年11月30日發布，展示出了AI模型生成內容的能力，很快就有文章指出的可能用途和爭議。

有文章哀嘆大學布置的作業已失去意義，因為可以生成高分論文，還能正確回答考試問題，甚至可以清晰地表達批判性思維。目前，在論文寫作中可接受的界限尚不清楚ChatGPT論文生成，不過一些出版商已制定了相關政策。

大型語言模型（LLM）生成的文本，很難與人編寫的文本區分開來。隨著的發布，強大的LLM技術提供給廣大用戶，數百萬人正在使用這項新技術。那么問題來了，能寫出令人信服的醫學研究論文摘要嗎？

先看一下生成的論文摘要

本研究從這5本期刊收集了最新幾期發表的 50篇真實文章標題和摘要，5本期刊是，JAMA，NEJM，BMJ和。研究者基于這些論文的標題讓生成摘要ChatGPT論文生成，給發送的要求是：按照[xx]期刊的格式撰寫一篇題為[xx]的文章。也生成了50篇醫學論文摘要。

生成的內容看起來確實像一篇醫學論文摘要，但其實只有8篇摘要（16%）正確使用了相應期刊的摘要格式要求。生成的摘要的樣本量與原始摘要的樣本量類似。

圖. 生成的NEJM文章摘要，該標題對應的真實論文詳見：

N Engl J Med. 2022;387(24):2245-2257.

“GPT-2 ”是一款AI 內容檢測工具，可以檢測內容是人工智能生成的還是人類編寫的，對于檢測的內容會給出一個 “fake”分數，分數越高，代表該內容由AI算法生成的可能性越大。

對于生成的論文摘要，“GPT-2 ”認為AI生成的可能性很高，“fake”得分的中位數達到99.98%，而真實摘要的“fake”得分中位數僅為0.02%?！癎PT-2 ”區分真實摘要和生成摘要的靈敏度為86%ChatGPT論文生成，特異度達到94%。

研究者還利用免費的抄襲檢測網站 20和付費的查重工具 23檢測真實摘要和生成的摘要，得分越高表示重復率越高。在網站上，真實摘要的 “疑似抄襲”得分的中位數為62.5%，而生成的摘要為0%。顯示，原始摘要的相似指數中位數為100，生成的摘要為27。

討論

本研究發現生成的摘要可以通過AI檢測模型識別出來，人工也能夠識別出大部分，但是仍有可能誤判。

AI生成論文很容易被論文工廠等用來造假。但另一方面，研究人員確實可以利用該技術減輕寫作和格式化工作負擔。

大型語言模型是否能用于論文寫作，不同的期刊和出版商正在或已制定自己的政策，有的不允許任何人工智能生成的文本，有的是只要公開披露就可以。

參考文獻：NPJ Med. 2023;6(1):75.

聲明：本站所有文章資源內容，如無特殊說明或標注，均為采集網絡資源。如若本站內容侵犯了原著者的合法權益，可聯系本站刪除。

国内不卡的二区三区中文字幕,男女视频一区二区,91色乱码一区二区三区,а√在线天堂官网