大四學生連發 40 餘篇 SCI,醫學研究正在變成流水線?
圖源:Unsplash / Lush Kooch
撰文|張天祁
溫州醫科大學一名大四學生,最近引起了不小的關注。
他的 Google Scholar 個人主頁顯示,從 2024 年 7 月至今的一年多時間裏,他已累計發表學術論文 48 篇。如果將時間進一步壓縮到 2025 年,這一數字就顯得更爲集中。一年之內發表論文超過 40 篇,平均下來,幾乎不到 10 天就有一篇新作上線。
初步梳理發現,其中僅有 4 篇未被 SCI 收錄,其餘 44 篇均被 SCI 期刊收錄。這些論文並非主要集中在低分區期刊。按中科院期刊分區口徑估算,約有 10 篇發表在一區期刊,20 篇左右發表於二區期刊。
需要說明的是,這 48 篇成果不全是研究論文,其中包含了致編輯的通信(letter)、綜述性文章以及觀點類短文。但即便不計這些文章,他的發表量和發表速率也足夠驚人,特別是對本科生來說。
從作者結構看,這位學生本人多以第一作者身份出現,併兼任通訊作者。因爲一作數量極多,外界有人懷疑他是靠家庭或者導師提攜的學二代。但單看他的論文署名情況,“學界大佬”掛名通訊的情況並不多見,甚至連導師作爲通訊作者署名的比例也並不高。實際上,論文的合作者更多來自同一所學校、和他年紀相仿的本科生。
在發表渠道上,這些論文多發表於開放獲取(Open Access)期刊。這類期刊通常需要作者在論文接收後支付一定數額的版面費。相關費用從何而來尚不清楚,不過從學校現行制度來看,僅通過校內渠道,他就可能獲得至少兩類與論文直接相關的經費支持。
據溫州醫科大學官方通知,本專科學生在創新創業方面取得成果的學生、指導教師和學院予以獎勵。獎勵的成果包括學生爲第一作者公開發表的論文(二級及以上)、學生爲第一發明人獲得的專利、學生參加各級“挑戰杯”競賽所獲獎項等。
2021年公佈的《溫州醫科大學大學生創新創業工作獎勵辦法》顯示,溫州醫科大學大學生創新創業資金,每年投入預算500萬元。本專科學生作爲第一作者發表SCI、SSCI、A&HCI收錄刊物獎勵4000元。對學科競賽獲獎的學生集體,也有根據競賽級別和獲獎名次的獎勵[1]。
在校內,各類科技創新項目幾乎貫穿了這位學生的整個大學階段。僅在院級公衆號上,就能搜索到該同學申報2024年度溫州醫科大學本專科學生科研課題、年度大學生創新創業重點孵化團隊。2024年浙江省大學生科技創新活動計劃(新苗人才計劃),以及2025年國家級大學生創新創業訓練計劃項目、2025年第十屆全國大學生生命科學競賽的記錄。這些科技創新項目也有各自的資助。
這位學生髮表論文的合作者,很多就是各個科技創新項目的小組成員。同一批項目中,多名學生都以不同方式參與論文產出,陸續獲得了多篇論文署名,甚至共同第一作者。只是由於其個人發表數量更爲集中,相關關注更多聚焦於他一人。
這些文章在研究對象上,涉及腫瘤、免疫、神經系統疾病、醫學影像、藥物和醫療器械評價等多個領域,但在具體做法上卻高度接近。多數論文采用的是孟德爾隨機化(Mendelian Randomization,MR)、組學、生物信息學篩選或網絡毒理學方法,也有一部分直接基於 GBD 等公共數據庫撰寫流行病學研究。這些研究幾乎都建立在現成數據之上,並不需要進入實驗室開展實驗。
這種方法上的集中,在論文標題中就能直接看出來。在他 Google Scholar 主頁顯示的 48 篇文章中,至少有 11 篇在標題中明確標註了“孟德爾隨機化”。即便不計算那些未寫入標題、但在正文中同樣以孟德爾隨機化作爲主要分析工具的論文,相關方法在其研究中所佔的比重也已經十分突出。
很多文章都是統計A成分與B疾病之間的關係。例如,圍繞 PFAS(全氟和多氟烷基物質)與癌症的關係,他在不同時間點陸續發表了多篇論文。先是 PFAS 與肝癌,隨後是 PFAS 與乳腺癌,又有將 PFAS 放入多種癌症框架中同時討論的研究。同樣的數據庫,相似的分析邏輯,只需更換疾病的靶點數據,就能像拼積木一樣拼湊出新的成果。
部分論文的內容還有複用的嫌疑。他在2025年初發表了一篇關於Busulfan導致無精症的機制論文,而在同年年末的全國大學生生命科學競賽中,類似的內容又以《多組學整合揭示Busulfan誘導無精症的關鍵靶點與分子機制》爲題出現。
很難判斷這些論文是否有論文工廠的助力,但如果幾位本科生已經能夠搭建一條論文生產流水線,這或許並非孤立現象。與以往依賴家庭背景或導師支持的學術不端事件相比,它同樣需要被認真對待。
01 AI時代,製造流水線論文只要兩小時?
類似溫州醫科大學這位學生,利用公共數據庫和特定的方法,越過做實驗的步驟大量快速發表論文,現在已經被視爲一條論文發表捷徑。
一個難以忽視的現象是,低質量、重複性論文的快速增長,在時間上幾乎與AI生成能力的躍升同步發生。這種重合並不必然意味着因果關係,但已經足以引起警覺。
研究者們也注意到了這一點。來自英國薩里大學和澳大利亞昆士蘭科技大學 的兩位研究者,近期專門對 AI 工具與這類快速生產論文之間的關係展開了調查。研究者對 2021 年至 2025 年(截至 7 月底)已發表的相關研究進行了系統性梳理,試圖回答:圍繞同一套數據,學術界到底出現了多少“換題不換數據”的重複研究?
梳理對象聚焦於使用美國疾病控制與預防中心(CDC)國家健康與營養調查(NHANES)數據庫的論文。在統計時,研究者將“重複”界定爲這樣一類研究:研究對象來自同一國家、同一人羣,討論的仍是相同的暴露因素與相同的健康後果,只是在題目、表述或分析方法上作出細微調整。
在對文獻進行系統檢索和匹配後,研究者共識別出 411 篇成對的重複“暴露—後果”論文。最常見的情形是:同一個暴露—後果組合,被髮表成兩篇論文,這一情況涉及 190 篇文章。某些主題的密集程度尤其高,例如“氧化平衡得分與慢性腎臟病之間的關聯”,在一年之內就被髮表了 6 次。
從時間維度看,這類重複發表幾乎是一個近幾年才迅速放大的現象。在 2023 年之前,圍繞 NHANES 的重複論文仍然十分有限:2021 年僅 3 篇,2022 年爲 12 篇。但到了 2024 年,這一數字驟然攀升至 198 篇,短短兩年間增長了 17 倍。
更進一步,研究者們基於已發表的論文,使用大模型直接生產了三篇看似全新的稿件。求新文本在句法結構上必須與原文不同,以降低被剽竊檢測工具識別的可能性。研究者坦言,LLM 並不能被指令生成完全無誤的論文,但即便如此,每一篇論文從頭到尾的生產時間,也僅僅只需要兩個小時。
研究者隨後將三篇由大語言模型生成的合成稿件提交至 iThenticate。三篇稿件在剔除參考文獻後的總體相似度均低於 30%,且沒有任何單一來源的相似度超過 5%。按照當前主流編輯流程的標準,這樣的得分不會觸發自動的預警。
當然,越過了第一道關卡,不意味着一篇論文就能夠被接收。但是僅僅兩個小時就能出產一篇通過自動檢測的論文,如此之低的製造成本下,即便單篇論文的成功率並不高,只要不斷重複提交,總會有一部分進入發表通道[2]。
這一問題在中國尤其嚴重。今年年初的一項研究顯示,基於 NHANES 健康數據庫垃圾論文數量的激增幾乎完全集中在中國。2021至2024年間,全球共發表了316篇此類論文,其中有292篇的第一作者來自中國單位,佔比超過92%。作者猜測,AI能夠很方便的調用NHANES數據,是論文暴增的來源之一[3]。
類似的“數據挖掘論文”服務,在國內社交平臺上並不難找到。在一些平臺的廣告中,造假的暗示已非常露骨。例如有平臺寫道:“因公共數據庫的開放性,我們提供的統計服務可不斷更換研究主題,挖掘數據,直至分析出發表級的統計分析結果。”
甚至在一些稍早的廣告公衆號文章裏,溫州醫科大學這位同學發佈的論文成了正面的宣傳案例,“抓住一個研究目標,換個疾病就能複製粘貼出多篇文章”,這種方法適合“急需文章”的人羣。公衆號的目標也很明確,推銷論文定製與“個性化”服務。
02 期刊開始收緊標準
今年很多出版商已經對此做出了限制。Frontiers 將這種方式炮製的論文稱爲“快速生產的科學”(Fast-churn science),指出這類研究會“讓期刊充斥着低質量、重複性的發現”。
2024 年年中,Frontiers 的編輯部注意到一個異常現象:基於孟德爾隨機化的投稿量在短時間內激增。緊隨其後,又出現了一波大量使用美國國家健康與營養檢查調查(NHANES)公共數據集的論文。
佛羅里達大學教授 Arch G. Mainous III 指出。大型公共數據庫中可調用的變量數量極其龐大,當可用變量足夠多時,研究者只需不斷調整變量組合,憑藉純粹的數據篩選製造出看似顯著的相關性。
他直言,這些數據庫本來是許多重要流行病學研究和疾病負擔評估的基礎工具,問題在於,一些研究並非從清晰的科學問題出發,而是反其道而行之.先在數據中尋找顯著性,再爲結果補寫假設。
"由於可用變量太多,一些投機團體似乎只是構建一個龐大的變量矩陣,通過窮舉相關性來尋找統計學顯著結果。這些分析中缺失的,是具有明確結果的假設”。Mainous說。
Mainous 進一步指出,嚴肅的研究還必須考慮 NHANES 這類美國數據集所依賴的社會背景與制度條件,以及研究結論在其他國家和文化情境下是否成立的問題。但在大量湧現的稿件中,這些討論往往被完全省略。
“不幸的是,這些在科學上存疑、但在統計學上顯著的關係,恰恰可以被論文工廠用作待售稿件的基礎。”Mainous 說。只要結果顯著,論文被接收和發表的概率就會大幅提高。然而在進行足夠多次統計比較的前提下,即便純屬偶然,也會有一些結果顯示出統計學意義。結果是,大量質量可疑的稿件在短時間內湧入期刊系統,給編輯和審稿人帶來了極大的壓力。
2024 年 7 月,Frontiers 成爲首批對這一問題作出明確回應的出版商之一。期刊宣佈:所有基於健康數據集的孟德爾隨機化研究,必須提供獨立的外部驗證。凡是僅依賴公共數據庫、缺乏新增驗證數據或機構數據支持的 MR 稿件,將在編輯初審階段直接被拒。
政策實施後的第一個月,Frontiers 接收到的 MR 投稿量下降了 61%。今年年初,Frontiers 又進一步收緊了標準,明確要求所有“僅基於公共數據簡單查詢”的論文必須進行外部驗證。在新政策實施後,Frontiers 已累計拒絕了 5,513 篇孟德爾隨機化研究投稿(自 2024 年 7 月起),以及 1,382 篇基於 NHANES 數據的論文(自 2025 年 5 月起)[4]。
PLOS ONE也進行了類似的改革。PLOS ONE總編輯 Emily Chenette 表示,PLOS 旗下的期刊收到的投稿量激增,這些論文通常在特定人羣(如 35 歲以下的女性)中尋找健康狀況(如抑鬱症)與潛在原因(如維生素 D 水平)之間的統計聯繫。研究人員推測,“論文工廠”可能正在大量產出此類論文,可能是通過AI進行助力,並向研究人員出售。
PLOS ONE更新了“評估使用公開健康和社會科學數據庫進行研究的標準”。PLOS 旗下期刊的編輯將自動拒收基於這些數據集的論文,除非研究人員做了額外的後續工作(如實驗)。Chenette 稱,在新政策實施的第一個月,此類論文的退稿率已從 40% 上升至 94%[5]。
一些專門領域也有同樣的現象。在藥物安全領域,基於FDA 不良事件報告系統(FAERS)的數據,進行單一藥物及其與特定不良事件關聯的研究。2021 年,大約有 100 項。2024 年 ,這一數字達到了 600 項。
爲了應對論文氾濫的情況,《藥理學前沿》(Frontiers in Pharmacology)今年開始要求使用公共數據集的研究必須經過獨立驗證。 《藥物安全專家意見》 (Expert Opinion on Drug Safety )則在 7 月下旬決定完全停止接收使用 FAERS 數據庫進行此類研究的稿件[6]。
參考文獻:
[1] 溫州醫科大學大學生科研工作委員會辦公室. (2023, October 30). 關於做好溫州醫科大學2022年度本專科學生創新創業成果報送工作的通知. 溫州醫科大學.
[2] Maupin, D., Suchak, T., Barnett, A., & Spick, M. (2025, September 12). Dramatic increases in redundant publications in the Generative AI era (Preprint). medRxiv.
[3] Suchak, T., Aliu, A. E., Harrison, C., Zwiggelaar, R., Geifman, N., & Spick, M. (2025). Explosion of formulaic research articles, including inappropriate study designs and false discoveries, based on the NHANES US national health database. PLOS Biology, 23(5), e3003152.
[4] Frontiers Communications Editor, F. C. (2025, September 15). Cutting through fast-churn science: How Frontiers raised the bar. Frontiers | Science news.
[5] O’Grady, C. (2025, October 8). Journals and publishers crack down on research from open health data sets. Science.
[6] Travis, K. (2025, September 16). Exclusive: Journal bans drug safety database papers as they flood the literature. Retraction Watch.