中國論文工廠,已經用AI批量生產垃圾論文了?

來源: 更新:

7.9

知識分子

The Intellectual


圖源:Pixabay


撰文 | 張天祁



Scientific Reports的副主編、英國薩里大學數據科學家馬特·斯皮克(Matt Spick)注意到,一批垃圾論文正以每天一篇甚至兩篇的速度,在迅速湧入他工作的期刊。


它們選題各異,套路卻驚人地一致。有的研究血清維生素D與抑鬱症的關係,有的分析碘攝入與糖尿病,有的考察炎症指數與睡眠質量,總之就是考察一個變量對一種疾病的影響。只需一份標準化的數據集、一段迴歸模型腳本,再得出一個統計顯著的結果,這類論文就能迅速成文。換個變量,又是新的一篇。


這種沒有信息含量的垃圾論文數量在迅速膨脹。2024年,僅1月至10月,全球就發表了190篇這類基於美國 NHANES 健康數據庫的“單因子關聯研究”,幾乎是2014至2021年間年均發表數量的五十倍。



國產垃圾論文攻陷國外期刊



更引人注意的是,垃圾論文數量的激增幾乎完全集中在中國。2021至2024年間,全球共發表了316篇此類論文,其中有292篇的第一作者來自中國單位,佔比超過92%。而在2014至2020年的25篇中,這一數字僅爲2篇[1]


這組數據來自於斯皮克和他合作者今年發佈的一項研究。爲了系統性地研究這一現象,斯派克和他的合作者在PubMed和Scopus等學術數據庫中,使用精確的關鍵詞組合進行檢索,篩選出過去十年間所有使用NHANES數據、且研究設計爲單因素關聯的論文。經過篩選,他們最終確定了341篇符合條件的論文作爲分析對象。


這些論文大多采用相同的方法框架:使用 logistic 迴歸模型,研究一個健康變量與一種疾病或生理狀態之間的統計關聯,最多控制三五個協變量,結論集中在“顯著相關”這一層面。研究的問題不同,結構幾乎不變。


在對這三百多篇論文進行分析後,研究團隊發現,它們普遍遵循一套高度重複的寫作腳本。研究者從數據庫中選取一個預測變量,比如某種維生素水平,再選擇一個健康結果,比如抑鬱症,通過標準化的統計流程將兩者建立關聯,最終得出一個簡單的結論,A 與 B 相關。在最極端的情況下,研究者甚至只需顛倒自變量和因變量的位置,就能生成另一篇論文,無需任何生理學依據或理論假設,便可無限擴展變量與結局的組合方式。


爲了進一步說明這類研究存在的問題,研究團隊使用了網絡分析方法,把所有論文中提到的預測變量和疾病之間的配對關係畫成圖表。結果顯示,像抑鬱症這樣的複雜疾病,被幾十個毫無關聯的變量分別單獨研究過一次。圖中呈現出一種“一個變量對應一個疾病”的稀疏結構,揭示出這類研究往往忽視疾病背後的多重因素,只是簡單地找出某種單一因素與某個結果之間的聯繫。


團隊以抑鬱症爲例,檢驗這些論文是否可靠。他們統計了所有聲稱與抑鬱症顯著相關的研究,一共28篇,並使用一種叫“錯誤發現率”(FDR)的統計方法,對這些結果重新進行了校正。FDR 用來處理多個變量同時檢驗時容易出現的假陽性問題。結果發現,這28項中有15項在校正後不再顯著,說明很多看起來有效的結果,其實可能只是偶然波動造成的。


研究人員進一步發現,不少論文在數據使用上存在操縱的嫌疑。NHANES 是一項跨年滾動調查,覆蓋數十年的連續數據,供研究者完整調用。但在大部分論文中,作者卻在沒有提供任何解釋的情況下,僅選取了其中一小段年份區間進行分析。這種精心挑選數據的做法,很難不令人懷疑其動機是爲了篩選出p值最低、結果最漂亮的組合來發表。


將所有線索串聯起來,一條AI論文流水線已經顯示地非常清晰了。一個對AI開放的數據庫作爲原料,輔以自動化的分析腳本,再套用高度公式化的研究設計,最終得以在短期內以指數級速度產出大量雷同的論文。這套流程完美地契合了AI輔助的工作模式,正如報告作者所言,這種生產力的提升,對“旨在通過提供低質量或僞造稿件來牟利的論文工廠尤其具有吸引力” 。



論文工廠用上AI了



這一切的起點,是龐大的公共健康數據庫NHANES。這是由美國官方主導的一項長期項目,旨在評估美國成人和兒童的健康與營養狀況。該調查每兩年進行一次,招募約1萬名參與者,通過結合訪談、體格檢查和實驗室檢測,收集了涵蓋疾病、風險因素、營養指標等超過700個變量的綜合數據。


造成這一局面的部分原因,在於NHANES 本身高度結構化的數據形式。它的數據可以通過API直接導入Python或R語言環境,一系列標準庫(如 nhanesA、pynhanes、NHANES pyTOOL 等)支持自動搜索、清洗、建模與輸出。過去需要團隊手動完成的數據整理和圖表繪製,如今可在更短時間內藉助腳本工具實現。


更關鍵的是,NHANES是一個AI就緒(AI-ready)的數據集。 這意味着,研究者可以通過應用程序編程接口(API)輕鬆地、自動化地提取和分析數據。 這種設計本意是爲提高科研效率,但它也爲“數據挖掘”和批量生產論文打開了方便之門。


斯皮克團隊認爲,他們的研究結果很可能嚴重低估了問題的規模。他們的檢索範圍侷限於符合利用NHANES的單因子研究。但更寬泛的搜索顯示,僅在一年之間,使用 NHANES 數據發表的論文數量就從2023年的4926篇增長到了2024年的7876篇。


來自美國西北大學的研究者瑞茲·理查森(Reese Richardson)一直關注論文工廠的動向。他在一次快速檢索中,就發現了5篇未被斯皮克團隊納入的 NHANES 論文,這些文章與某個可疑論文工廠有關聯。它們的寫作結構與斯皮克所識別出的論文非常相似,同樣是圍繞 NHANES 數據中的單一變量與某種疾病的簡單相關性展開,例如電子煙使用與肺部疾病之間的關聯[2]


以“臨牀公共數據庫挖掘”爲關鍵詞,在中國社交媒體平臺上不難搜到大量提供服務的公衆號。其中除了本文提到的 NHANES 數據庫,GBD(Global Burden of Disease,全球疾病負擔研究)等數據庫也頻繁出現在這些平臺的推文和案例中,成爲熱門的數據來源。


這類公衆號大多提供多種模式的服務,例如:根據研究主題協助下載公開數據,完成統計分析,撰寫數據分析報告,或在已有數據和主題的基礎上提供論文思路和寫作指導。一些平臺還進一步打出“全流程陪跑”的口號,從選題、分析到英文潤色,覆蓋論文寫作的各個階段。


在一些平臺的廣告中,造假的暗示已非常露骨。例如有平臺寫道:“因公共數據庫的開放性,我們提供的統計服務可不斷更換研究主題,挖掘數據,直至分析出發表級的統計分析結果,並可提供中英文的方法和結果。”換句話說,就是以發表爲目標,圍繞數據庫中的變量反覆組合、拆解、篩選,直到跑出一組足夠顯著的結果。


參考文獻:

[1]Suchak, T., Aliu, A. E., Harrison, C., Zwiggelaar, R., Geifman, N., & Spick, M. (2025). Explosion of formulaic research articles, including inappropriate study designs and false discoveries, based on the NHANES US national health database. PLoS Biology, 23(5), e3003152.

[2]O’Grady, C. (2025, May 14). Low-quality papers are surging by exploiting public data sets and AI. Science.

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top