全球最大的論文預印本平臺arXiv,要離開康奈爾大學了
Cornell University 圖源:wikipedia
撰文|張天祁
如果有一天,全球科研人員突然無法訪問 arXiv,許多領域的研究節奏可能會被打亂。每天清晨刷新論文列表,已經成爲部分數學家、物理學家和AI研究者的固定習慣。許多重要研究從誕生到傳播的第一站,往往不是期刊,而是這個界面樸素的預印本服務器。
然而,這個支撐全球科研交流的基礎設施,在很長時間裏卻只是康奈爾大學圖書館中的一個項目。最近公佈的計劃顯示,arXiv 正在準備從康奈爾大學系統中獨立出來,成立一個新的非營利機構。這一變化意味着,運行了三十多年的arXiv平臺,將從一個非營利項目轉變成擁有獨立法人地位的非營利機構。
過去arXiv也在做非營利的工作,但獨立纔是這次轉變的題眼。正如arXiv招聘CEO的公告所強調的,“arXiv正在轉變爲一個獨立的非營利組織。這轉型將有助於加快技術開發速度、增強組織靈活性、擴大合作伙伴關係,並實現長期的財務可持續性 。獨立身份使 arXiv 能夠緊跟其發展的各個要素:實現基礎設施現代化 、擴大學科覆蓋範圍,並與國際利益相關方進行更深入的互動”[1]。
從一位科學家隨手搭建的小系統,到全球最大的論文預印本平臺。從最初的個人服務器,到掛靠康奈爾大學圖書館的項目,再到今天的獨立非營利機構。arXiv 的發展歷程,本身就帶着某種偶然性。
01 偶然誕生的全球科學基礎設施
1991 年夏天,物理學家保羅·金斯伯格(Paul Ginsparg)偶然聽到同行抱怨,這位同行擔心自己出差時,郵箱裏堆積的論文會把自己有限的磁盤配額撐爆。那時,物理學家之間交換研究成果的方式仍然主要依靠郵件列表,很多研究者甚至要等待數月才能讀到同行的最新成果,而且郵件內容也不能主動選擇。
金斯伯格當時在洛斯阿拉莫斯國家實驗室工作。他很快寫出了一套程序,建立一箇中央自動化存儲庫和提醒系統,研究者可以把論文上傳到服務器,僅根據需求向訂閱者發送全文。這個系統最初的版本運行在一臺 NeXT 計算機上,只是一個面向少數高能物理學家的工具。
要知道,1991年的時候萬維網(World Wide Web)都還沒有發明。要到一年之後,他纔在同事的引薦下認識了萬維網之父蒂姆·伯納斯-李(Tim Berners-Lee),並且幫助協助測試了美國第一個 Web 服務器。後來,他也把自己發明的論文分發系統搬上了萬維網。
幾年之後,這個系統開始通過網頁訪問,並逐漸獲得更廣泛的用戶。隨着互聯網在學術界迅速普及,上傳論文、公開分享研究成果的方式逐漸成爲一種新的研究習慣。
最初,金斯伯格計劃每年接收來自高能粒子物理一個小分支的約 100 篇投稿,但其用戶和範圍迅速擴大,頭半年就收到了 400 篇投稿。當時,這個系統仍帶着一種世外桃源般的自由感,金斯伯格回憶,“在那些日子裏,編輯控制幾乎是不必要的,互聯網仍是學術界的私人遊樂場,極少受到外界干擾”[2]。
三十多年後的今天,arXiv 已經收錄超過兩百多萬篇論文,每年新增投稿超過二十萬篇。在數學、理論物理和人工智能等領域,研究成果往往會先出現在 arXiv 上,再進入期刊或學術會議的正式發表流程。
很多有影響力的論文最初都是發表於arXiv,例如俄羅斯數學家 Grigori Perelman 證明龐加萊猜想的論文。以及2017年發佈的AI領域著名論文,開創如今大模型時代的《注意力即一切》(Attention Is All You Need)。
當然,一個沒有同行評審的平臺,也會有很多有問題的論文,比如2023年引起常溫超導討論熱潮的,來自韓國科學家的論文《首個常溫常壓超導體》(The First Room-Temperature Ambient-Pressure Superconductor)也發表於arXiv。
近年來,AI研究的爆發讓 arXiv的重要性進一步提高。許多機器學習論文在完成後幾乎會立即上傳,隨後再提交到會議或期刊。不知不覺,arXiv已經成爲了學術界的基礎設施。
金斯伯格原本的設想是很快從這一事務中抽身,繼續投入科學研究,可平臺的擴張吞噬了他的時間。
在2011年,也就是arXiv誕生20年之際,金斯伯格曾經打算離開這個平臺,當時他表示“對我而言,這個數據庫本該是一次三小時的旅行,而不是終生事業。arXiv 最初的構想是完全自動化,這樣就不會耽誤我的研究生生涯。然而,每天與其運行相關的管理事務,往往會佔用每個工作日數小時的時間,而且沒有假期可言”。
至於arXiv平臺,金斯伯格也認爲它到了需要變革的關鍵節點,“20年後,看到 arXiv 穩定且成功地運行着一些原始軟件,併爲規模比預期大近千倍的社區提供服務,令人倍感振奮 。但在未來的某個時間點,它需要進行徹底的改革,以緊跟新的在線趨勢和時機[3]”。
02 arXiv與康奈爾大學的分合
儘管 arXiv 在學術交流中扮演着越來越重要的角色,它的組織結構卻一直比較簡單,創始者金斯伯格的個人色彩也很濃。
2001 年,由於當時洛斯阿拉莫斯國家實驗室氣氛緊張,金斯伯格轉去了母校康奈爾大學工作,那時候arXiv已經有了不小的影響力,但還是被帶去了康奈爾大學,由大學圖書館負責運營。從法律意義上說,arXiv 並不是一個獨立機構,而是康奈爾圖書館的一項服務。
大學圖書館看起來很適合運行一個論文平臺,但是隨着平臺的膨脹以及時間的推移,arXiv的本身的運作變得越來越複雜,圖書館也很難給到合適的支持。不說其他的管理難題,就說代碼一項,arXiv誕生於萬維網出現之前,代碼庫不斷堆疊,只是維護運營就是一個很大的工程。
而這個系統最初不過是金斯伯格隨手搭建的,他根本沒料到後來會面臨如此複雜的運維問題。金斯伯格本人並非職業程序員,也不具備程序員的工作習慣,卻長期親自參與代碼維護,同時拒絕與同事或在 GitHub 上共享代碼,這反而把問題搞得更復雜了。
在接受《連線》雜誌採訪時,程序員出身的記者聽到了金斯伯格同事的不少抱怨,於是詢問他是否準備了文檔,以幫助後續開發者理解新的代碼庫。結果他卻回答“真正的程序員是不寫文檔的”[4]。
另外一點就是錢的問題。
2001 年,arXiv 剛剛遷至康奈爾大學圖書館 ,當時年度運營成本定爲 30 萬美元,由美國國家科學基金會(NSF)、美國能源部(DOE)以及洛斯阿拉莫斯國家實驗室提供的資金共同覆蓋 。到了2018年,arXiv年預算已經增長到了143萬美元。
學術出版領域的資深專家、學術出版協會(Society for Scholarly Publishing)前主席肯特·安德森(Kent Anderson)並不看好arXiv的發展,據他測算,arXiv 的直接成本(如開發與維護)和間接成本(如基礎設施、管理)的增長速度都非常快,2010–2018 年平均增速分別約爲 24% 和 18%。這段時間,arXiv共虧損了 74.5萬美元[5]。
從歷年的預算報告來看,arXiv 大體上還能維持收支平衡。但這種平衡很大程度上建立在康奈爾大學承擔大量間接成本的基礎上。例如行政支持、辦公空間和基礎設施等,都由康奈爾提供,並以“實物捐贈”的形式計入平臺的預算。arXiv免費的背後,康奈爾大學一直在爲它付費。
以 2018 年爲例,arXiv 當年的預算約爲 143 萬美元,其中間接成本就接近 45 萬美元。2019 年,arXiv 公佈了自己的資金來源結構。其中康奈爾大學每年爲 arXiv 提供 17 萬美元的直接補貼,並承擔全部間接成本,這部分支持約佔平臺運營總支出的 37%[6]。
另一方面,作爲一個對用戶完全免費的學術基礎設施,arXiv 的收入來源一直相對有限。爲了拓寬資金渠道,2010 年康奈爾爲 arXiv 引入了一套全球圖書館會員制度,向使用量較大的研究機構徵求年度支持。數百所大學圖書館和科研機構根據下載量被劃分爲不同層級,承諾爲期五年的資助,每年繳納 1000 至 4400 美元不等的會員費,用於支持服務器運行和技術團隊的維護。但整體而言,這部分收入的增長始終十分有限。
2019年,康奈爾大學將 arXiv 從學校的圖書館系統,轉移到了學校的計算與信息科學部門。但根據《連線》的報道,幾個月後arXiv 又被交給了其他部門,還換了一位盈利性學術出版背景的新主任,這些變化導致arXiv陷入了動盪,這段時間雙方的合作並不愉快。
直到2022年,西蒙斯基金會(the Simons Foundation)承諾給予資助後,arXiv才從動盪中抽身出來,開始大規模的招聘, 此後還把代碼庫用Python重構了一遍。
2023 年,arXiv 從西蒙斯基金會和美國國家科學基金會獲得了 1000 萬美元的資助[7]。2025 年,運營arXiv康奈爾理工學院獲得了 NASA 和施密特科學公司的 700 萬美元資金[8]。arXiv 目前的年度預算約爲 600 萬美元,擁有約 27 名員工(主要在美國遠程辦公)。
和多年合作的康奈爾大學分開後,arXiv獲得了獨立非營利組織的身份,這也意味着,它不能再依賴大學體系的行政和基礎設施支持。在脫離大學體系的支持後,如何長期維持自身的財務和治理穩定?這是一個娜拉走後怎麼辦的問題。
在肯特·安德森看來,這種變化並非孤例,而是近年來學術基礎設施的一種趨勢。隨着資助的收緊,一些大學正在逐漸從這些理想主義色彩濃厚、但維護成本不斷上升的學術平臺中抽身。類似的例子還包括 2025年冷泉港實驗室將運營十年的 bioRxiv 和 medRxiv 移交給新成立的非營利機構 openRxiv。越來越多的預印本服務器,正在從大學體系中分離出來,轉向獨立的機構治理模式[9]。
在招聘CEO的公告裏,arXiv介紹資金來源時,也並沒有明確提到康奈爾後續會進行實物資助,卻給CEO開出了30萬美元的年薪。這似乎也預示着,曾經生長在大學體系內部的arXiv,正在逐漸轉向一種更加獨立、並依賴基金會和社會捐贈支持的非營利模式。
參考資料:
[1] The Chronicle of Higher Education. (2025).Chief executive officer—arXiv.
[2] Ginsparg, P. (2011).It was twenty years ago today. arXiv.
[3] Ginsparg, P. (2011).ArXiv at 20. Nature, 476, 145–147.
[4] McKenzie, L. (2022).Inside arXiv—the most transformative platform in all of science. WIRED.
[5] Anderson, K. (2019).Examining the finances of arXiv. The Geyser.
[6] arXiv. (2019).arXiv sustainability and funding update.
[7] Cornell University. (2023, October).Research repository arXiv receives $10M for upgrades.
[8] Cornell Tech. (2025).arXiv receives support from NASA and Schmidt Sciences.
[9] Anderson, K. (2025). Bespoke preprint servers fade. The Geyser.