數據“鎖在家裏”,AI難爲無米之炊!傳統開源模式失靈,更高階“開放”在哪



熱度空前的世界人工智能大會(WAIC)餘溫未散,上海再迎盛會。8月2日至3日,2025 CCF中國開源大會(以下簡稱“開源大會”)在滬召開。
現身此次會議的宇樹科技創始人王興興給出一則判斷:具身智能要在陌生場景中真正服務於人,需實時生成各類動作。他認爲,目前,機器人整機硬件已夠用,但具身智能大模型仍有巨大缺口,正“期待一個屬於機器人的ChatGPT時刻”。可以說,精確數據的獲取難度,也是當前具身智能機器人升級所面臨的難題。
包括王興興在內,多位與會專家學者不約而同將討論的熱點聚焦於人工智能(AI)時代繞不開的核心話題——開源。
AI時代,開源有何重要意義?又面臨哪些困境與挑戰?突圍之路又在何方?

AI重塑開源版圖:共享協作推動技術普惠
所謂開源,就是公開代碼供所有人查看、使用、修改與再分享,其“共享、協作、透明”的精神不僅影響軟件領域,更延伸至教育、科研、硬件(如開源芯片)等領域,鼓勵通過集體協作解決問題,推動技術普惠。
AI時代,爲何開源至關重要?中國工程院院士、清華大學計算機系教授鄭緯民介紹,AI大模型的生命週期一般包括五個環節,其中,數據獲取、預處理與模型訓練前三個環節需海量數據與算力,成本高昂,非一般公司能負擔。而開源,則有望讓小公司也能直接基於大公司的模型,跳過前三個環節,專注於模型微調和推理。
另一方面,AI的進步依賴 “不斷試錯、持續優化”。一個模型需經無數場景測試,單靠一家公司難以窮盡。所以,開源能讓全球開發者共同“找茬”、協同改進。正如中國科學院院士、南京大學教授呂建所言:“開源決定規模,規模決定湧現,湧現成就顛覆。”
開源大幅降低了互聯網技術的使用成本,讓小公司、個人開發者得以參與到技術浪潮中,催生出更多新想法、新服務。上海交通大學校長、中國科學院院士丁奎嶺也指出,開源不僅是當前全球科技創新的技術風尚,更是推動開放發展、共同發展的重要路徑。

若數據不開放,AI開源就不是真正的開源
AI在持續迭代的過程中,數據尤其核心。“AI正在經歷從‘模型中心’向‘數據中心’的範式轉變。” 中國科學院院士、北京大學教授、上海交通大學人工智能學院首席顧問鄂維南指出,高質量、高效率的數據基礎設施是降低AI落地門檻的關鍵。
作爲人口大國,數據本是我國的優勢。但在此次論壇上,多位與會的專家都提及一個共同的現實困境:一方面,數據作爲企業核心資產,價值愈發被重視;另一方面,隨着公衆數據保護與安全意識的提升,大量數據因“安全考慮”無法公開。“我國大數據建設推進多年,卻在一些領域出現了‘倒退’跡象,甚至不少數據即便收集完成、研究有了成果,落地卻杳無音信。”
“所謂的AI開源,若數據不開放,就不是軟件開源所定義的開源。”中國科學院院士、北京大學教授梅宏解釋道,即便大模型參數公開,若外界沒有相同的訓練數據,也難以復現其能力,更談不上迭代創新。當AI的核心生產資料——數據,因商業價值與安全合規問題被“鎖在家裏”時,傳統開源模式便陷入了“無米之炊”的困境。

從“開源”到“開放”,亟需共建新生態
面對AI時代的挑戰,傳統開源模式漸顯乏力,破題抓手在哪裏?多位專家認爲,當務之急是構建一個更高維的“開放”解法。
開放數據的核心是“數據資源的有條件共享”。回顧人類的數據開放史,本身就是從封閉走向分層開放的進化過程。所以,從開源到開放,並非倒退。例如,互聯網早期“黃頁”都主動公開電話號碼,而現代隱私保護法則要求“最小必要”等原則,這不是倒退,而是數據管理的升級。
開放數據通常附帶場景限制,如禁止商業濫用、需脫敏處理,且不允許修改原始數據,目的是釋放數據價值以支撐AI訓練與科研分析。以醫療數據爲例,需去除隱私信息後開放,且僅限科研使用,不得修改原始屬性。
如專家們所說,“開放更具有長遠的價值”,其範疇涵蓋標準、API、平臺等多個維度。AI時代,開放架構(如分層接口標準化)比單純開源代碼更易推動二次創新,適配AI快速迭代需求。
中國工程院院士、中國工程院原副院長陳左寧指出,AI時代,設計精良的“開放架構”可能比完全公開的源代碼更有意義。從“給代碼”到“給接口、給標準、給合作框架”,將能讓不同創新者在各自擅長的領域(如底層硬件適配、上層應用開發)便捷接入與貢獻,大幅降低協作門檻,構建高效創新生態。
2025 CCF中國開源大會由中國計算機學會(CCF)主辦、上海交通大學和CCF開源發展技術委員會承辦。