鄂維南院士:回國五年,我的探索與思考
鄂維南,中國科學院院士,北京大學數學科學學院教授。圖源:上海交通大學
撰文|鄂維南
● ● ●
到今年九月,我全職回國已經整整五年。
這五年間,我同時推動了AI for Science、 data-centric AI基礎設施建設,自主可控的工業軟件和工業智能的開發,以志願者身份參與創建交大人工智能學院,並嘗試構建一個高效率、高水平的科技創新機制。
做這些事不是爲了個人的科研,而是希望推動我國在最核心的技術方面實現自主可控,在未來最重要的發展方向上能夠抓住千載難逢的機會, 在智能化時代率先找到最有競爭力的人才培養和科技創新機制。
這些任務中的任何一項都極爲重要,更不要說以個人的力量同時推動幾個事情,難度是可想而知的。除了我的幾個學生,沒有人理解我爲什麼同時做這麼多事情,我也無法向別人解釋。
讓人欣慰的是許多事情都已經開始開花結果。更讓我感到驚喜的是,它們正走到一起,成爲我們“終極目標”的核心組成部分。但回想起來,在具體推動這些事的過程中,一些實際做法大大增加了國家層面失去重要機會窗口的風險,這裏面的經驗教訓值得認真總結。
另一方面,從大學時代起,我就有一個科技強國的夢想。爲了這個夢想,我改行做應用數學,之後又探索了幾十年。我在許多關鍵戰略認識和戰略部署上都走在了時代的前沿,後面的發展也多次證明這些認識和部署是正確的。
但前沿性的認識並不意味着它能夠產生實際效果,其核心是在一個習慣追趕的大環境下,能不能建立起一個有效支持領跑的機制,這樣的機制在科技創新進入快車道的智能化時代是不可或缺的,也是實現科技強國的重要組成部分。
如何建立起這樣的機制?這也是我這幾年一直在思考的問題。這篇文章簡單總結了我這幾年的經歷和對上述問題的一些探索和思考。
此外,寫這篇文章還有一個目的,是想解釋一下這幾年來我的一些做法,包括:對同事,爲什麼我不得不在上海和北京之間跑,多多少少辜負了你們的希望?對朋友,爲什麼許多會議、活動和聚會我都參加不了,以至於落下不食人間煙火的名聲?對身邊的年輕人,爲什麼我對你們要求這麼高、這麼嚴,以至於在許多人眼裏我最主要的工作就是“鞭策”?這些問題一直是壓在心裏的石頭,不吐不快。
此文將會分成上下兩篇,上篇主要談遲到的回國、AI for Science、工業軟件和工業智能和Data-centric AI基礎設施建設四個部分。
下篇會講到交大人工智能學院、爲什麼沒有能夠集中精力做一件事、建立起一個適應智能化時代需求的科技創新機制和我的一點感悟。
遲到的回國
2020年9月17日,我乘坐東航的班機回到了上海。
我很清楚地意識到,這次回來之後,再回美國就不容易了。所以回來之前,我特地到Fine Hall,和我特別喜愛的辦公室、普林斯頓大學數學系和PACM (Program in Applied and Computational Mathematics) 作了告別。我在這裏工作了21年,真的是特別喜歡這裏的工作環境和學術氛圍。因爲是疫情期間,老師和學生都在家裏辦公,所以整個過程沒有碰到其他人。
在上海的隔離期間,我做了三件事情:給普林斯頓大學數學系和PACM寫了辭職信;給四個朋友發了我在飛機上寫的“落地信”,信中講了我的一些設想和工作計劃;學會用PPT準備了一個題爲“數學、科學與人工智能”的報告。這是一個在腦子裏已經盤繞了三年,被我稱爲“科學史上最ambitious的計劃”。
兩週之後,十月一號的晚上(當天也是中秋節),我趕到交大閔行校區,在第二天的“文俊論壇”上做了這個報告。
其實我1985年出國的時候,就是衝着回國去的。爲此,我做了一件被許多人認爲很愚蠢的事情:把F1簽證(自費)換成了J1簽證(自費公派),還因此耽擱了UCLA數學系的部分博士資格考試。
我職業生涯中最關鍵的時間節點是1982年的寒假。回科大前的最後一天,我決定放棄純數學,改行研究應用數學,目的是讓我的工作能夠直接應用於社會,能夠直接幫助到我的國家。由於數學界普遍認爲中國的應用數學不太行,所以我一定得到國外去學。
後來的事實證明這的確是一個極其天真的想法,因爲一直到三十年之後,我都沒有覺得我的工作真的有用。我職業生涯的大部分時間都處在表面上一帆風順、內心裏充滿疑慮的狀態。的確我的工作也有許多人用,但是他們的工作似乎離實際問題還有很大距離。
記得2011年的夏天,我交付了“Principles of Multi-scale Modeling” 這本書的最終版本之後,躺在北大資源大廈辦公室的沙發上,覺得這一輩子應該是做不出真正有用的原創性工作了。既然大數據很重要,我自己也呼籲了許多年,就改行做大數據吧。
真正徹底下決心改行是2014年。從2004年開始我就在國內呼籲大數據算法的重要性。我本人的專業是科學計算中的算法。在當時,這是兩個距離很遠的不同領域(現在它們很近了,部分原因也是來自於我本人的工作),所以我自己並沒有下決心改行研究大數據算法,而是希望其他相鄰領域的專家們重視起來。
但是呼籲了十年,組織了很多會議、討論班,效果甚微。到2014年,大數據已經開始紅火起來,而大數據算法研究在國內卻比較冷清。我感到沒有別的辦法,只有自己徹底轉行,研究大數據中的算法。
這個經歷是到目前爲止我職業生涯中最大的教訓:一件事情如果真的重要,就應該自己去做。希望年輕人不要犯同樣的錯誤。
研究大數據算法,具體來說就是研究機器學習。很快我就發現,機器學習研究的問題跟我的老本行計算數學研究的問題其實是很類似的,都是函數逼近(有監督學習)、概率分佈的逼近和採樣(無監督學習或者生成式人工智能),以及解方程(強化學習)。
但有一個重大區別:例如同樣是圖像問題,計算數學圈子裏只研究單個圖片的處理,如壓縮或去噪,而機器學習圈子裏討論的卻是圖像識別這種涉及到整個圖像數據集的問題。前者是二維問題,後者是我們想都不敢想的極高維問題,原因是“維數災難”(計算複雜度隨着維數的增加而指數增加)。難道做機器學習的人有什麼魔術?很快我意識到,深度學習很可能提供了克服“維數災難”的有效路徑。
這是我職業生涯中最重要的頓悟,因爲它意味着我們可以重塑數學和科學。從數學的角度來說,我們通常研究的要麼是低維空間的數學,如泰勒展開,要麼就是無窮維空間的數學,如泛函分析。高維空間的數學結構是一個極其宏大的新課題。深度學習和人工智能賦予了這個問題非常重要的實際意義。如果我們生活的空間不是3維而是30維,那麼我們一開始就不應該學習多項式和泰勒展開,而是神經網絡。這意味着我們應該圍繞高維情形重構數學。
從科學的角度來說,以前困擾我們的許多問題,其本質困難都來自於維數災難,這在科學計算領域尤爲明顯。在這一點上我的感受可能是最深切的。在我幾十年尋求有實際應用的原創研究課題的探索中,我嘗試了許多不同的領域。我在中科院學的是計算數學,到UCLA之後學習計算流體力學,然後又轉行到材料科學、計算化學、化工、生物學等等。我研究過地球的磁場、太陽表面的對流、磁約束的核聚變、複雜化學反應的理論和計算、超導的理論模型等多種多樣的問題。可以說除高能物理和量子信息以外,很難找到一個理科或工科中的主要理論和計算問題,我沒有花功夫研究過。而所有這些問題最終的難點都來自於“維數災難”。既然深度學習可以幫助我們解決維數災難問題,那麼它必將改變我們做科學研究的方式方法。
2017年春天,我開始清楚地意識到兩件事情:
人工智能將帶來廣泛的影響。因爲AlphaGo背後的原理是具有普適性的,它可以被應用到所有需要決策的場景,而決策是人類最重要的事情。
科技戰已經不可避免,我們要爲應對科技戰做準備。2017年夏天的一個晚上,我一邊看着電視,一邊思考着這些問題,腦子裏逐漸梳理出三個清晰的方向:一是作爲人工智能的基礎,我們必須構建處理“非結構化數據”的基礎設施,把門檻和成本降下來。二是人工智能方法將全面改變我們的科研範式,這是一個前所未有的機會,如果中國抓住了這個機會,它很可能可以幫助我們一下子走到領先的位置。三是作爲一個製造業大國,我們必須構建自主可控的製造業基礎設施——工業軟件和高端裝備。當時覺得高端裝備方面我無能爲力,但是工業軟件的任務必須扛下來。突然之間,我意識到我的科研不僅有用,而且比我設想的還更加有用!
十年推動大數據算法而效果甚微的教訓讓我意識到,與其花精力去說服其他人,還不如下決心帶領年輕人把這些事情都做起來。但突然間這麼多任務一下子壓過來,我內心深處感受到巨大的恐懼,那種恐懼感至今難忘。
其實當時還佈局了第四個項目:宏觀經濟的精準和精細預測。從經濟發展的角度來說,最讓人擔心的就是宏觀層面出現大起大落,它不但影響到經濟體系的運行,同時也影響到消費者和生產者的信心。精準預測能夠幫助我們避免許多系統風險。過去由於受方法和數據的限制,我們很難做到精準精細預測。在大數據和深度學習時代,情況不一樣了,我們可以通過整體建模,利用大量弱信號,來對宏觀經濟作精準精細預測。這是一個非常值得做的事情,我們也做了很多探索,我堅信這是可行的。但由於種種原因,儘管花費了不少精力,這個項目已經被暫時擱置了。
2018年北京大數據研究院的三週年慶典上,我的三個學生,邰騁、張林峯、楊雨成,分別就上面四個題目中的三個做了報告。這些報告沒有引起注意,但它們的內容是很有前瞻性和原創性的。
AI for Science
推動AI for Science,得從培養學生做起。
2017年春天,韓劼羣和張林峯已經在分子動力學方面做出了一些非常好的結果,但是系統推進深度學習在各個領域、各種科學計算問題中的應用,還需要更多人的參與。2017年聖誕節的時候,我召集了我研究生涯中唯一一次全員組會,跟學生們講了兩方面的事情:一是人工智能之於數學,之於科學和之於中國,它意味着什麼?二是人工智能賦能科學研究帶來的機會,只有一百年前量子力學被髮明的時候可以比擬。
2017年底,張林峯和王涵推動成立了DeepModeling開源社區,用於交流人工智能賦能科學的算法方面的成果。
2018年夏天,湯超和我在北大組織了“AI for Science” 內部交流會議。這很可能是國際上第一次使用“AI for Science“的說法。會後我拉着張平文一起去見林建華校長,建議在北大成立 “AI for Science” 研究院。林校長對這個建議很支持,認爲是將來可以“批量出諾貝爾獎”的方向。他還給我們出了一個難題:這個研究院的中文名字應該叫什麼?但林校長不久就退休了,這個建議沒有得到落實。
2018年我還鼓勵張林峯和孫偉傑成立了深勢科技。當時有兩個目的。一是推動真正落地,二是通過企業的融資獲得必要的資金支持。考慮到我整合資源的能力有限,又有許多基礎性工作需要完成,後面這一點是必要的。幾年下來,深勢科技對推動中國AI for Science的發展的確起到了不可替代的作用。
我回國之後的一件重要工作就是宣傳人工智能對科學研究將會帶來的整體影響。我走訪了交大、復旦、科大、北大和清華等五所高校,給學生宣傳AI for Science,又組織了機器學習線上討論會,取得了一定的效果。
但真正有幫助的是另外兩件事情:一是2020年底在北京市的支持下組織成立北京科學智能研究院。這是國際上第一個以 “AI for Science” 爲主題的科研機構。二是2021年國家自然科學基金委交叉學部立項“可解釋、可通用的下一代人工智能方法”重大研究計劃,這是國內第一個系統支持AI for Science 的研究計劃。這兩件事情都是在AI for Science 還沒有得到廣泛認可的情況下做起來的,它充分體現了相關領導的前瞻性眼光。
幾年下來,AI for Science 已成燎原之勢。今年8月份國務院出臺的“人工智能+”行動意見高度重視人工智能賦能的科研範式變革。國內湧現出了一大批非常有潛力的年輕科學家,他們積極參與到了AI for Science 的浪潮之中。一些資深的科學家們也積極擁抱AI for Science, 用人工智能方法推動相關領域的根本性變革。
8月中旬,丁洪、湯超和我一起在大理組織了一個AI for Science的會議,這是一個具有極高水平的前瞻性學術討論。我們非常欣喜地看到一批極具創造力的年輕人站在講臺上,爲聽衆勾畫出人工智能賦能下他們各自領域的未來。
我推動AI for Science的核心目的是利用人工智能帶來的機會,率先推動我國整體科研和研發範式的改變,而不僅僅是解決幾個亮點問題。
要實現這個目標,最重要的就是建立新的基礎設施。科研和研發依賴的方法和工具無非是文獻或已有資料,理論或計算,最終是實驗,這些工具是科研效率的關鍵因素。過去我們讀文獻和學習資料的能力非常有限,理論和計算方法難以處理實際場景的問題,實驗往往是靠經驗和試錯,加上作坊式的組織形式,使得科研和研發的週期長、效率低。人工智能的賦能,能從很大程度上幫助我們突破這些瓶頸。
這些突破意味着我們可以建立起一整套新的科研基礎設施。我們從一開始就把工作重心放在基礎設施建設上。先是從計算工具入手,又逐漸拓展到文獻和實驗工具,並形成了“四梁N柱”的架構。
經過幾年的努力,我們已經建立起了一套比較完整的基礎設施,張林峯、李鑫宇、孫偉傑等年輕人把它命名爲“玻爾科研空間站”。用玻爾的名字,是因爲玻爾是量子力學的先驅者——先有玻爾,後有薛定諤。玻爾空間站已經被全國最頂尖的高校廣泛採用。在此基礎上,上海交大人工智能學院、深勢科技和上海算法創新研究院一起開發了第一個真正意義上的科學基座模型Innovator 和科研智能體SciMaster。儘管它們沒有玻爾空間站完善,但我相信它們不久也將會被科研工作者們廣泛使用,併成爲新一代科研基礎設施中不可或缺的一部分。
應該說,在AI for Science基本設施的佈局上,我們是比較超前的。國外一直到剛剛出臺的“創世紀計劃”中才真正認識到基礎設施的重要性,其主要思路也基本上沿用了我們一直在推進的路線。不過創世紀計劃的力度還是相當可觀的。
跟大模型情況不太一樣,我國AI for Science的發展走了一條相對比較獨立的路徑。目前已經初步形成了一個完整體系:玻爾空間站和SciMaster兩大入口級平臺;以科大機器化學家和嘉庚實驗室大設施爲代表的規模化、自動化實驗裝置;以及以植物星球、材料基因組工程、藥物設計、數字細胞、人類蛋白組計劃、有機合成、智能化儀器設備、催化、民用航天發動機、核聚變等爲代表的典型應用場景。智能化改造已經成爲許多理論和實驗團隊的剛需。最爲令人欣慰的是一大批年輕人成爲了骨幹力量,他們正在用他們的工作來改變他們所在的領域,許多人在各自的領域中已經走在了國際前沿。
隨着基礎設施的逐漸成熟和AI for Science理念的高度普及,AI for Science 的重點應該回到科學問題本身,科學家應該成爲主要推動者。另一方面,生產力的提升必將推動生產關係的改變。人工智能時代的科研組織形式應該是什麼樣子的?這些問題將會成爲AI for Science 發展的中心問題。
在推動AI for Science的過程中,我們得到了許多人的支持。這裏就不一一把他們的名字列舉出來,但是我從內心裏感激他們。
隨着AI for Science 逐漸成爲新的熱點,許多令人擔憂的事情也開始出現。最爲令人擔憂的是資源配置的不合理,例如,許多有能力的年輕人並不處在有利位置,而他們纔是推動AI for Science發展的主力軍。資源的錯誤配置帶來的不僅僅是資源浪費,還有可能是方向性的誤導。
我個人堅定地認爲,AI for Science是中國科技創新歷史上最好的機會,沒有之一,但這是以理性的資源配置作爲前提的。如果我們不迅速解決資源配置的問題,我們將失去這個千載難逢的機會。
工業軟件和工業智能
對中國這樣一個製造業大國來說,工業軟件是基礎中的基礎,核心中的核心。就我從事的科學計算領域來說,最直接的應用就是工業軟件。所以工業軟件是我最早注意到的應用場景。但軟件實在不是我的強項。十幾年前我就開始找人討論工業軟件的問題。由於各種原因,這些討論都不了了之。2017年,我意識到工業軟件的問題已經不能再等了,就找到科大的楊周旺教授,建議他立即着手開發工業軟件的幾何內核。他當場表示,他退休前一定要把幾何內核搞定。
幾何內核是工業軟件的基礎。我國計算幾何方面的人才比較缺乏,願意下決心做出商業上可用的幾何內核的人更是寥寥無幾。而我國在微分方程求解(即CAE的核心)方面的人才比較多。所以如果幾何的問題解決了,我們就不太怕斷供了。
八年下來,楊周旺帶領開發的九韶內核已經發布了五個版本,成爲國際五大商用幾何內核中的一個。三百多萬行的代碼都是他們團隊自己寫的,基本覆蓋了商用內核需要的所有功能。九韶內核已經被應用到許多場景,包括飛機、汽車在內的高端應用場景。現在九韶團隊的工作重心已經轉移到如何在九韶內核的基礎上開發CAD、CAE、CAM等軟件,建立“九韶生態”。
製造業的另外一個根基是機牀。機牀有硬件和軟件部分,其中高端數控系統仍然是一個卡脖子問題。經過一段曲折的過程,我們和通用技術集團機牀工程研究院上海分院形成了合作,開發高端數控系統。現在算法方面的工作已經基本完成,也開發了數控系統原型,並完成了初步的加工測試。這得感謝通用技術集團的支持,也得感謝我的學生和博士後胡衛、龍吉昊和趙振華。他們從零開始,頂着發表論文、爭取帽子、前景不明等多種壓力,全身心地投入到這項工作中。胡衛和龍吉昊從普林斯頓大學回國的時候,沒有提出任何要求也沒有安排好的工作在等着他們,只是抱着爲國家做事情的決心。另外一個學生楊泓康也是這樣,他們的精神真是讓我感動。
工業管理智能化是製造業的另外一個新的發展空間。它同樣是一個困難問題,因爲製造業場景多種多樣,而且異常複雜。顧敏潔帶領的品見團隊抱着把每一個項目都挖掘到極致的態度,啃了一個又一個硬骨頭,現在終於開始摸索到一條比較通用的技術路徑。
經過這些基礎性工作,推動AI for Manufacturing的條件已經開始成熟。我自己也會把更多精力放到這個方向上來。這是解決我國高端製造業難題的極好機會。
Data-centric AI 基礎設施建設
十年前,我牽頭組織了一個“非結構化數據分析”973項目。這個過程讓我充分認識到,非結構化數據(例如文本、圖像、語音、視頻)是人工智能發展的核心資源也是核心困難,非結構化數據處理的成本和門檻是人工智能能否成功落地的關鍵。
與此同時,邰騁和湯林鵬在指紋識別方面取得了革命性突破。他們在少量人工標註數據的基礎上,利用基於深度學習的特徵提取和迭代改進(我把這個想法稱爲“墨奇算法“),使指紋識別的效率和準確率有了幾個數量級的提升,幫助有關部門以極低的成本建立起了幾十億級指紋管理的大庫。
我們很快意識到,上述方法不僅適用於指紋,它其實適用於一般性的非結構化數據,其核心是構建一個非結構化數據庫(現在通常被稱爲AI數據庫,向量數據庫是一個特例),它能夠在同一個系統中管理各種不同模態的數據,並進行高效率聯合查詢,比方說用語言搜索圖片或者用圖片搜索圖片。這之前已經有了向量搜索工具,但還沒有完整的向量數據庫,更別談一般性的AI數據庫。邰騁和湯林鵬帶領的團隊在國際上最早提出AI數據庫的概念 (2018年)並開發了第一個AI數據庫。這是一個了不起的貢獻。
有了這樣的數據庫,我們就可以低成本、低門檻地開發滿足特殊需求的AI模型,例如許多任務只需通過簡單的搜索就完成了。有了許許多多這樣的小模型,我們只需要一個操作系統來管理和調度這些小模型就可以了。2020年我們就開始推這樣的框架。這其實就是現在智能體的應用框架,只不過現在的框架都是基於大模型底座的。
大模型的興起表明人工智能創新的重心由模型逐步轉向數據。在以模型爲中心的時代,AI行業建立起了一整套相應的基礎設施,如TensorFlow這樣的工具,它讓我們能夠低門檻、高效率地探索不同的模型架構。TensorFlow出現之前我們探索不同的模型架構只能靠人工、靠經驗、靠試錯。現在在數據方面的探索就是這樣。這個成本極爲巨大,也·是人工智能在企業落地的最大障礙。要解決這個問題,我們就必須建立起一整套數據層面的工具平臺。這是張文濤團隊開發DataFlow的出發點。DataFlow可以讓人們像用TensorFlow 玩模型一樣來玩數據。它對人工智能工具開發的平民化和人工智能在企業的落地都會起到關鍵作用。
AI 數據庫和DataFlow 這樣的工具平臺將成爲數據方面的基礎設施,就像GPU、 CUDA和TensorFlow等一起組成了算力層面的基礎設施一樣。現在大家對算力層面的基礎設施有了充分的認識,但對數據層面的基礎設施還缺乏足夠重視。
篇幅所限,上篇暫告一段落。下篇將於近日推出,敬請期待。