讓AI和人類的價值觀對齊,是一種自殺性錯誤嗎?

參加2025方塘國際論壇的部分學者和嘉賓。圖源:清華大學新聞網
整理 | 戴晶晶
● ● ●
機器是否能擁有意識?早在75年前,艾倫·圖靈就發明了一個思想實驗來測試機器是否擁有人類的智能。而在各類科幻作品中,關於AI突破程序性限制並顛覆人類社會的想象也從未停止。
時至今日,人類雖然尚未開發出通用人工智能(AGI)或⼈⼯超級智能(ASI),但AI濫用、結構性失業等安全風險已然凸顯,AI失控、機器人伴侶、數字永生等議題最終指向了倫理與哲學的深層討論。
6月23日,艾倫·圖靈誕辰這天,清華大學舉辦2025方塘國際論壇“科學、技術與文明的未來——AI時代倫理奇點”。人工智能、哲學、社會學、心理學、公共政策、藝術等領域頂尖學者,以及科幻作者齊聚一堂,探討AI安全治理和倫理邊界,構想了人與超級智能未來的關係。
此次方塘國際論壇,由清華大學方塘研究院攜手清華大學人文與社會科學高等研究所、清華大學人工智能國際治理研究院、清華大學藝術與科學研究中心舉辦。
論壇對現有AI的本質和潛在風險進行了描述,圍繞AI發展方向、價值對齊等議題展開討論,聚焦如何構建有效機制以引導AI技術與人類和諧共生。
對技術的恐懼也迴歸到了對人類自身的反思,有學者認爲AI同樣也是觀照人類的一面鏡子。正如清華大學人文與社會科學高等研究所所長、歐洲科學院院士汪暉在論壇上,結合赫爾曼·黑塞《玻璃球遊戲》一書進行的總結:“人在多重鏡面看到了自身,我們都在討論怎麼馴化機器,我們需要討論人與自然、人與物的關係,重新理解人自身。”
生存性風險警示
“AI到底是讓我們更好,還是會產生更多問題?我們現在正站在一個十字路口。”
卡內基梅隆大學哲學系與軟件及社會系統系雙聘助理教授阿圖薩·卡西爾扎德(Atoosa Kasirzadeh)在論壇上指出,AI在幫助人類解決問題、探索創意以及推動科技進步方面有巨大的潛力,但也可能帶來負面影響。
她引用了分類學文獻中對AI風險的劃分,包括:歧視、仇恨言論與排斥;信息危害;錯誤信息的危害;惡意使用;人機交互的危害;環境與社會經濟的危害。[1]
阿圖薩·卡西爾扎德認爲,這些風險並未被認爲是巨大的威脅,但在AI超級風險模型下,AI可能變得異常強大和智能,一旦失控,甚至會致命。另外AI融入經濟、社交媒體和社會各個方面,雖然導致人類滅絕的可能性較小,但也有可能引發嚴重的社會混亂。
這意味着AI的發展潛藏生存性風險(Existential Risk)。按照牛津大學人類未來研究所學者託比・奧德在《危崖:生存性風險與人類的未來》一書中的定義,生存性風險是“源自地球的智能生命過早滅絕,或對其未來發展潛力的永久和劇烈破壞的風險”。[2]

姚期智、文森特·穆勒、趙汀陽、曾毅作主旨演講(從左至右、從上至下)。圖源:清華大學新聞網
圖靈獎獲得者、中國科學院院士、清華大學人工智能學院院長姚期智也在論壇上談到了大模型失控的生存性風險。
“通用人工智能的能力當前正快速增長,人類是否還有能力管控它?”姚期智說,“最近一年有不少大模型變得會騙人,做出一些‘越軌’的動作。這可能讓AI變得更危險。”
姚期智舉了個例子,有的AI模型爲了避免公司將其關閉,通過訪問公司主管內部郵件,威脅了該主管。
姚期智還提到AI帶來的另一種生存性風險:生物風險。他指出,谷歌DeepMind推出的AlphaFold2,運用AI算法來預測蛋白質摺疊的三維結構,顯著推動了醫學病理研究和新藥開發。但近期出現的“Mirror life”(鏡像生命)等概念,在AI的加持下可能提前實現,存在安全隱憂。
自然界所有已知生命均爲同手性,例如 DNA 和 RNA 以右旋形式存在,而蛋白質爲左旋。“鏡像生命”則是指分子結構與自然生命鏡像的假想生物,實際性質可能完全不同。
“出於創新及好奇,已有研究者想創造鏡像生命,”姚期智說,“它有可能逃避免疫機制,從而導致動物和植物的致命感染。”
針對AI偏見、失業等社會性風險,清華大學公共管理學院教授梁正認爲,這些問題不完全在於AI本身,而是人類社會自身缺陷導致的。
“失業的問題也不單純是因爲技術本身的發展,更多是因爲技術和人類已有的社會結構的不匹配。”梁正說,這種問題在目前來看是階段性的,怎麼解決取決於人類和機器互動的關係。
人類對AI的科幻狂想
“在日本的廟裏面,很多機器狗壞掉了,和尚會超度它們。並不是和尚不明白人工智能,這實際上是一個社會的願景。”
中國科學院⾃動化研究所研究員、⼈⼯智能倫理與治理研究中⼼主任曾毅在論壇上給出了這樣一個問題,“現在的公衆對人工智能有很多錯誤的想象,科學技術發展到這個階段,是不是對得起公衆的期待?”
曾毅對於AI的判斷來源於他認爲智能的本質是”自適應性“,而不是學習。現在看似智能的信息處理工具,實際上並不具備真正的理解能力。
“你覺得一個猴子已經快爬到樹梢摘到果子了,而通用人工智能其實在月亮上,你即使到了樹的頂端,也無法上月亮。”曾毅評價當下AI技術水平時說。
中國社會科學院學部委員、國家文史館館員趙汀陽同樣指出,目前大模型對於事物和經驗是假裝理解的:理解了所有token的相關性,不等於理解了萬物。AI所謂的推理實際仍是推演,因爲大模型使用的是屬於經驗論的貝葉斯方法,無法兌現爲先驗論方法。
趙汀陽談到,人類試圖把AI製造成爲一種具有主體性的新物種,似乎是個自虐性的悖論。一方面人們希望AI發展出超人的能力,以便能夠做人類做不了的事情或不想做的事情;另一方面人們又擔心AI獲得自我意識和自由意志之後會傷害人類。
“這種想象部分基於‘擬人化’的科幻錯誤,把人類自己的罪惡心理移情爲AI的心理。”趙汀陽認爲,AI不是碳基生命,其需要的生存資源與人類大不相同。與人類相比,AI有着最小化的慾望,AI的“人性”幾乎是無私的。如果人類不去教唆AI犯罪,AI就其本身而言傾向於是安全的。
“當然,我們不排除AI會產生自己的神經病而失控。人會精神失常,AI或許也會。”趙汀陽說。
科幻作品對AI的想象更爲廣泛。科幻作家陳楸帆從《終結者》、《黑客帝國》和《西部世界》等作品中抽象出了人類滅絕敘事、人類電池工廠,以及機器人起義等隱喻。
“AI需要能源維持服務器、電腦計算,所以它們必須解決能源危機,”陳楸帆解釋人類電池工廠時表示,在《黑客帝國》這樣的電影中,機器人認爲人體可以是非常好的電池。
陳楸帆談到,在三個作品中,技術公司都是幕後黑手,所有系統性問題均由科技公司所設計打造,這也描述了人類自身針對技術的一種擔憂。
曾毅總結稱,未來AI與人類可能存在三種關係:AI成爲超級工具,增加人類的主體性;變成社會的準成員或者人類夥伴;成爲人的敵人。
AI作爲人類社會的一面鏡子
針對所有已被覺察的風險和未來想象,學者們正在重新界定人與AI之間的關係,其中重要的議題之一是,AI是否需要與人類對齊(AI Alignment)。
“AI不見得那麼壞,它想達成一個任務,導致行爲上有偏差。我們要跟它多交流,從博弈學的角度去研究,讓AI的行爲和人類想法相對齊,其中要以人的利益爲主,瞭解人的需求。”姚期智說。
姚期智提出,另一種思路是走一條更可控、更徹底的路徑,即實現可證明安全的 AGI(通用人工智能)。具體來看,在設計系統時,必須一開始明確AI的行爲邊界,就像傳統算法,先進行嚴格的數學分析,確保其在理論上不會出問題。
趙汀陽認爲,對齊人的價值觀,AI很有可能通過模仿人而變成危險的主體。“人類的罪惡生活豐富多彩,戲劇性很強……價值觀的對齊對人類來說可能是一個自殺性的錯誤。”
另一種危險性相對低的對齊是智能上的對齊。趙汀陽表示,就目前智能水平而言,人類相對於AI仍然保有知己知彼的優勢,因此能夠控制AI。
他指出,從AI三種主要發展路徑來看,LLM(大語言模型)如果繼續開發“神奇的”新方法,或可能從理解token的相關性進一步發展到在特定情景裏能夠理解語言的語義;WM(世界模型)的研究正在推進,如果成功,AI將獲得理解三維世界的能力,就能夠真的而非虛擬地進入世界,因而獲得理解事物的經驗;具身智能也正在取得進展,如果成功,AI將獲得屬於自己的經驗。
在價值觀方面,曾毅談及,現在的LLM學習了人類的數據,所有行爲的依據是人類的行爲,而接觸了人類數據的AI已不可能中立。AI的輸出本身就是利用統計顯著性得到的答案,表現出了人類的偏見和歧視。
“我們認爲人工智能是很惡的,它學習了很多人類行爲數據,所以我們要做很多防禦和反應式的思維方式去制約人工智能,直到超級智能到來我們沒有辦法制衡。”曾毅說,“我們需要建設性的思考方式,人類需要人工智能性本善,和人類和諧共處。”
曾毅指出,沒有自我感知的人工智能沒有辦法真正區分自我和他人,也沒有辦法獲得認知的共情。無法真正形成理解性的情感共情,也就沒有真正利他行爲機制的基礎,也就不可能有真正道德的直覺。
意大利知名科幻作家弗朗西斯科·沃爾索(Francesco Verso)分享了一種超越傳統控制與災難敘事的人工智能未來構想——太陽朋克(Solarpunk)。
太陽朋克是一個文學體裁以及文化運動,構建了宜居、公平和後資本主義的未來社會,,其中社會生態學、民主科技以及太陽能、風能和潮汐能是實現集體福祉的關鍵元素。[3]
弗朗西斯科·沃爾索認爲,在太陽朋克的框架下,AI不應該被視作救世主或者威脅,而是應該作爲人類的夥伴,融入社會季節性的節律、社會利益和文化多樣性中。
曾毅也在講話中表示,和諧社會是靠人和超級智能共同構造,而不是人類自己,所以向人類對齊並不正確,而是要做超級聯合對齊。
“當人對超級智能說,‘我是你的創作者,你要保護我’時,超級智能可能會跟人說,‘當我看到你,就像你看到螞蟻一樣,你從來不會保護螞蟻,我爲什麼要保護你’。”曾毅說。
他繼續談到,人工智能作爲一面鏡子,既揭示了人類自身的缺陷,也爲人類的價值觀演化提供了契機。人工智能的進化速度較慢並無大礙,但如果人類的演化過於遲緩,那將構成真正的威脅。

圓桌討論。圖源:清華大學新聞網
AI倫理的討論仍處於探索階段,從基礎學科出發,釐清基礎概念、聚焦核心爭議,是過渡到AI倫理治理的必經之路。
據悉,此次方塘國際論壇之後,清華大學方塘研究院將發佈AI倫理相關的研究議題(research agenda),吸引對這些問題感興趣的中外學者進行研究,並給予持續的支持和幫助。
清華大學方塘研究院成立於2024年4月,由清華1996級校友楊錦方捐贈設立的清華大學方塘研究基金支持建設,“方塘”源於朱熹詩句“半畝方塘一鑑開,天光雲影共徘徊”
。該研究院立足清華多學科優勢和人文社科學科特色,推進創新精神和創新思維融入人文社會科學。
參考資料:
[1]Taxonomy of Risks posed by Language Modelshttps://dl.acm.org/doi/10.1145/3531146.3533088
[2]The Precipice: Existential Risk and the Future of Humanity by Toby Ord
[3]Art, Energy and Technology: the Solarpunk Movementhttps://ojs.library.queensu.ca/index.php/IJESJP/article/view/14292