鄭慶華:實現人機價值對齊的技術路徑 | WAIC社科分論壇

來源: 更新:

確保人工智能正向賦能科技向善的前提是實現人機價值對齊。對此,我有以下幾點認識:

AI是一種新質生產力。我們已經進入人機混合增強智能的智能社會。AI的本質是賦能。

AI正在影響文化和文明。生成式人工智能技術可能引發文化價值、倫理、知識產權等問題的再思考,特別是由於算法偏見,可能導致語言和文化的多樣性受損。

大模型正在重塑知識生產傳播的格局。如果大模型背後的語料、算法、模型存在意識形態偏見,將對大模型的平權性造成極大影響。

AI正在影響人類的認知邏輯。AI已經具備知識生產和邏輯演繹的能力,正朝着如何具有意識這樣的方向發展。

AI的物化力量在於拓展認知邊界。AI解決了從定性到定量,從模糊到精準的難題,已成爲人類認知的超級顯微鏡、超級望遠鏡和超級計算器,AI實現了知識的外化和工具化。

人機價值對齊有兩方面內涵:一是AI對齊人類,其目的是創建安全、符合人類倫理的人工智能系統;二是人類對齊AI,其核心目標是確保人類負責任地使用AI。人機價值對齊面臨三大技術挑戰:價值的定義理解難;價值的學習推斷難;價值的安全性和魯棒性。對此,可採取以下技術路徑:

路徑1:基於有監督調優的價值觀對齊。利用明確高質量標註數據訓練大模型,讓大模型學習輸入文本和人類標定價值觀標籤之間的映射關係,強化學習讓模型學習人類的價值和偏好。

路徑2:基於反饋強化學習的價值觀對齊。主要思路是定義一套價值觀相關的獎勵信號,在模型內容生成過程中,能夠根據環境中獲得的獎勵或懲罰等反饋信號,不斷調整自身策略,最終輸出符合人類期望的內容。

路徑3:推理階段的價值觀對齊。在模型推理階段嵌入價值觀規則和原則,以指令引導或後處理形式對模型輸出進行動態調整,使得輸出結果符合人類價值觀標準。

(作者爲同濟大學黨委書記、教授,中國人工智能學會副理事長)

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top