首頁娛樂健康美食旅遊體育遊戲搞笑親子寵物歷史文化科學正能量辟謠國風動漫漫畫時尚家居生活健身養生孕產情感星座

鄭慶華：實現人機價值對齊的技術路徑 | WAIC社科分論壇

來源：文匯更新：07-28 05:54

確保人工智能正向賦能科技向善的前提是實現人機價值對齊。對此，我有以下幾點認識：

AI是一種新質生產力。我們已經進入人機混合增強智能的智能社會。AI的本質是賦能。

AI正在影響文化和文明。生成式人工智能技術可能引發文化價值、倫理、知識產權等問題的再思考，特別是由於算法偏見，可能導致語言和文化的多樣性受損。

大模型正在重塑知識生產傳播的格局。如果大模型背後的語料、算法、模型存在意識形態偏見，將對大模型的平權性造成極大影響。

AI正在影響人類的認知邏輯。AI已經具備知識生產和邏輯演繹的能力，正朝着如何具有意識這樣的方向發展。

AI的物化力量在於拓展認知邊界。AI解決了從定性到定量，從模糊到精準的難題，已成爲人類認知的超級顯微鏡、超級望遠鏡和超級計算器，AI實現了知識的外化和工具化。

人機價值對齊有兩方面內涵：一是AI對齊人類，其目的是創建安全、符合人類倫理的人工智能系統；二是人類對齊AI，其核心目標是確保人類負責任地使用AI。人機價值對齊面臨三大技術挑戰：價值的定義理解難；價值的學習推斷難；價值的安全性和魯棒性。對此，可採取以下技術路徑：

路徑1：基於有監督調優的價值觀對齊。利用明確高質量標註數據訓練大模型，讓大模型學習輸入文本和人類標定價值觀標籤之間的映射關係，強化學習讓模型學習人類的價值和偏好。

路徑2：基於反饋強化學習的價值觀對齊。主要思路是定義一套價值觀相關的獎勵信號，在模型內容生成過程中，能夠根據環境中獲得的獎勵或懲罰等反饋信號，不斷調整自身策略，最終輸出符合人類期望的內容。

路徑3：推理階段的價值觀對齊。在模型推理階段嵌入價值觀規則和原則，以指令引導或後處理形式對模型輸出進行動態調整，使得輸出結果符合人類價值觀標準。

（作者爲同濟大學黨委書記、教授，中國人工智能學會副理事長）

相關推薦

請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗：Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題，請確保你的網頁瀏覽器已更新至最新版本。

Scroll to Top