從對話到執行,“AI白領”將超越人類白領嗎

來源: 更新:

大模型的競爭絲毫沒有冷卻的跡象,OpenAI日前又甩出一個“王炸”——GPT-5.4,這是其首次將前沿推理、編碼與智能體能力整合於單一模型,官方認爲它是“目前面向專業工作推出的能力最強、效率最高的前沿模型之一”,標誌着AI技術從對話交互向自主智能體執行任務邁出關鍵一步。而這一趨勢從這兩天OpenClaw的全網爆火也可見一斑。OpenClaw不僅是對話機器人,更是一個能自主判斷、決策、執行任務的AI生命體。截至目前,國內互聯網大廠已紛紛跟進,騰訊電腦管家昨天上線AI助手工具QClaw官網,火山引擎則上線ArkClaw——開箱即用的雲上SaaS版OpenClaw。

當智能體開始在人們入睡後幫忙處理各項事物,今年AI會給世界帶來多大顛覆,值得期待。

AI比人類更會操作電腦

GPT-5.4最具突破性的創新在於其原生計算機使用能力。此前,無論是ChatGPT Atlas還是AutoGPT類智能體,均採用外掛插件或獨立智能體模式,並非模型原生功能。

OSWorld-Verified是當前最權威的“計算機使用”評測基準,它測試AI代理如何通過截圖觀察、鼠標鍵盤操作來完成任務,包括文件管理、網頁瀏覽、辦公軟件、多應用協作等場景的369個真實世界任務。GPT-5.4在該評測中取得75%的任務成功率,首次超過72.4%的人類平均水平。

在另一款評估工具GDPval上,GPT-5.4的表現同樣亮眼。GDPval是OpenAI於去年9月推出的評估工具,其獨特之處在於評測“明確任務下的交付質量”,而非簡單的問答能力。評分採用同職業專家盲評對比——將“模型交付結果”與“人類專家交付結果”並列盲審,由同職業專家評判優劣。結果顯示,GPT-5.4在83%的任務中表現等於或優於人類專家,尤其在投行級電子表格建模、演示文稿生成和法律文書撰寫等任務上,領先優勢更爲明顯。

智能體時代加速到來

“SeeDance2.0、OpenClaw、GPT-5.4……彷彿又回到了GPT-4剛發佈時的那種感覺,每天都有新變化,應接不暇。”上海人工智能研究院技術中心主任林圓圓的一句玩笑話,道出瞭如今AI賽道上“你追我趕”的現狀,每支隊伍都鉚足了勁,一次更新就能引來業內格局變動。

行業的範式轉移已顯現。今年初舉行的清華大學AGI-Next峯會明確提出,大模型競爭已從“對話”階段轉向“智能體”階段,執行能力在下半場競爭中至關重要。2月,OpenAI首席執行官山姆·奧特曼宣佈OpenClaw創始人‌彼得·斯坦伯格加入OpenAI,致力於推動下一代個人智能體的研發。

外號“小龍蝦”的OpenClaw是當下最火爆的AI項目。3月1日,OpenClaw以24.5萬顆星登頂GitHub榜首,超越長期佔據榜首的Linux和React。奧特曼評價道:“‌彼得是一位真正的天才,他對未來高度智能的智能體如何協作以服務人類有着許多令人驚歎的構想。”

這一人事變動對GPT-5.4的發佈產生直接影響。有開發者觀察到,GPT-5.4的多項核心功能——原生電腦操控、100萬token上下文、工具搜索帶來的47%token成本節約,恰好踩中了OpenClaw的技術痛點。

大模型進入差異化競爭

GPT-5.4固然強大,但強大亦有邊界。綜合來看,它在專業工作場景,特別是金融分析、辦公自動化、知識工作中展現了顯著的能力提升,但在編程能力上落後於Claude Opus 4.6,在科學推理上落後於Gemini 3.1 Pro,在醫療健康領域甚至出現小幅退步。另外,儘管GPT-5.4在OSWorld-Verified測試中確實超越了人類基準,但這只是在特定的369個任務上,且測試環境是可控的虛擬機。在更復雜、更開放的真實場景中,AI與人類的表現差距可能截然不同。

如果說3年前的大模型還在同一條跑道上競爭,那麼,如今已很難用同一把標尺來衡量“各懷絕技”的大模型了。正如一位業內人士所言:“不再有‘最好的AI’——想操控電腦、做PPT、跑知識工作?選GPT-5.4;想寫代碼、跑智能體、做複雜開發?選Claude Opus 4.6;想要最強推理、圖片視頻理解、最大上下文、最低價格?選Gemini 3.1 Pro。”

價格肯定是不得不考慮的因素。GPT-5.4的輸入價格達到30美元/百萬tokens,是Claude Opus 4.6的6倍、Gemini 3.1 Pro的15倍、MiniMax M2.5的100倍,相當於對GPT-5.4 Pro說一句“嗨”,模型思考5分鐘就可能花掉80美元。

林圓圓認爲,大模型的競爭最終將歸於算力。人工智能大模型的快速發展對高性能算力提出空前需求,算力預計還有成百上千倍的增長空間。正在舉行的全國兩會上提出,今年國內將在包括電網、算力網、新型通信網等在內的“六張網”等重點領域投入超過7萬億元,這一佈局意義重大。

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top