終於來了,OpenAI的智能體,但這次掌聲不多

來源: 更新:

我們終於等到了 OpenAI 的智能體(Agent)了。


今天凌晨,Sam Altman 親自帶隊發佈了 ChatGPT 的通用型 Agent 模式。



比起當年 ChatGPT 帶給所有人的震撼,姍姍來遲的 OpenAI Agent 少了很多驚喜,因爲早在年初我們就見到了類似的產品形態——當時“一號難求”的 Manus,以及 Minimax、Kimi 等陸續發佈的相似產品。


“起大早,趕晚集”,技術強大如 OpenAI,也難免有卷不過的時候。


OpenAI 的 Agent,您終於來了


這年頭髮布 AI 產品,“驚喜”和強大往往是兩回事——畢竟是 Open AI。


在產品的直播演示裏,這款 Agent 展示出的能力還是令人期待的——Agent 模式可以自己訪問網頁、調用終端、自動下單,執行從旅行規劃、PPT 製作到圖像生成與在線購物的整套流程。



據介紹,ChatGPT Agent 即日起向 Pro、Plus 和 Team 版用戶開放,Enterprise 和 Education 版用戶將於 7 月獲得使用權限。Pro 版用戶每月 400 次,Plus 和 Team 用戶每月 40 次。


爲了實現從“Chat”到“Agent”的表現,OpenAI 結合了 Operator(視覺層交互代理)和 Deep Research(多步驟網頁推理)兩項核心研究成果,一個是“手腳”一個是“大腦”來共同完成任務的拆解、思考、行動的閉環。


這需要三大模塊工具的支持:1。 文本瀏覽器 (Text-based Browser)來處理密集型網頁閱讀任務,提取信息;2. 可視化瀏覽器 (Text-based Browser),實現在圖形界面中操作鼠標點擊、輸入、截圖等;3. 終端工具 (Terminal),來運行代碼、生成文件、調用 API、與其他系統集成。



據 OpenAI 介紹,這款 Agent 不僅能執行,還能評估執行效果,並在每一步中動態選擇最優路徑。而用戶可以隨時插話調整指令,或臨時接管任務進程。


其實拆解任務和優化任務一直是 Agent 的一個難點。我們可以把 Agent 想象成一個小團隊,有產品、品牌、數據,現在用戶作爲老闆下達了一個指令:給我設計一款年輕人喜歡的手機殼。然後大家開始分頭行頭,市場做調研、品牌做推廣,數據盯反饋。


不過這個過程中,大家不免會有衝突,有逾矩,比如市場調研市場可以去發調查問卷,數據部也可以看大數據報告,到底誰來做最高效?所以好的 Agent 總是能自我優化,追求最快、最好。


Agent 這麼火?它和 Chatbot 有啥區別?


ChatGPT Agent 和 ChatGPT 到底有什麼區別?


基本的解釋是:Agent 可以完成任務,Chatbot 可以完成對話。這個“任務”和“對話”到底有什麼分別?



舉個很簡單的例子,我現在要決定今天中午喫什麼,我可能會考慮類型、距離、口味,並在最後定一家外賣下單,這就是一個 Agent 式的任務;而一個 Chat 式的任務是,當我已經決定喫日料,我來問:最短距離哪家日料評分最高。


說白了 Agent 能完成的任務,更復雜、更高維、需要更多的工具。


比如,在 OpenAI 的演示裏,操作員讓 OpenAI Agent 挑一套適合參加婚禮的禮服和禮物。Agent 先用文本瀏覽器打開用戶給的網頁信息確認婚禮的日期、天氣、位置,然後用可視化瀏覽器展示可選的禮服效果,之後再繼續搜索禮物……



另一個操作員交代的任務是給團隊一隻叫 Bernie 的狗狗,也是團隊吉祥物做一批筆記本貼紙,並且訂購 500 份郵寄到相應的地址。


Agent 先是用終端工具 Imagen 生成動漫版圖片,設計貼紙然後再訪問 Sticker Mule 網站,把設計好的圖上傳到網站,填寫了貼紙數量、尺寸等等,選擇訂購 500 分,任務最終停留在請求信用卡信息上。

做 PPT,也是一個很典型的 Agent 式任務。


OpenAI 團隊演示了讓 Agent 從 Google 雲中提取分析評估數據並製作成 PPT,直接用圖表展示結果。Agent 鏈接 Google 雲 API 進行搜索,並讀取相關內容信息,然後使用圖像生成功能,在生成一次 PPT 後,Agent 進行了一次優化,生成了一張視覺上更流暢的 PPT。


咋就遲到了?


奧特曼想做 Agent 不是一天兩天了。


其實 OpenAI 早就公佈過自己的“五級路線圖”,一級 Chatbots(聊天機器人)、二級 Reasoners(推理者)、三級 Agents(代理)、四級 Innovators(創新者)、五級 Orgnazations(組織者)。


Agents 作爲第三級是整個 AI 進化路徑中,讓 AI 從工具屬性躍升到創新屬性中必經的一環。


只不過奧特曼不是第一個發出 Agent 產品的。



今年 3 月, Manus 推出通用 Agent 產品,當時一夜之間大家全都在“萬能的朋友圈”求測試賬號,一個賬號甚至最高炒到了一百萬。


Manus 借勢 Agent 東風更快速推出產品的很大一部分原因是他們沒有自研大模型,而是用 Claude 等底層基礎大模型來實現產品功能 ,並將各類功能組合封裝,當時業內也稱 Manus 是一款“套殼”產品。


Manus 之外,MiniMax、Kimi、Perplexity AI 都更先發布了通用 Agent 形態的產品。


所以說,OpenAI 這把推出 Agent 其實是缺乏了先發優勢的,從 ChatGPT 到 Agent,OpenAI 在行業中的位置也從“搶先跑”到了“趕班車”。


除了時間壓力,OpenAI 還不能忽視兩方面的競爭壓力——生態競爭、成本競爭。


一直以來重閉源的 OpenAI 在今年接連受到來自各類競品的打擊。比如 Deepseek,訓練成本是自己的二十分之一,性能表現卻跟自己產品差不多,本來靠閉源 API 商業化做到全球第一的 OpenAI 眼看着英偉達、英特爾、亞馬遜、微軟、AMD 等等科技大廠全部接入 DeepSeek,這讓奧特曼都直接公開反思“閉源策略可能是個失誤”。


成本優勢勢必會帶來生態優勢,這樣的商業規律並不會在 AI 市場上失效。


而即使 OpenAI 在產品上保持優勢,那些“差不多,但便宜很多”的競爭對手的集體圍剿也會讓他體會“被瓜分”的痛——這一點,奧特曼可以和一直陰陽他的馬斯克談談心。


關於 Agent 的想象力,纔剛剛開頭


要我說,人類對 Agent 的開發不足 1%。


Agent 的出現和成熟可以完全顛覆一代人。就像互聯網的出現對 90 後的影響,AI 的出現將會影響整個阿爾法世代。



從商業化的角度來看,目前大家對 Agent 最多的討論就是場景化的難度。因爲達到了可以“行動”的 Agent 勢必涉及到跨應用的調用,比如在上述貼紙訂購的演示裏,網購平臺的調用權限就必不可少。


但在我看來,這就像當時我們無法想象淘寶怎麼說服店家上線一樣,AI 時代應用的互通只是時間問題。


作爲在這種大勢之下的用戶,我們其實更應該思考的是 Agent 對我們,以及後代在生活方式的轉變——


設想一下,七八歲的孩子們從校門湧出,下午四點父母們還在工作,門口接孩子們的不是爺爺奶奶,也是接入了 Agent 的機器人,Agent 是媽媽們訓練出來的,到了家,Agent 早就打開了空調,房間的溫度正好。等到快要七點的時候,Agent 開始指揮炒菜機器人做飯,等着下班的爸爸媽媽。


再設想一下,一個對星座塔羅感興趣的上班族想要搞個占星副業,Agent 直接蒐集各種語言的占星資料翻譯成中文,提取摘要做成報告,順便指定一份學習計劃。然後開始蒐集文案引流靈感、做成海報發佈在社交賬號幫忙攬客。


再看 OpenAI 的“五級路線圖”,Agent 不僅是 AI 從思考到行動的拐點,更是 AI 從被動到主動的拐點,當 AI 從工具化逐漸擬人化,人類的命運也將徹底改寫。


作者:沙拉醬

編輯:臥蟲

內文插圖均來自 OpenAI

封面圖來源:Unsplash


本文來自果殼,未經授權不得轉載.

如有需要請聯繫[email protected]

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top