Codex 這次最值得關注的變化,不是又多了一個普通按鈕,而是它開始往「控制電腦」這個方向走。
以前我們使用 AI,更多是在聊天框裡提問、複製、貼上、再手動操作軟體。
現在這個邊界開始往外擴:AI 不只是回答你,而是可以根據你的目標去操作桌面應用。
這件事短期看是一個新功能,長期看可能會改變很多人使用電腦的方式。
這個功能是什麼
簡單說,Codex 的電腦使用能力,就是讓它能接觸並操作桌面環境。
它可以做的事包括:
- 可以選擇並控制某個應用
- 可以用自然語言下達任務
- 可以打開瀏覽器、AI 工具、本地文件或其他軟體
- 可以輸入內容、點擊按鈕、等待結果
- 可以把多個步驟串成一個任務
- 可以在後台繼續執行,不需要使用者每一步都手動跟著
它的定位不是單純替你寫一段文字,而是替你完成一段操作流程。
這就是 Agent 和普通聊天機器人的關鍵差別:
聊天機器人主要給答案,Agent 更接近「拿到目標後去執行」。
為什麼這件事重要
過去很多自動化都要求你會寫腳本。
比如你想完成一個跨軟體流程:
- 打開網頁
- 找資料
- 複製內容
- 交給另一個 AI 工具處理
- 保存文件
- 再打開本地目錄檢查結果
如果要自動化這件事,傳統做法可能是寫瀏覽器腳本、調用 API、寫本地程序,甚至還要處理各種軟體窗口。
但很多普通使用者不會寫這些東西。
就算會寫,也未必值得為一個臨時任務專門寫腳本。
電腦使用能力的意義就在這裡:它把「腳本能力」往自然語言方向推了一步。
你不一定要告訴它每一步怎麼點。
你可以告訴它你要什麼結果,讓它自己去嘗試完成。
它能改變哪些工作流
我覺得最先被改變的,不會是特別嚴肅、特別高風險的工作,而是那些「煩、雜、重複、但又不值得專門寫程序」的流程。
1. 跨軟體搬運
最典型的就是在多個軟體之間搬資訊。
以前你可能要在瀏覽器、文檔、聊天窗口、本地資料夾之間來回切。
以後可以把這類任務交給 Agent:
- 去找某類資料
- 匯總成文檔
- 保存到指定目錄
- 打開結果給你確認
這類工作不難,但很耗注意力。
Agent 的價值就是把這些碎操作吃掉。
2. 多個 AI 工具協同
現在很多人的真實工作流已經不是只用一個 AI。
可能是:
- 一個工具寫程式碼
- 一個工具查資料
- 一個工具生成圖片
- 一個工具整理文檔
以前這些工具之間靠人手複製貼上。
以後 Agent 可以成為中間層:它負責打開工具、傳遞上下文、等待輸出、整理結果。
這會讓「多個 AI 協同」從手工流程變成半自動流程。
3. 辦公軟體自動化
表格、PPT、文檔、郵件,這些軟體都有一個共同特點:功能很強,但很多操作很碎。
如果 Agent 能穩定控制這些軟體,以後的辦公自動化門檻會明顯下降。
你不用記選單在哪裡,也不用學複雜快捷鍵。
你只需要說清楚目標,比如:
- 把這份表格整理成月報
- 根據這份文檔做一頁總結
- 把這些資料合併成一個結構清楚的說明
真正麻煩的按鈕操作,會逐漸被隱藏到自然語言後面。
對普通使用者意味著什麼
對普通使用者來說,這類功能的影響可能比「模型又聰明了一點」更直接。
因為它降低的不是知識門檻,而是操作門檻。
很多人不是不會表達需求,而是不知道軟體裡該點哪裡、怎麼組合功能。
Agent 如果能接管這部分,人使用電腦的方式就會變成:
|
|
這比單純聊天更接近真實生產力。
對軟體形態的影響
如果這類 Agent 能力繼續成熟,軟體本身也會被反向影響。
過去軟體設計主要服務人類點擊。
以後軟體可能還要服務 Agent 操作。
這意味著:
- 介面元素需要更清晰
- 操作回饋需要更穩定
- 本地權限需要更細
- 軟體可能會提供更適合 Agent 調用的介面
- 使用者會更在意「能不能被 AI 順利操作」
長期看,應用之間的邊界可能會變薄。
使用者關心的不再是「我打開哪個軟體」,而是「我要完成什麼任務」。
現在還不能過度樂觀
當然,現在還不到完全放手的時候。
這類能力目前還有幾個明顯限制:
- 穩定性還需要觀察
- 複雜任務可能中途出錯
- 權限邊界必須謹慎
- 涉及帳號、支付、刪除文件等操作不能隨便放權
- 額度消耗也不是完全可以忽略
所以現階段最合適的用法,不是讓它完全接管電腦,而是讓它處理低風險、可檢查、步驟繁瑣的任務。
比如:
- 整理資料
- 生成草稿
- 跨工具搬運內容
- 打開和檢查文件
- 做一些可以人工複核的半自動流程
最後一句
Codex 這次更新真正重要的地方,是它把 AI 從「回答問題」推向了「操作環境」。
短期看,它是一個電腦使用功能。
長期看,它可能是個人電腦互動方式的一次轉向。
以後我們使用電腦,可能會越來越少地記按鈕、找選單、切窗口。
更多時候,我們只需要說清楚目標,然後讓 Agent 去執行,再由人做最後判斷。