Codex 開始控制電腦,對以後意味著什麼?

介紹 Codex 電腦使用能力的核心功能,並從工作流、軟體互動和普通使用者使用電腦方式的角度,分析這類 Agent 能力以後可能帶來的影響。

Codex 這次最值得關注的變化,不是又多了一個普通按鈕,而是它開始往「控制電腦」這個方向走。

以前我們使用 AI,更多是在聊天框裡提問、複製、貼上、再手動操作軟體。
現在這個邊界開始往外擴:AI 不只是回答你,而是可以根據你的目標去操作桌面應用。

這件事短期看是一個新功能,長期看可能會改變很多人使用電腦的方式。

這個功能是什麼

簡單說,Codex 的電腦使用能力,就是讓它能接觸並操作桌面環境。

它可以做的事包括:

  • 可以選擇並控制某個應用
  • 可以用自然語言下達任務
  • 可以打開瀏覽器、AI 工具、本地文件或其他軟體
  • 可以輸入內容、點擊按鈕、等待結果
  • 可以把多個步驟串成一個任務
  • 可以在後台繼續執行,不需要使用者每一步都手動跟著

它的定位不是單純替你寫一段文字,而是替你完成一段操作流程。

這就是 Agent 和普通聊天機器人的關鍵差別:
聊天機器人主要給答案,Agent 更接近「拿到目標後去執行」。

為什麼這件事重要

過去很多自動化都要求你會寫腳本。

比如你想完成一個跨軟體流程:

  • 打開網頁
  • 找資料
  • 複製內容
  • 交給另一個 AI 工具處理
  • 保存文件
  • 再打開本地目錄檢查結果

如果要自動化這件事,傳統做法可能是寫瀏覽器腳本、調用 API、寫本地程序,甚至還要處理各種軟體窗口。

但很多普通使用者不會寫這些東西。
就算會寫,也未必值得為一個臨時任務專門寫腳本。

電腦使用能力的意義就在這裡:它把「腳本能力」往自然語言方向推了一步。

你不一定要告訴它每一步怎麼點。
你可以告訴它你要什麼結果,讓它自己去嘗試完成。

它能改變哪些工作流

我覺得最先被改變的,不會是特別嚴肅、特別高風險的工作,而是那些「煩、雜、重複、但又不值得專門寫程序」的流程。

1. 跨軟體搬運

最典型的就是在多個軟體之間搬資訊。

以前你可能要在瀏覽器、文檔、聊天窗口、本地資料夾之間來回切。
以後可以把這類任務交給 Agent:

  • 去找某類資料
  • 匯總成文檔
  • 保存到指定目錄
  • 打開結果給你確認

這類工作不難,但很耗注意力。
Agent 的價值就是把這些碎操作吃掉。

2. 多個 AI 工具協同

現在很多人的真實工作流已經不是只用一個 AI。

可能是:

  • 一個工具寫程式碼
  • 一個工具查資料
  • 一個工具生成圖片
  • 一個工具整理文檔

以前這些工具之間靠人手複製貼上。
以後 Agent 可以成為中間層:它負責打開工具、傳遞上下文、等待輸出、整理結果。

這會讓「多個 AI 協同」從手工流程變成半自動流程。

3. 辦公軟體自動化

表格、PPT、文檔、郵件,這些軟體都有一個共同特點:功能很強,但很多操作很碎。

如果 Agent 能穩定控制這些軟體,以後的辦公自動化門檻會明顯下降。

你不用記選單在哪裡,也不用學複雜快捷鍵。
你只需要說清楚目標,比如:

  • 把這份表格整理成月報
  • 根據這份文檔做一頁總結
  • 把這些資料合併成一個結構清楚的說明

真正麻煩的按鈕操作,會逐漸被隱藏到自然語言後面。

對普通使用者意味著什麼

對普通使用者來說,這類功能的影響可能比「模型又聰明了一點」更直接。

因為它降低的不是知識門檻,而是操作門檻。

很多人不是不會表達需求,而是不知道軟體裡該點哪裡、怎麼組合功能。
Agent 如果能接管這部分,人使用電腦的方式就會變成:

1
2
3
我描述目標
Agent 操作軟體
我檢查結果

這比單純聊天更接近真實生產力。

對軟體形態的影響

如果這類 Agent 能力繼續成熟,軟體本身也會被反向影響。

過去軟體設計主要服務人類點擊。
以後軟體可能還要服務 Agent 操作。

這意味著:

  • 介面元素需要更清晰
  • 操作回饋需要更穩定
  • 本地權限需要更細
  • 軟體可能會提供更適合 Agent 調用的介面
  • 使用者會更在意「能不能被 AI 順利操作」

長期看,應用之間的邊界可能會變薄。
使用者關心的不再是「我打開哪個軟體」,而是「我要完成什麼任務」。

現在還不能過度樂觀

當然,現在還不到完全放手的時候。

這類能力目前還有幾個明顯限制:

  • 穩定性還需要觀察
  • 複雜任務可能中途出錯
  • 權限邊界必須謹慎
  • 涉及帳號、支付、刪除文件等操作不能隨便放權
  • 額度消耗也不是完全可以忽略

所以現階段最合適的用法,不是讓它完全接管電腦,而是讓它處理低風險、可檢查、步驟繁瑣的任務。

比如:

  • 整理資料
  • 生成草稿
  • 跨工具搬運內容
  • 打開和檢查文件
  • 做一些可以人工複核的半自動流程

最後一句

Codex 這次更新真正重要的地方,是它把 AI 從「回答問題」推向了「操作環境」。

短期看,它是一個電腦使用功能。
長期看,它可能是個人電腦互動方式的一次轉向。

以後我們使用電腦,可能會越來越少地記按鈕、找選單、切窗口。
更多時候,我們只需要說清楚目標,然後讓 Agent 去執行,再由人做最後判斷。

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計