計算機術語人話版：TTS、STT、API、RAG、Agent 到底在說什麼

Tue, 12 May 2026 22:15:34 +0800

計算機領域有很多詞，第一次聽會覺得很高級。可一旦翻譯成人話，往往就是日常生活裡很簡單的動作。

比如 AI 能說話，叫 TTS；AI 能聽你說話，叫 STT。聽起來像複雜系統，拆開就是「把文字讀出來」和「把聲音寫下來」。

參考連結：https://www.zhihu.com/question/267978646/answer/2035405228460201515

這篇就從這個角度串講一些常見術語：保留術語本身，但把它們說成人話。

TTS 和 STT：文字和語音互轉

TTS 是 Text-to-Speech，意思是「文本轉語音」。你輸入一段文字，系統把它變成聲音。導航播報、電子書朗讀、AI 客服開口說話，都屬於這個方向。

STT 是 Speech-to-Text，意思是「語音轉文本」。你對手機說一句話，系統先把語音識別成文字，再交給後面的程式處理。語音輸入法、會議轉寫、自動字幕、智慧音箱，都離不開它。

很多語音 AI 產品的流程其實就是：

STT：把你說的話轉成文字。
LLM：根據文字生成回答。
TTS：把回答讀出來。

所以它看起來像在和你自然聊天，底層往往是幾個模組在接力。

OCR：從圖片裡抄字

OCR 是 Optical Character Recognition，中文常說「光學字元識別」。

聽起來很硬核，其實就是從圖片裡把文字抄出來。拍一張發票、掃描一頁書、識別身分證上的姓名和號碼，本質都是 OCR。

以前 OCR 更像「看字形猜文字」，現在會結合深度學習，對複雜背景、傾斜文字、手寫字和低清圖片的容忍度更高。但它解決的核心問題仍然很直接：圖片裡有什麼字？

NLP 和 LLM：讓機器處理人話

NLP 是 Natural Language Processing，自然語言處理。它處理的是人類語言，比如分詞、翻譯、摘要、情感分析、問答、分類。

LLM 是 Large Language Model，大語言模型。它可以理解和生成文字，所以今天很多 NLP 任務都被 LLM 接管了。

人話版理解：

NLP：讓機器處理人說的話、寫的字。
LLM：一個更大的文字模型，能接住很多語言任務。

你讓 AI 總結文章、寫郵件、改標題、解釋程式碼，背後都屬於這個大方向。

API 和 SDK：一個是介面，一個是工具包

API 是 Application Programming Interface，應用程式編程介面。

人話就是：別人把能力開一個入口給你呼叫。比如天氣 API，你傳城市，它返回天氣；支付 API，你傳訂單，它返回支付結果。

SDK 是 Software Development Kit，軟體開發工具包。

人話就是：為了讓你更方便呼叫 API，官方把常用程式碼、類型、範例和工具打包給你。API 像餐廳窗口，SDK 像點餐小程式。你可以直接去窗口說需求，也可以用小程式點得更省事。

CRUD：增刪改查

CRUD 是 Create、Read、Update、Delete。

翻譯成人話就是：新增、查看、修改、刪除。

很多後台系統、管理系統、資料庫操作，本質都在圍繞 CRUD 打轉。使用者管理、文章管理、訂單管理、庫存管理，看起來業務不同，底層經常都是一組表單加一組增刪改查。

這也是為什麼程式員會說「又寫了一個 CRUD」。不是看不起這個工作，而是它確實太常見。

Cache：先放一份，省得每次重算

Cache 是快取。

人話就是：常用的東西先放在手邊，下次直接拿，不要每次都重新找、重新算、重新請求。

網頁載入慢，可以把圖片和腳本快取起來；資料庫查詢慢，可以把熱門結果放進 Redis；模型推理貴，可以快取重複問題的答案。

快取的難點不在「放一份」，而在「什麼時候更新」。資料變了，快取沒變，就會出現舊資料。這就是很多快取問題的根源。

Queue：排隊慢慢處理

Queue 是佇列。

人話就是：事情太多，先排隊，一個一個處理。

比如使用者上傳影片後，不一定馬上轉碼完成。系統可以先把任務放進佇列，背景服務慢慢處理。發簡訊、發郵件、生成報表、處理訂單回調，也經常用佇列。

佇列解決的是「不要所有事情都卡在當前請求裡」。使用者先得到回應，耗時任務放到後面做。

Index：給資料庫做目錄

Index 是索引。

資料庫裡的索引，可以理解成書的目錄。沒有目錄，你要從第一頁翻到最後一頁；有目錄，你可以更快定位到目標內容。

但索引不是越多越好。查詢會變快，寫入和更新可能變慢，因為資料改了，索引也要跟著維護。

所以資料庫最佳化裡常見的一句話是：慢查詢先看索引。但真正做索引時，還要看查詢條件、排序欄位、資料量和寫入頻率。

RPC、REST 和 Webhook：系統之間怎麼說話

RPC 是 Remote Procedure Call，遠端程序呼叫。

人話就是：我像呼叫本地函式一樣，去呼叫另一台機器上的函式。

REST 常見於 Web API。它更像用 URL 和 HTTP 方法來表達資源操作，比如 GET /users 查使用者，POST /orders 建立訂單。

Webhook 則是反過來通知你。你不用一直問「好了沒」，對方處理完後主動回調你的地址。

簡單記：

RPC：像遠端呼叫函式。
REST：用 HTTP 管理資源。
Webhook：事情發生後主動通知你。

CDN 和 Load Balancing：離你近一點，分擔一點

CDN 是 Content Delivery Network，內容分發網路。

人話就是：把靜態資源放到離使用者更近的節點。使用者訪問圖片、影片、CSS、JS 時，不必每次都跑到源站。

Load Balancing 是負載均衡。

人話就是：訪問量太大，不要讓一台伺服器硬扛，把請求分給多台機器。

一個偏「離使用者近」，一個偏「別讓機器累死」。大型網站通常兩個都會用。

Docker、Container 和 Kubernetes：打包、運行、調度

Docker 是常見的容器工具，Container 是容器。

人話就是：把程式和它依賴的環境打包在一起，換一台機器也盡量能一樣運行。這樣可以減少「我電腦上能跑，伺服器上不能跑」的問題。

Kubernetes，常寫作 K8s，是容器編排系統。

人話就是：當容器很多時，幫你安排它們運行在哪裡、掛了怎麼重啟、流量怎麼分、版本怎麼更新。

如果只有一個小服務，Docker 就夠了；如果有很多服務、很多機器、很多副本，才會更需要 K8s。

CI/CD：自動建置、自動發布

CI 是 Continuous Integration，持續整合。

人話就是：程式碼一提交，系統自動拉程式碼、跑測試、建置，盡早發現問題。

CD 可以指 Continuous Delivery 或 Continuous Deployment，持續交付或持續部署。

人話就是：建置通過後，把程式碼更穩定、更自動地送到測試環境或生產環境。

它解決的不是「寫程式碼」，而是「寫完程式碼之後，怎麼少出錯地上線」。

Serialization：把物件打包成可傳輸格式

Serialization 是序列化。

人話就是：把程式裡的物件變成能保存、能傳輸的格式，比如 JSON、XML、Protobuf。

反過來，Deserialization 是反序列化：把這些格式再還原成程式能用的物件。

你在前後端之間傳 JSON，在服務之間傳 Protobuf，本質都離不開序列化。

Token、Embedding、Vector DB：把文字變成模型能處理的形式

Token 在大模型裡通常指文字切分後的基本單位。它不一定等於一個漢字或一個英文單字，更像模型內部處理文字時的顆粒。

Embedding 是嵌入向量。

人話就是：把文字、圖片或其他內容變成一串數字，讓模型可以比較它們之間的相似度。

Vector DB 是向量資料庫。

人話就是：專門存這些向量，並且能快速找出「意思相近」的內容。

比如你問「怎麼重置路由器」，系統可能去向量庫裡找「恢復出廠設定」「忘記 Wi-Fi 密碼」「後台登入失敗」等相近內容，再拿回來給模型參考。

RAG：先查資料，再回答

RAG 是 Retrieval-Augmented Generation，檢索增強生成。

人話就是：模型回答前，先去資料庫查相關內容，再帶著資料回答。

它解決的是大模型容易「憑記憶瞎說」的問題。把企業文檔、知識庫、產品手冊、程式碼片段接進來，模型就不只是靠訓練時的記憶，而是能參考你給它的最新資料。

典型流程是：

使用者提問。
系統把問題轉成 Embedding。
去 Vector DB 裡找相關文檔。
把文檔片段和問題一起交給 LLM。
模型生成回答。

所以 RAG 聽起來高級，本質是「先翻資料，再組織語言」。

Agent：會自己拆任務的自動化流程

Agent 在 AI 語境裡經常被翻譯成智能體。

人話就是：它不只是回答一句話，而是能根據目標拆步驟、呼叫工具、觀察結果，再決定下一步。

比如你讓它「幫我分析這個倉庫為什麼測試失敗」，普通聊天模型可能只給建議；Agent 則可能會讀檔案、運行測試、看報錯、改程式碼、再跑測試。

當然，Agent 不等於一定可靠。它只是把「模型 + 工具呼叫 + 狀態循環」串起來。真正好不好用，還要看工具權限、任務邊界、錯誤處理和人工確認機制。

小結

很多計算機術語之所以顯得高級，是因為它們被英文縮寫、架構圖和產品文案包了一層殼。拆開之後，大多是在描述很樸素的動作：

TTS：把文字讀出來。
STT：把聲音寫下來。
OCR：從圖片裡抄字。
API：開放一個呼叫入口。
SDK：把呼叫工具打包好。
CRUD：增刪改查。
Cache：常用結果先存一份。
Queue：任務排隊慢慢處理。
Index：給資料做目錄。
CDN：把內容放近一點。
Load Balancing：把請求分散一點。
Docker：把運行環境打包。
CI/CD：讓測試和發布自動化。
Embedding：把內容變成數字向量。
RAG：先查資料，再回答。
Agent：讓模型帶著工具分步做事。

術語要保留，因為它們方便搜尋、溝通和查文檔。但理解時不用被它們嚇住。先翻譯成人話，再回到技術細節裡看，很多概念會清楚得多。

參考

知乎回答：https://www.zhihu.com/question/267978646/answer/2035405228460201515

STT on KnightLi的博客