計算機術語人話版:TTS、STT、API、RAG、Agent 到底在說什麼

很多計算機術語聽起來很高級,其實描述的都是很樸素的事情。本文用串講方式解釋 TTS、STT、API、SDK、CRUD、Cache、Queue、Embedding、RAG、Agent 等常見術語。

計算機領域有很多詞,第一次聽會覺得很高級。可一旦翻譯成人話,往往就是日常生活裡很簡單的動作。

比如 AI 能說話,叫 TTS;AI 能聽你說話,叫 STT。聽起來像複雜系統,拆開就是「把文字讀出來」和「把聲音寫下來」。

參考連結:https://www.zhihu.com/question/267978646/answer/2035405228460201515

這篇就從這個角度串講一些常見術語:保留術語本身,但把它們說成人話。

TTS 和 STT:文字和語音互轉

TTSText-to-Speech,意思是「文本轉語音」。你輸入一段文字,系統把它變成聲音。導航播報、電子書朗讀、AI 客服開口說話,都屬於這個方向。

STTSpeech-to-Text,意思是「語音轉文本」。你對手機說一句話,系統先把語音識別成文字,再交給後面的程式處理。語音輸入法、會議轉寫、自動字幕、智慧音箱,都離不開它。

很多語音 AI 產品的流程其實就是:

  1. STT:把你說的話轉成文字。
  2. LLM:根據文字生成回答。
  3. TTS:把回答讀出來。

所以它看起來像在和你自然聊天,底層往往是幾個模組在接力。

OCR:從圖片裡抄字

OCROptical Character Recognition,中文常說「光學字元識別」。

聽起來很硬核,其實就是從圖片裡把文字抄出來。拍一張發票、掃描一頁書、識別身分證上的姓名和號碼,本質都是 OCR。

以前 OCR 更像「看字形猜文字」,現在會結合深度學習,對複雜背景、傾斜文字、手寫字和低清圖片的容忍度更高。但它解決的核心問題仍然很直接:圖片裡有什麼字?

NLP 和 LLM:讓機器處理人話

NLPNatural Language Processing,自然語言處理。它處理的是人類語言,比如分詞、翻譯、摘要、情感分析、問答、分類。

LLMLarge Language Model,大語言模型。它可以理解和生成文字,所以今天很多 NLP 任務都被 LLM 接管了。

人話版理解:

  • NLP:讓機器處理人說的話、寫的字。
  • LLM:一個更大的文字模型,能接住很多語言任務。

你讓 AI 總結文章、寫郵件、改標題、解釋程式碼,背後都屬於這個大方向。

API 和 SDK:一個是介面,一個是工具包

APIApplication Programming Interface,應用程式編程介面。

人話就是:別人把能力開一個入口給你呼叫。比如天氣 API,你傳城市,它返回天氣;支付 API,你傳訂單,它返回支付結果。

SDKSoftware Development Kit,軟體開發工具包。

人話就是:為了讓你更方便呼叫 API,官方把常用程式碼、類型、範例和工具打包給你。API 像餐廳窗口,SDK 像點餐小程式。你可以直接去窗口說需求,也可以用小程式點得更省事。

CRUD:增刪改查

CRUDCreateReadUpdateDelete

翻譯成人話就是:新增、查看、修改、刪除。

很多後台系統、管理系統、資料庫操作,本質都在圍繞 CRUD 打轉。使用者管理、文章管理、訂單管理、庫存管理,看起來業務不同,底層經常都是一組表單加一組增刪改查。

這也是為什麼程式員會說「又寫了一個 CRUD」。不是看不起這個工作,而是它確實太常見。

Cache:先放一份,省得每次重算

Cache 是快取。

人話就是:常用的東西先放在手邊,下次直接拿,不要每次都重新找、重新算、重新請求。

網頁載入慢,可以把圖片和腳本快取起來;資料庫查詢慢,可以把熱門結果放進 Redis;模型推理貴,可以快取重複問題的答案。

快取的難點不在「放一份」,而在「什麼時候更新」。資料變了,快取沒變,就會出現舊資料。這就是很多快取問題的根源。

Queue:排隊慢慢處理

Queue 是佇列。

人話就是:事情太多,先排隊,一個一個處理。

比如使用者上傳影片後,不一定馬上轉碼完成。系統可以先把任務放進佇列,背景服務慢慢處理。發簡訊、發郵件、生成報表、處理訂單回調,也經常用佇列。

佇列解決的是「不要所有事情都卡在當前請求裡」。使用者先得到回應,耗時任務放到後面做。

Index:給資料庫做目錄

Index 是索引。

資料庫裡的索引,可以理解成書的目錄。沒有目錄,你要從第一頁翻到最後一頁;有目錄,你可以更快定位到目標內容。

但索引不是越多越好。查詢會變快,寫入和更新可能變慢,因為資料改了,索引也要跟著維護。

所以資料庫最佳化裡常見的一句話是:慢查詢先看索引。但真正做索引時,還要看查詢條件、排序欄位、資料量和寫入頻率。

RPC、REST 和 Webhook:系統之間怎麼說話

RPCRemote Procedure Call,遠端程序呼叫。

人話就是:我像呼叫本地函式一樣,去呼叫另一台機器上的函式。

REST 常見於 Web API。它更像用 URL 和 HTTP 方法來表達資源操作,比如 GET /users 查使用者,POST /orders 建立訂單。

Webhook 則是反過來通知你。你不用一直問「好了沒」,對方處理完後主動回調你的地址。

簡單記:

  • RPC:像遠端呼叫函式。
  • REST:用 HTTP 管理資源。
  • Webhook:事情發生後主動通知你。

CDN 和 Load Balancing:離你近一點,分擔一點

CDNContent Delivery Network,內容分發網路。

人話就是:把靜態資源放到離使用者更近的節點。使用者訪問圖片、影片、CSS、JS 時,不必每次都跑到源站。

Load Balancing 是負載均衡。

人話就是:訪問量太大,不要讓一台伺服器硬扛,把請求分給多台機器。

一個偏「離使用者近」,一個偏「別讓機器累死」。大型網站通常兩個都會用。

Docker、Container 和 Kubernetes:打包、運行、調度

Docker 是常見的容器工具,Container 是容器。

人話就是:把程式和它依賴的環境打包在一起,換一台機器也盡量能一樣運行。這樣可以減少「我電腦上能跑,伺服器上不能跑」的問題。

Kubernetes,常寫作 K8s,是容器編排系統。

人話就是:當容器很多時,幫你安排它們運行在哪裡、掛了怎麼重啟、流量怎麼分、版本怎麼更新。

如果只有一個小服務,Docker 就夠了;如果有很多服務、很多機器、很多副本,才會更需要 K8s。

CI/CD:自動建置、自動發布

CIContinuous Integration,持續整合。

人話就是:程式碼一提交,系統自動拉程式碼、跑測試、建置,盡早發現問題。

CD 可以指 Continuous DeliveryContinuous Deployment,持續交付或持續部署。

人話就是:建置通過後,把程式碼更穩定、更自動地送到測試環境或生產環境。

它解決的不是「寫程式碼」,而是「寫完程式碼之後,怎麼少出錯地上線」。

Serialization:把物件打包成可傳輸格式

Serialization 是序列化。

人話就是:把程式裡的物件變成能保存、能傳輸的格式,比如 JSON、XML、Protobuf。

反過來,Deserialization 是反序列化:把這些格式再還原成程式能用的物件。

你在前後端之間傳 JSON,在服務之間傳 Protobuf,本質都離不開序列化。

Token、Embedding、Vector DB:把文字變成模型能處理的形式

Token 在大模型裡通常指文字切分後的基本單位。它不一定等於一個漢字或一個英文單字,更像模型內部處理文字時的顆粒。

Embedding 是嵌入向量。

人話就是:把文字、圖片或其他內容變成一串數字,讓模型可以比較它們之間的相似度。

Vector DB 是向量資料庫。

人話就是:專門存這些向量,並且能快速找出「意思相近」的內容。

比如你問「怎麼重置路由器」,系統可能去向量庫裡找「恢復出廠設定」「忘記 Wi-Fi 密碼」「後台登入失敗」等相近內容,再拿回來給模型參考。

RAG:先查資料,再回答

RAGRetrieval-Augmented Generation,檢索增強生成。

人話就是:模型回答前,先去資料庫查相關內容,再帶著資料回答。

它解決的是大模型容易「憑記憶瞎說」的問題。把企業文檔、知識庫、產品手冊、程式碼片段接進來,模型就不只是靠訓練時的記憶,而是能參考你給它的最新資料。

典型流程是:

  1. 使用者提問。
  2. 系統把問題轉成 Embedding
  3. Vector DB 裡找相關文檔。
  4. 把文檔片段和問題一起交給 LLM
  5. 模型生成回答。

所以 RAG 聽起來高級,本質是「先翻資料,再組織語言」。

Agent:會自己拆任務的自動化流程

Agent 在 AI 語境裡經常被翻譯成智能體。

人話就是:它不只是回答一句話,而是能根據目標拆步驟、呼叫工具、觀察結果,再決定下一步。

比如你讓它「幫我分析這個倉庫為什麼測試失敗」,普通聊天模型可能只給建議;Agent 則可能會讀檔案、運行測試、看報錯、改程式碼、再跑測試。

當然,Agent 不等於一定可靠。它只是把「模型 + 工具呼叫 + 狀態循環」串起來。真正好不好用,還要看工具權限、任務邊界、錯誤處理和人工確認機制。

小結

很多計算機術語之所以顯得高級,是因為它們被英文縮寫、架構圖和產品文案包了一層殼。拆開之後,大多是在描述很樸素的動作:

  • TTS:把文字讀出來。
  • STT:把聲音寫下來。
  • OCR:從圖片裡抄字。
  • API:開放一個呼叫入口。
  • SDK:把呼叫工具打包好。
  • CRUD:增刪改查。
  • Cache:常用結果先存一份。
  • Queue:任務排隊慢慢處理。
  • Index:給資料做目錄。
  • CDN:把內容放近一點。
  • Load Balancing:把請求分散一點。
  • Docker:把運行環境打包。
  • CI/CD:讓測試和發布自動化。
  • Embedding:把內容變成數字向量。
  • RAG:先查資料,再回答。
  • Agent:讓模型帶著工具分步做事。

術語要保留,因為它們方便搜尋、溝通和查文檔。但理解時不用被它們嚇住。先翻譯成人話,再回到技術細節裡看,很多概念會清楚得多。

參考

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計