计算机术语人话版:TTS、STT、API、RAG、Agent 到底在说什么

很多计算机术语听起来很高级,其实描述的都是很朴素的事情。本文用串讲方式解释 TTS、STT、API、SDK、CRUD、Cache、Queue、Embedding、RAG、Agent 等常见术语。

计算机领域有很多词,第一次听会觉得很高级。可一旦翻译成人话,往往就是日常生活里很简单的动作。

比如 AI 能说话,叫 TTS;AI 能听你说话,叫 STT。听起来像复杂系统,拆开就是“把文字读出来”和“把声音写下来”。

参考链接:https://www.zhihu.com/question/267978646/answer/2035405228460201515

这篇就从这个角度串讲一些常见术语:保留术语本身,但把它们说成人话。

TTS 和 STT:文字和语音互转

TTSText-to-Speech,意思是“文本转语音”。你输入一段文字,系统把它变成声音。导航播报、电子书朗读、AI 客服开口说话,都属于这个方向。

STTSpeech-to-Text,意思是“语音转文本”。你对手机说一句话,系统先把语音识别成文字,再交给后面的程序处理。语音输入法、会议转写、自动字幕、智能音箱,都离不开它。

很多语音 AI 产品的流程其实就是:

  1. STT:把你说的话转成文字。
  2. LLM:根据文字生成回答。
  3. TTS:把回答读出来。

所以它看起来像在和你自然聊天,底层往往是几个模块在接力。

OCR:从图片里抄字

OCROptical Character Recognition,中文常说“光学字符识别”。

听起来很硬核,其实就是从图片里把文字抄出来。拍一张发票、扫描一页书、识别身份证上的姓名和号码,本质都是 OCR。

以前 OCR 更像“看字形猜文字”,现在会结合深度学习,对复杂背景、倾斜文字、手写字和低清图片的容忍度更高。但它解决的核心问题仍然很直接:图片里有什么字?

NLP 和 LLM:让机器处理人话

NLPNatural Language Processing,自然语言处理。它处理的是人类语言,比如分词、翻译、摘要、情感分析、问答、分类。

LLMLarge Language Model,大语言模型。它可以理解和生成文本,所以今天很多 NLP 任务都被 LLM 接管了。

人话版理解:

  • NLP:让机器处理人说的话、写的字。
  • LLM:一个更大的文本模型,能接住很多语言任务。

你让 AI 总结文章、写邮件、改标题、解释代码,背后都属于这个大方向。

API 和 SDK:一个是接口,一个是工具包

APIApplication Programming Interface,应用程序编程接口。

人话就是:别人把能力开一个入口给你调用。比如天气 API,你传城市,它返回天气;支付 API,你传订单,它返回支付结果。

SDKSoftware Development Kit,软件开发工具包。

人话就是:为了让你更方便调用 API,官方把常用代码、类型、示例和工具打包给你。API 像餐厅窗口,SDK 像点餐小程序。你可以直接去窗口说需求,也可以用小程序点得更省事。

CRUD:增删改查

CRUDCreateReadUpdateDelete

翻译成人话就是:新增、查看、修改、删除。

很多后台系统、管理系统、数据库操作,本质都在围绕 CRUD 打转。用户管理、文章管理、订单管理、库存管理,看起来业务不同,底层经常都是一组表单加一组增删改查。

这也是为什么程序员会说“又写了一个 CRUD”。不是看不起这个工作,而是它确实太常见。

Cache:先放一份,省得每次重算

Cache 是缓存。

人话就是:常用的东西先放在手边,下次直接拿,不要每次都重新找、重新算、重新请求。

网页加载慢,可以把图片和脚本缓存起来;数据库查询慢,可以把热门结果放进 Redis;模型推理贵,可以缓存重复问题的答案。

缓存的难点不在“放一份”,而在“什么时候更新”。数据变了,缓存没变,就会出现旧数据。这就是很多缓存问题的根源。

Queue:排队慢慢处理

Queue 是队列。

人话就是:事情太多,先排队,一个一个处理。

比如用户上传视频后,不一定马上转码完成。系统可以先把任务放进队列,后台服务慢慢处理。发短信、发邮件、生成报表、处理订单回调,也经常用队列。

队列解决的是“不要所有事情都卡在当前请求里”。用户先得到响应,耗时任务放到后面做。

Index:给数据库做目录

Index 是索引。

数据库里的索引,可以理解成书的目录。没有目录,你要从第一页翻到最后一页;有目录,你可以更快定位到目标内容。

但索引不是越多越好。查询会变快,写入和更新可能变慢,因为数据改了,索引也要跟着维护。

所以数据库优化里常见的一句话是:慢查询先看索引。但真正做索引时,还要看查询条件、排序字段、数据量和写入频率。

RPC、REST 和 Webhook:系统之间怎么说话

RPCRemote Procedure Call,远程过程调用。

人话就是:我像调用本地函数一样,去调用另一台机器上的函数。

REST 常见于 Web API。它更像用 URL 和 HTTP 方法来表达资源操作,比如 GET /users 查用户,POST /orders 创建订单。

Webhook 则是反过来通知你。你不用一直问“好了没”,对方处理完后主动回调你的地址。

简单记:

  • RPC:像远程调用函数。
  • REST:用 HTTP 管理资源。
  • Webhook:事情发生后主动通知你。

CDN 和 Load Balancing:离你近一点,分担一点

CDNContent Delivery Network,内容分发网络。

人话就是:把静态资源放到离用户更近的节点。用户访问图片、视频、CSS、JS 时,不必每次都跑到源站。

Load Balancing 是负载均衡。

人话就是:访问量太大,不要让一台服务器硬扛,把请求分给多台机器。

一个偏“离用户近”,一个偏“别让机器累死”。大型网站通常两个都会用。

Docker、Container 和 Kubernetes:打包、运行、调度

Docker 是常见的容器工具,Container 是容器。

人话就是:把程序和它依赖的环境打包在一起,换一台机器也尽量能一样运行。这样可以减少“我电脑上能跑,服务器上不能跑”的问题。

Kubernetes,常写作 K8s,是容器编排系统。

人话就是:当容器很多时,帮你安排它们运行在哪里、挂了怎么重启、流量怎么分、版本怎么更新。

如果只有一个小服务,Docker 就够了;如果有很多服务、很多机器、很多副本,才会更需要 K8s。

CI/CD:自动构建、自动发布

CIContinuous Integration,持续集成。

人话就是:代码一提交,系统自动拉代码、跑测试、构建,尽早发现问题。

CD 可以指 Continuous DeliveryContinuous Deployment,持续交付或持续部署。

人话就是:构建通过后,把代码更稳定、更自动地送到测试环境或生产环境。

它解决的不是“写代码”,而是“写完代码之后,怎么少出错地上线”。

Serialization:把对象打包成可传输格式

Serialization 是序列化。

人话就是:把程序里的对象变成能保存、能传输的格式,比如 JSON、XML、Protobuf。

反过来,Deserialization 是反序列化:把这些格式再还原成程序能用的对象。

你在前后端之间传 JSON,在服务之间传 Protobuf,本质都离不开序列化。

Token、Embedding、Vector DB:把文字变成模型能处理的形式

Token 在大模型里通常指文本切分后的基本单位。它不一定等于一个汉字或一个英文单词,更像模型内部处理文本时的颗粒。

Embedding 是嵌入向量。

人话就是:把文字、图片或其他内容变成一串数字,让模型可以比较它们之间的相似度。

Vector DB 是向量数据库。

人话就是:专门存这些向量,并且能快速找出“意思相近”的内容。

比如你问“怎么重置路由器”,系统可能去向量库里找“恢复出厂设置”“忘记 Wi-Fi 密码”“后台登录失败”等相近内容,再拿回来给模型参考。

RAG:先查资料,再回答

RAGRetrieval-Augmented Generation,检索增强生成。

人话就是:模型回答前,先去资料库查相关内容,再带着资料回答。

它解决的是大模型容易“凭记忆瞎说”的问题。把企业文档、知识库、产品手册、代码片段接进来,模型就不只是靠训练时的记忆,而是能参考你给它的最新资料。

典型流程是:

  1. 用户提问。
  2. 系统把问题转成 Embedding
  3. Vector DB 里找相关文档。
  4. 把文档片段和问题一起交给 LLM
  5. 模型生成回答。

所以 RAG 听起来高级,本质是“先翻资料,再组织语言”。

Agent:会自己拆任务的自动化流程

Agent 在 AI 语境里经常被翻译成智能体。

人话就是:它不只是回答一句话,而是能根据目标拆步骤、调用工具、观察结果,再决定下一步。

比如你让它“帮我分析这个仓库为什么测试失败”,普通聊天模型可能只给建议;Agent 则可能会读文件、运行测试、看报错、改代码、再跑测试。

当然,Agent 不等于一定可靠。它只是把“模型 + 工具调用 + 状态循环”串起来。真正好不好用,还要看工具权限、任务边界、错误处理和人工确认机制。

小结

很多计算机术语之所以显得高级,是因为它们被英文缩写、架构图和产品文案包了一层壳。拆开之后,大多是在描述很朴素的动作:

  • TTS:把文字读出来。
  • STT:把声音写下来。
  • OCR:从图片里抄字。
  • API:开放一个调用入口。
  • SDK:把调用工具打包好。
  • CRUD:增删改查。
  • Cache:常用结果先存一份。
  • Queue:任务排队慢慢处理。
  • Index:给数据做目录。
  • CDN:把内容放近一点。
  • Load Balancing:把请求分散一点。
  • Docker:把运行环境打包。
  • CI/CD:让测试和发布自动化。
  • Embedding:把内容变成数字向量。
  • RAG:先查资料,再回答。
  • Agent:让模型带着工具分步做事。

术语要保留,因为它们方便搜索、沟通和查文档。但理解时不用被它们吓住。先翻译成人话,再回到技术细节里看,很多概念会清楚得多。

参考

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计