Términos de informática en lenguaje simple: qué significan TTS, STT, API, RAG y Agent

En informática hay muchos términos que, al escucharlos por primera vez, parecen muy avanzados. Pero cuando se traducen a lenguaje simple, a menudo describen acciones cotidianas.

Por ejemplo, cuando una IA puede hablar, se llama TTS; cuando puede escucharte, se llama STT. Suena como un sistema complejo, pero separado en partes es simplemente “leer texto en voz alta” y “transcribir voz a texto”.

Enlace de referencia: https://www.zhihu.com/question/267978646/answer/2035405228460201515

Este artículo recorre varios términos comunes desde ese ángulo: conservar los términos, pero explicarlos en palabras simples.

TTS y STT: convertir entre texto y voz

TTS significa Text-to-Speech, es decir, convertir texto en voz. Escribes un texto y el sistema lo convierte en audio reproducible. La navegación por voz, la lectura de libros electrónicos, los bots de atención al cliente y los asistentes de voz usan esta capacidad.

STT significa Speech-to-Text, es decir, convertir voz en texto. Cuando le hablas al móvil, el sistema primero reconoce la voz como texto y luego entrega ese texto al programa siguiente. Dictado por voz, transcripción de reuniones, subtítulos automáticos y altavoces inteligentes dependen de STT.

Muchos productos de IA por voz funcionan así:

STT: convierte lo que dijiste en texto.
LLM: genera una respuesta a partir del texto.
TTS: lee la respuesta en voz alta.

Por eso parece una conversación natural, aunque por debajo varios módulos se pasan el trabajo.

OCR: copiar texto desde imágenes

OCR significa Optical Character Recognition.

En lenguaje simple, consiste en sacar texto de una imagen. Fotografiar una factura, escanear una página de un libro o leer el nombre y número de un documento de identidad son tareas de OCR.

Antes, OCR se parecía más a “adivinar la forma de los caracteres”. Hoy usa deep learning y tolera mejor fondos complejos, texto inclinado, escritura manual e imágenes borrosas. Pero la pregunta central sigue siendo directa: ¿qué texto hay en la imagen?

NLP y LLM: hacer que las máquinas procesen lenguaje humano

NLP significa Natural Language Processing. Trata con lenguaje humano: tokenización, traducción, resumen, análisis de sentimiento, preguntas y respuestas, clasificación.

LLM significa Large Language Model. Puede entender y generar texto, así que hoy muchas tareas de NLP las realizan LLMs.

Versión simple:

NLP: hacer que las máquinas procesen lo que las personas dicen y escriben.
LLM: un modelo de texto grande capaz de manejar muchas tareas de lenguaje.

Cuando pides a una IA resumir un artículo, escribir un correo, mejorar un título o explicar código, estás en este campo general.

API y SDK: una es una interfaz, el otro es un kit

API significa Application Programming Interface.

En lenguaje simple, alguien abre una entrada para que puedas llamar una capacidad. Una API del clima recibe una ciudad y devuelve el tiempo; una API de pagos recibe un pedido y devuelve el resultado del pago.

SDK significa Software Development Kit.

En lenguaje simple, el equipo oficial empaqueta código común, tipos, ejemplos y herramientas para que llames la API más fácilmente. Una API es como el mostrador de un restaurante; un SDK es como una app para pedir. Puedes hablar directamente con el mostrador o usar la app para hacerlo con menos fricción.

CRUD: crear, leer, actualizar y borrar

CRUD significa Create, Read, Update, Delete.

En lenguaje simple: añadir, ver, modificar y eliminar.

Muchos sistemas administrativos, paneles de gestión y operaciones de base de datos giran alrededor de CRUD. Gestión de usuarios, artículos, pedidos o inventario parecen negocios distintos, pero por debajo suelen ser formularios más crear/leer/actualizar/borrar.

Por eso los programadores dicen “otra vez CRUD”. No necesariamente lo dicen con desprecio; simplemente aparece en todas partes.

Cache: guardar una copia para no recalcular cada vez

Cache significa caché.

En lenguaje simple, dejar cerca lo que se usa con frecuencia para tomarlo directamente la próxima vez, sin buscarlo, calcularlo o pedirlo de nuevo.

Una página web puede cachear imágenes y scripts; una consulta lenta puede guardar resultados populares en Redis; una inferencia cara de modelo puede cachear respuestas a preguntas repetidas.

La parte difícil de la caché no es “guardar una copia”, sino “saber cuándo actualizarla”. Si los datos cambian y la caché no, aparece información antigua. Ese es el origen de muchos problemas de caché.

Queue: poner tareas en fila y procesarlas poco a poco

Queue significa cola.

En lenguaje simple: hay demasiadas cosas por hacer, así que se ponen en fila y se procesan una por una.

Por ejemplo, cuando un usuario sube un video, la transcodificación no siempre termina de inmediato. El sistema puede poner la tarea en una cola y dejar que un servicio en segundo plano la procese. Enviar SMS, correos, generar informes y manejar callbacks de pedidos también suele usar colas.

Las colas evitan que todas las tareas lentas bloqueen la petición actual. El usuario recibe respuesta primero y el trabajo pesado ocurre después.

Index: una tabla de contenidos para la base de datos

Index significa índice.

Un índice de base de datos es como el índice de un libro. Sin índice, quizá tengas que leer desde la primera página hasta la última; con índice, llegas más rápido al contenido.

Pero no siempre conviene tener más índices. Las consultas pueden ser más rápidas, pero las escrituras y actualizaciones pueden volverse más lentas, porque el índice también debe mantenerse cuando cambian los datos.

Por eso en optimización de bases de datos se suele mirar primero el índice de una consulta lenta. Pero al crear uno hay que considerar condiciones de búsqueda, campos de orden, volumen de datos y frecuencia de escritura.

RPC, REST y Webhook: cómo hablan los sistemas

RPC significa Remote Procedure Call.

En lenguaje simple, es llamar una función que vive en otra máquina como si fuera una función local.

REST es común en Web API. Usa URLs y métodos HTTP para expresar operaciones sobre recursos, por ejemplo GET /users para consultar usuarios y POST /orders para crear pedidos.

Webhook es una notificación en sentido contrario. En vez de preguntar todo el tiempo “¿ya está?”, el otro sistema llama tu URL cuando ocurre algo.

Forma simple de recordarlo:

RPC: llamar una función remota.
REST: gestionar recursos con HTTP.
Webhook: recibir aviso cuando algo sucede.

CDN y Load Balancing: acercar contenido y repartir carga

CDN significa Content Delivery Network.

En lenguaje simple, colocar recursos estáticos en nodos más cercanos al usuario. Al acceder a imágenes, videos, CSS o JS, no siempre hace falta ir al servidor de origen.

Load Balancing significa balanceo de carga.

En lenguaje simple, si hay demasiado tráfico, no obligar a un solo servidor a cargar con todo; repartir las peticiones entre varias máquinas.

Uno trata de estar más cerca del usuario; el otro evita agotar una máquina. Los sitios grandes suelen usar ambos.

Docker, Container y Kubernetes: empaquetar, ejecutar y orquestar

Docker es una herramienta común de contenedores, y Container significa contenedor.

En lenguaje simple, empaquetar el programa junto con el entorno que necesita para que pueda ejecutarse de forma similar en otra máquina. Así se reduce el problema de “en mi ordenador funciona, en el servidor no”.

Kubernetes, a menudo escrito K8s, es un sistema de orquestación de contenedores.

En lenguaje simple, cuando hay muchos contenedores, decide dónde corren, cómo reiniciarlos si fallan, cómo repartir tráfico y cómo actualizar versiones.

Si solo tienes un servicio pequeño, Docker puede bastar. Si tienes muchos servicios, máquinas y réplicas, K8s empieza a tener más sentido.

CI/CD: construir y desplegar automáticamente

CI significa Continuous Integration.

En lenguaje simple, cuando se envía código, el sistema lo descarga, ejecuta pruebas y lo construye automáticamente para detectar problemas pronto.

CD puede significar Continuous Delivery o Continuous Deployment.

En lenguaje simple, cuando la build pasa, el código se envía de forma más estable y automática a pruebas o producción.

No resuelve “cómo escribir código”, sino “cómo publicar lo escrito con menos errores”.

Serialization: empaquetar objetos en un formato transmisible

Serialization significa serialización.

En lenguaje simple, convertir objetos del programa en un formato que se pueda guardar o transmitir, como JSON, XML o Protobuf.

Lo contrario, Deserialization, convierte esos formatos de vuelta en objetos que el programa puede usar.

Cuando frontend y backend intercambian JSON, o dos servicios usan Protobuf, hay serialización de por medio.

Token, Embedding y Vector DB: convertir texto en formas que el modelo puede procesar

En modelos grandes, Token suele ser la unidad básica en la que se divide el texto. No siempre equivale a un carácter chino o a una palabra inglesa; es más bien la granularidad interna con la que el modelo procesa texto.

Embedding significa vector de incrustación.

En lenguaje simple, convierte texto, imágenes u otros contenidos en una secuencia de números para que el modelo pueda comparar similitudes.

Vector DB significa base de datos vectorial.

En lenguaje simple, guarda esos vectores y permite encontrar rápido contenido con significado parecido.

Por ejemplo, si preguntas “cómo resetear el router”, el sistema puede buscar en la base vectorial contenidos como “restaurar configuración de fábrica”, “olvidé la contraseña Wi-Fi” o “fallo al entrar al panel”, y pasarlos al modelo como referencia.

RAG: buscar primero, responder después

RAG significa Retrieval-Augmented Generation.

En lenguaje simple, antes de responder, el modelo busca información relevante en una base de conocimiento y luego responde usando esos materiales.

Esto reduce el problema de que los modelos grandes inventen cosas desde la memoria. Al conectar documentos internos, bases de conocimiento, manuales de producto o fragmentos de código, el modelo puede usar materiales actuales proporcionados por ti.

Un flujo típico es:

El usuario hace una pregunta.
El sistema convierte la pregunta en un Embedding.
Busca documentos relacionados en una Vector DB.
Envía fragmentos de documentos y la pregunta a un LLM.
El modelo genera la respuesta.

Así que RAG suena avanzado, pero en esencia es: primero consulta materiales, luego organiza la respuesta.

Agent: un flujo automatizado que descompone tareas

En el contexto de IA, Agent suele traducirse como agente inteligente.

En lenguaje simple, no solo responde una frase; puede dividir un objetivo en pasos, llamar herramientas, observar resultados y decidir la siguiente acción.

Por ejemplo, si le pides “analiza por qué fallan las pruebas en este repositorio”, un modelo de chat común quizá solo dé consejos. Un Agent puede leer archivos, ejecutar pruebas, revisar errores, modificar código y volver a ejecutar pruebas.

Por supuesto, Agent no significa fiabilidad garantizada. Es básicamente “modelo + llamadas a herramientas + bucle de estado”. Que funcione bien depende de permisos, límites de la tarea, manejo de errores y confirmación humana.

Resumen

Muchos términos informáticos parecen avanzados porque vienen envueltos en siglas, diagramas de arquitectura y marketing de producto. Al desmontarlos, muchos describen acciones muy simples:

TTS: leer texto en voz alta.
STT: transcribir voz.
OCR: copiar texto desde imágenes.
API: abrir una entrada de llamada.
SDK: empaquetar herramientas de llamada.
CRUD: crear, leer, actualizar y borrar.
Cache: guardar una copia de resultados comunes.
Queue: poner tareas en fila para procesarlas después.
Index: poner una tabla de contenidos a los datos.
CDN: acercar contenido al usuario.
Load Balancing: repartir peticiones.
Docker: empaquetar el entorno de ejecución.
CI/CD: automatizar pruebas y despliegue.
Embedding: convertir contenido en vectores numéricos.
RAG: buscar primero, responder después.
Agent: dejar que el modelo use herramientas paso a paso.

Conviene conservar los términos porque ayudan a buscar, comunicarse y leer documentación. Pero no hace falta dejarse intimidar. Primero tradúcelos a lenguaje simple; luego vuelve a los detalles técnicos. Muchos conceptos se vuelven mucho más claros.

Referencia

Respuesta de Zhihu: https://www.zhihu.com/question/267978646/answer/2035405228460201515