RAG on KnightLi Blog

Términos de informática en lenguaje simple: qué significan TTS, STT, API, RAG y Agent

Tue, 12 May 2026 22:15:34 +0800

En informática hay muchos términos que, al escucharlos por primera vez, parecen muy avanzados. Pero cuando se traducen a lenguaje simple, a menudo describen acciones cotidianas.

Por ejemplo, cuando una IA puede hablar, se llama TTS; cuando puede escucharte, se llama STT. Suena como un sistema complejo, pero separado en partes es simplemente “leer texto en voz alta” y “transcribir voz a texto”.

Enlace de referencia: https://www.zhihu.com/question/267978646/answer/2035405228460201515

Este artículo recorre varios términos comunes desde ese ángulo: conservar los términos, pero explicarlos en palabras simples.

TTS y STT: convertir entre texto y voz

TTS significa Text-to-Speech, es decir, convertir texto en voz. Escribes un texto y el sistema lo convierte en audio reproducible. La navegación por voz, la lectura de libros electrónicos, los bots de atención al cliente y los asistentes de voz usan esta capacidad.

STT significa Speech-to-Text, es decir, convertir voz en texto. Cuando le hablas al móvil, el sistema primero reconoce la voz como texto y luego entrega ese texto al programa siguiente. Dictado por voz, transcripción de reuniones, subtítulos automáticos y altavoces inteligentes dependen de STT.

Muchos productos de IA por voz funcionan así:

STT: convierte lo que dijiste en texto.
LLM: genera una respuesta a partir del texto.
TTS: lee la respuesta en voz alta.

Por eso parece una conversación natural, aunque por debajo varios módulos se pasan el trabajo.

OCR: copiar texto desde imágenes

OCR significa Optical Character Recognition.

En lenguaje simple, consiste en sacar texto de una imagen. Fotografiar una factura, escanear una página de un libro o leer el nombre y número de un documento de identidad son tareas de OCR.

Antes, OCR se parecía más a “adivinar la forma de los caracteres”. Hoy usa deep learning y tolera mejor fondos complejos, texto inclinado, escritura manual e imágenes borrosas. Pero la pregunta central sigue siendo directa: ¿qué texto hay en la imagen?

NLP y LLM: hacer que las máquinas procesen lenguaje humano

NLP significa Natural Language Processing. Trata con lenguaje humano: tokenización, traducción, resumen, análisis de sentimiento, preguntas y respuestas, clasificación.

LLM significa Large Language Model. Puede entender y generar texto, así que hoy muchas tareas de NLP las realizan LLMs.

Versión simple:

NLP: hacer que las máquinas procesen lo que las personas dicen y escriben.
LLM: un modelo de texto grande capaz de manejar muchas tareas de lenguaje.

Cuando pides a una IA resumir un artículo, escribir un correo, mejorar un título o explicar código, estás en este campo general.

API y SDK: una es una interfaz, el otro es un kit

API significa Application Programming Interface.

En lenguaje simple, alguien abre una entrada para que puedas llamar una capacidad. Una API del clima recibe una ciudad y devuelve el tiempo; una API de pagos recibe un pedido y devuelve el resultado del pago.

SDK significa Software Development Kit.

En lenguaje simple, el equipo oficial empaqueta código común, tipos, ejemplos y herramientas para que llames la API más fácilmente. Una API es como el mostrador de un restaurante; un SDK es como una app para pedir. Puedes hablar directamente con el mostrador o usar la app para hacerlo con menos fricción.

CRUD: crear, leer, actualizar y borrar

CRUD significa Create, Read, Update, Delete.

En lenguaje simple: añadir, ver, modificar y eliminar.

Muchos sistemas administrativos, paneles de gestión y operaciones de base de datos giran alrededor de CRUD. Gestión de usuarios, artículos, pedidos o inventario parecen negocios distintos, pero por debajo suelen ser formularios más crear/leer/actualizar/borrar.

Por eso los programadores dicen “otra vez CRUD”. No necesariamente lo dicen con desprecio; simplemente aparece en todas partes.

Cache: guardar una copia para no recalcular cada vez

Cache significa caché.

En lenguaje simple, dejar cerca lo que se usa con frecuencia para tomarlo directamente la próxima vez, sin buscarlo, calcularlo o pedirlo de nuevo.

Una página web puede cachear imágenes y scripts; una consulta lenta puede guardar resultados populares en Redis; una inferencia cara de modelo puede cachear respuestas a preguntas repetidas.

La parte difícil de la caché no es “guardar una copia”, sino “saber cuándo actualizarla”. Si los datos cambian y la caché no, aparece información antigua. Ese es el origen de muchos problemas de caché.

Queue: poner tareas en fila y procesarlas poco a poco

Queue significa cola.

En lenguaje simple: hay demasiadas cosas por hacer, así que se ponen en fila y se procesan una por una.

Por ejemplo, cuando un usuario sube un video, la transcodificación no siempre termina de inmediato. El sistema puede poner la tarea en una cola y dejar que un servicio en segundo plano la procese. Enviar SMS, correos, generar informes y manejar callbacks de pedidos también suele usar colas.

Las colas evitan que todas las tareas lentas bloqueen la petición actual. El usuario recibe respuesta primero y el trabajo pesado ocurre después.

Index: una tabla de contenidos para la base de datos

Index significa índice.

Un índice de base de datos es como el índice de un libro. Sin índice, quizá tengas que leer desde la primera página hasta la última; con índice, llegas más rápido al contenido.

Pero no siempre conviene tener más índices. Las consultas pueden ser más rápidas, pero las escrituras y actualizaciones pueden volverse más lentas, porque el índice también debe mantenerse cuando cambian los datos.

Por eso en optimización de bases de datos se suele mirar primero el índice de una consulta lenta. Pero al crear uno hay que considerar condiciones de búsqueda, campos de orden, volumen de datos y frecuencia de escritura.

RPC, REST y Webhook: cómo hablan los sistemas

RPC significa Remote Procedure Call.

En lenguaje simple, es llamar una función que vive en otra máquina como si fuera una función local.

REST es común en Web API. Usa URLs y métodos HTTP para expresar operaciones sobre recursos, por ejemplo GET /users para consultar usuarios y POST /orders para crear pedidos.

Webhook es una notificación en sentido contrario. En vez de preguntar todo el tiempo “¿ya está?”, el otro sistema llama tu URL cuando ocurre algo.

Forma simple de recordarlo:

RPC: llamar una función remota.
REST: gestionar recursos con HTTP.
Webhook: recibir aviso cuando algo sucede.

CDN y Load Balancing: acercar contenido y repartir carga

CDN significa Content Delivery Network.

En lenguaje simple, colocar recursos estáticos en nodos más cercanos al usuario. Al acceder a imágenes, videos, CSS o JS, no siempre hace falta ir al servidor de origen.

Load Balancing significa balanceo de carga.

En lenguaje simple, si hay demasiado tráfico, no obligar a un solo servidor a cargar con todo; repartir las peticiones entre varias máquinas.

Uno trata de estar más cerca del usuario; el otro evita agotar una máquina. Los sitios grandes suelen usar ambos.

Docker, Container y Kubernetes: empaquetar, ejecutar y orquestar

Docker es una herramienta común de contenedores, y Container significa contenedor.

En lenguaje simple, empaquetar el programa junto con el entorno que necesita para que pueda ejecutarse de forma similar en otra máquina. Así se reduce el problema de “en mi ordenador funciona, en el servidor no”.

Kubernetes, a menudo escrito K8s, es un sistema de orquestación de contenedores.

En lenguaje simple, cuando hay muchos contenedores, decide dónde corren, cómo reiniciarlos si fallan, cómo repartir tráfico y cómo actualizar versiones.

Si solo tienes un servicio pequeño, Docker puede bastar. Si tienes muchos servicios, máquinas y réplicas, K8s empieza a tener más sentido.

CI/CD: construir y desplegar automáticamente

CI significa Continuous Integration.

En lenguaje simple, cuando se envía código, el sistema lo descarga, ejecuta pruebas y lo construye automáticamente para detectar problemas pronto.

CD puede significar Continuous Delivery o Continuous Deployment.

En lenguaje simple, cuando la build pasa, el código se envía de forma más estable y automática a pruebas o producción.

No resuelve “cómo escribir código”, sino “cómo publicar lo escrito con menos errores”.

Serialization: empaquetar objetos en un formato transmisible

Serialization significa serialización.

En lenguaje simple, convertir objetos del programa en un formato que se pueda guardar o transmitir, como JSON, XML o Protobuf.

Lo contrario, Deserialization, convierte esos formatos de vuelta en objetos que el programa puede usar.

Cuando frontend y backend intercambian JSON, o dos servicios usan Protobuf, hay serialización de por medio.

Token, Embedding y Vector DB: convertir texto en formas que el modelo puede procesar

En modelos grandes, Token suele ser la unidad básica en la que se divide el texto. No siempre equivale a un carácter chino o a una palabra inglesa; es más bien la granularidad interna con la que el modelo procesa texto.

Embedding significa vector de incrustación.

En lenguaje simple, convierte texto, imágenes u otros contenidos en una secuencia de números para que el modelo pueda comparar similitudes.

Vector DB significa base de datos vectorial.

En lenguaje simple, guarda esos vectores y permite encontrar rápido contenido con significado parecido.

Por ejemplo, si preguntas “cómo resetear el router”, el sistema puede buscar en la base vectorial contenidos como “restaurar configuración de fábrica”, “olvidé la contraseña Wi-Fi” o “fallo al entrar al panel”, y pasarlos al modelo como referencia.

RAG: buscar primero, responder después

RAG significa Retrieval-Augmented Generation.

En lenguaje simple, antes de responder, el modelo busca información relevante en una base de conocimiento y luego responde usando esos materiales.

Esto reduce el problema de que los modelos grandes inventen cosas desde la memoria. Al conectar documentos internos, bases de conocimiento, manuales de producto o fragmentos de código, el modelo puede usar materiales actuales proporcionados por ti.

Un flujo típico es:

El usuario hace una pregunta.
El sistema convierte la pregunta en un Embedding.
Busca documentos relacionados en una Vector DB.
Envía fragmentos de documentos y la pregunta a un LLM.
El modelo genera la respuesta.

Así que RAG suena avanzado, pero en esencia es: primero consulta materiales, luego organiza la respuesta.

Agent: un flujo automatizado que descompone tareas

En el contexto de IA, Agent suele traducirse como agente inteligente.

En lenguaje simple, no solo responde una frase; puede dividir un objetivo en pasos, llamar herramientas, observar resultados y decidir la siguiente acción.

Por ejemplo, si le pides “analiza por qué fallan las pruebas en este repositorio”, un modelo de chat común quizá solo dé consejos. Un Agent puede leer archivos, ejecutar pruebas, revisar errores, modificar código y volver a ejecutar pruebas.

Por supuesto, Agent no significa fiabilidad garantizada. Es básicamente “modelo + llamadas a herramientas + bucle de estado”. Que funcione bien depende de permisos, límites de la tarea, manejo de errores y confirmación humana.

Resumen

Muchos términos informáticos parecen avanzados porque vienen envueltos en siglas, diagramas de arquitectura y marketing de producto. Al desmontarlos, muchos describen acciones muy simples:

TTS: leer texto en voz alta.
STT: transcribir voz.
OCR: copiar texto desde imágenes.
API: abrir una entrada de llamada.
SDK: empaquetar herramientas de llamada.
CRUD: crear, leer, actualizar y borrar.
Cache: guardar una copia de resultados comunes.
Queue: poner tareas en fila para procesarlas después.
Index: poner una tabla de contenidos a los datos.
CDN: acercar contenido al usuario.
Load Balancing: repartir peticiones.
Docker: empaquetar el entorno de ejecución.
CI/CD: automatizar pruebas y despliegue.
Embedding: convertir contenido en vectores numéricos.
RAG: buscar primero, responder después.
Agent: dejar que el modelo use herramientas paso a paso.

Conviene conservar los términos porque ayudan a buscar, comunicarse y leer documentación. Pero no hace falta dejarse intimidar. Primero tradúcelos a lenguaje simple; luego vuelve a los detalles técnicos. Muchos conceptos se vuelven mucho más claros.

Referencia

Respuesta de Zhihu: https://www.zhihu.com/question/267978646/answer/2035405228460201515

Gemini Embedding 2: texto, imagen, video y audio en un mismo espacio vectorial

Mon, 04 May 2026 06:01:10 +0800

Google Developers Blog presento el uso de Gemini Embedding 2 para desarrollo. El modelo ya esta en GA a traves de Gemini API y Gemini Enterprise Agent Platform. Lo importante no es solo que sea “un nuevo modelo de embedding”, sino que puede mapear texto, imagenes, video, audio y documentos al mismo espacio semantico.

Esto amplia los limites de los sistemas de recuperacion. Antes, muchos flujos RAG necesitaban convertir imagenes, videos o audio en texto o metadatos y crear indices separados. Gemini Embedding 2 puede procesar directamente entradas multimodales, haciendo que agents, busqueda y sistemas de clasificacion trabajen mas facilmente con materiales reales de negocio.

Enlace original: Building with Gemini Embedding 2: Agentic multimodal RAG and beyond

Capacidades del modelo

Gemini Embedding 2 admite mas de 100 idiomas. Una sola solicitud puede procesar:

Hasta 8,192 tokens de texto.
Hasta 6 imagenes.
Hasta 120 segundos de video.
Hasta 180 segundos de audio.
Hasta 6 paginas PDF.

La clave es el “espacio semantico unificado”. Los desarrolladores pueden poner contenidos de distintas modalidades en una misma representacion vectorial y aplicar la misma logica de recuperacion, clustering o reranking.

Por ejemplo, una descripcion de texto y una imagen pueden ir en la misma solicitud de embedding:

from google import genai
from google.genai import types

client = genai.Client()

with open('dog.png', 'rb') as f:
    image_bytes = f.read()
result = client.models.embed_content(
    model='gemini-embedding-2',
    contents=[
        "An image of a dog",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type='image/png',
        ),
    ]
)

print(result.embeddings)

Si quieres obtener un embedding separado para cada entrada, en vez de agregarlas en un unico vector, puedes usar Batch API. El articulo tambien menciona que Agent Platform sigue avanzando en este soporte por lotes.

Que significa para RAG

El embedding multimodal es muy util para RAG agentico. Un AI agent puede necesitar revisar al mismo tiempo repositorios de codigo, PDF, capturas, graficos, transcripciones de reuniones y fotos de producto. Si todos los materiales entran en el mismo espacio semantico, la recuperacion no necesita una entrada distinta para cada formato.

Google recomienda usar task prefix segun la tarea para acercar el embedding al objetivo de recuperacion. Por ejemplo, preguntas y respuestas, fact checking, recuperacion de codigo y resultados de busqueda pueden usar prefijos distintos:

# Generate embedding for your task's query:
def prepare_query(query):
    return f"task: question answering | query: {content}"
    # return f"task: fact checking | query: {content}"
    # return f"task: code retrieval | query: {content}"
    # return f"task: search result | query: {content}"
# Generate embedding for document of an asymmetric retrieval task:
def prepare_document(content, title=None):
    if title is None:
        title = "none"
    return f"title: {title} | text: {content}"

Este prefijo encaja con recuperacion asimetrica: las consultas suelen ser cortas y los documentos largos. Preparar query y document con formatos de tarea distintos puede mejorar el emparejamiento entre consulta corta y documento largo.

El articulo da dos resultados reales:

Harvey mejoro un 3% el Recall@20 precision frente a la generacion anterior de embedding en benchmarks legales.
Supermemory mejoro un 40% el Recall@1 en precision de busqueda y lo usa en memoria, indexacion, busqueda y Q&A.

Estos numeros no significan que todos los escenarios mejoren igual, pero muestran que el embedding multimodal ya no es solo una demostracion, sino que produce efecto en productos reales de busqueda.

Busqueda visual

Gemini Embedding 2 tambien encaja con busqueda por imagen, busqueda mixta imagen-texto e identificacion de productos. El articulo menciona que Nuuly, una empresa de alquiler de ropa, lo uso para emparejar fotos de ropa sin etiquetar en almacen: Match@20 subio de 60% a casi 87%, y el exito total de identificacion paso de 74% a mas de 90%.

La clave de estos escenarios no es generar contenido, sino entender “a que inventario, documento o registro de producto se parece mas esta imagen”. Si tu negocio tiene muchas imagenes, clips de video o documentos escaneados, el embedding multimodal es mas natural que un indice puramente textual.

Reranking de recuperacion

El embedding tambien puede usarse para rerank. Una practica comun es recuperar primero un grupo de candidatos y luego calcular la similitud entre cada candidato y la consulta del usuario, subiendo los resultados mas relevantes:

# 1. Define a function to calculate the dot product (cosine similarity)
def dot_product(a: np.ndarray, b: np.ndarray):
  return (np.array(a) @ np.array(b).T)
# 2. Retrieve your embeddings
# (Assuming 'summaries' is your list of search results)
search_res = get_embeddings(summaries)
embedded_query = get_embeddings([query])

# 3. Calculate similarity scores
sim_value = dot_product(search_res, embedded_query)

# 4. Select the most relevant result
best_match_index = np.argmax(sim_value)

El articulo tambien menciona otra idea: pedir primero al modelo que genere una respuesta hipotetica con su conocimiento interno, hacer embedding de esa respuesta y compararla con los candidatos. Esto ayuda a elegir resultados semanticamente mas cercanos, especialmente en RAG de preguntas y respuestas.

Clustering, clasificacion y deteccion de anomalias

Ademas de recuperacion, los embeddings sirven para clustering, clasificacion y deteccion de anomalias. A diferencia de la recuperacion de preguntas y respuestas, estas son tareas simetricas: query y document pueden usar el mismo prefijo de tarea.

# Generate embedding for query & document of your task.
def prepare_query_and_document(content):
    # return f'task: clustering | query: {content}'
    # return f'task: sentence similarity | query: {content}'
    # return f'task: classification | query: {content}'

Estas tareas pueden aplicarse a clasificacion de opinion publica, moderacion de contenido, agrupacion de activos similares y deteccion de muestras anomalas. Tambien pueden ayudar a un agent a ordenar mucho contexto antes de entrar en razonamiento posterior.

Almacenamiento y coste

Gemini Embedding 2 devuelve por defecto vectores de 3,072 dimensiones. Usa Matryoshka Representation Learning, por lo que puedes truncar el vector a una dimension menor con output_dimensionality. Google recomienda 1,536 o 768 dimensiones cuando la eficiencia es prioritaria:

result = client.models.embed_content(
    model="gemini-embedding-2",
    contents="What is the meaning of life?",
    config={"output_dimensionality": 768}
)

Los vectores pueden almacenarse en Agent Platform Vector Search, Pinecone, Weaviate, Qdrant, ChromaDB y sistemas similares. En coste, el articulo menciona que Batch API ofrece mayor throughput y puede llegar al 50% del precio por defecto de embeddings.

Como usarlo como desarrollador

Si ya tienes RAG textual, puedes empezar con dos mejoras incrementales:

Poner PDF, capturas, descripciones de imagen y documentos de texto en un mismo indice, y comprobar si la recuperacion se vuelve mas estable.
Agregar task prefix para distintas tareas, como Q&A, fact checking, recuperacion de codigo y busqueda de productos. No proceses todo con el mismo formato de embedding.

Si estas creando un producto nuevo, considera primero estas direcciones:

Base de conocimiento empresarial: recuperar documentos, graficos, capturas de presentaciones y material de reuniones al mismo tiempo.
Busqueda visual: encontrar productos, activos, disenos y archivos usando imagen, texto o entradas mixtas.
Toolchain de Agent: permitir que coding agents, research agents o agentes de soporte recuperen materiales de negocio en varios formatos.
Gobernanza de contenido: clasificar, agrupar y detectar anomalias en texto, imagenes y clips de video.

El valor de Gemini Embedding 2 esta en convertir materiales multimodales en un mismo conjunto de activos recuperables. Para desarrolladores, reduce la capa intermedia de “convertir primero a texto y luego buscar”, y acerca los sistemas RAG a la forma real de los datos del mundo.