Notas del proyecto RAGFlow: funciones y uso de un motor RAG open source

RAGFlow es un motor RAG open source de infiniflow. Su objetivo no es ofrecer una simple capa de “sube documentos y haz preguntas”, sino reunir parsing de documentos, chunking, recuperación, reranking, trazabilidad de citas, configuración de modelos, capacidades de agentes e integración API en un flujo completo.

Si estás construyendo una base de conocimiento empresarial, Q&A sobre documentos, un asistente de soporte, recuperación de información interna o una capa de contexto más fiable para un LLM, RAGFlow es una de las opciones open source que merece atención seria.

01 Qué problema resuelve RAGFlow

La mayoría de sistemas RAG tropiezan con tres problemas comunes:

El parsing de documentos es inestable, especialmente con PDFs, escaneos, tablas, imágenes y layouts complejos.
La estrategia de chunking es opaca, así que la recuperación puede parecer correcta mientras el contexto real está incompleto.
Las respuestas no tienen citas confiables, lo que dificulta verificar de dónde viene la respuesta.

RAGFlow se centra justo en esos problemas. El README del proyecto enfatiza Deep document understanding, chunking basado en plantillas, visualización de chunks, grounding de citas y recuperación multipath con reranking. En otras palabras, le importa más que una entrada de alta calidad lleve a respuestas de alta calidad que simplemente conectar una base vectorial a una UI de chat.

02 Funciones principales

1. Comprensión profunda de documentos

RAGFlow puede extraer conocimiento de datos no estructurados complejos. El README lista formatos como Word, PPT, Excel, TXT, imágenes, documentos escaneados, datos estructurados y páginas web.

Esto importa mucho para bases de conocimiento empresariales. El material real rara vez es Markdown limpio. Suele mezclar contratos, informes, tablas, PDFs escaneados, manuales de producto, capturas y contenido web. Si el parsing es débil, tanto la recuperación como las respuestas del LLM sufrirán.

2. Chunking basado en plantillas

RAGFlow ofrece chunking basado en plantillas. El valor está en que el chunking no es una caja negra: distintos tipos de documentos pueden usar estrategias distintas.

Por ejemplo, artículos, papers, tablas, documentos Q&A, explicaciones de imágenes y cláusulas contractuales necesitan límites y granularidad de chunk diferentes. El chunking por plantillas ayuda a reducir frases rotas, pérdida de contexto de tablas y separación entre títulos y cuerpo.

3. Citas trazables

RAGFlow enfatiza citas fundamentadas, es decir, respuestas que pueden rastrearse hasta pasajes fuente. También ofrece visualización de chunks, facilitando inspeccionar y ajustar resultados de parsing y chunking.

Esto es especialmente importante en producción. El Q&A interno empresarial no solo necesita producir algo que parezca correcto; también debe ser verificable. Para políticas, cumplimiento, finanzas, documentación técnica y soporte al cliente, las citas y la trazabilidad son casi obligatorias.

4. Flujo RAG automatizado

RAGFlow convierte el ciclo de vida RAG en un flujo más completo:

Crear una base de conocimiento
Subir o sincronizar datos
Parsear documentos
Revisar y ajustar chunks
Configurar modelos LLM y embedding
Ejecutar recuperación multipath y reranking
Crear asistentes de chat
Integrar mediante APIs en sistemas de negocio

Eso lo acerca más a una plataforma RAG que a una librería aislada. Para equipos importan tanto la UI como la API: personas no técnicas pueden mantener la base de conocimiento y los ingenieros pueden integrar la capacidad en sistemas existentes.

5. Extensiones de Agent, MCP y workflow

Las actualizaciones recientes de RAGFlow ya incluyen Agentic workflow, MCP, Agent Memory y componentes de ejecución de código. Eso sugiere que ya no se limita al Q&A tradicional de bases de conocimiento y también se mueve hacia escenarios orientados a agentes.

Un patrón típico es que un agente use RAGFlow como capa fiable de conocimiento empresarial: recuperar contexto cuando lo necesita, generar respuestas con citas y combinarlo con herramientas o pasos de workflow cuando sea necesario.

03 Flujo básico de uso

Según la documentación oficial de quickstart, el uso común de RAGFlow puede resumirse en estos pasos.

1. Preparar el entorno

Los requisitos básicos listados en el README oficial son:

CPU >= 4 cores
RAM >= 16 GB
Disk >= 50 GB
Docker >= 24.0.0
Docker Compose >= v2.26.1

Si quieres usar el sandbox para el ejecutor de código, también necesitas gVisor. Otra nota práctica es que las imágenes Docker oficiales apuntan principalmente a plataformas x86. Para ARM64, la documentación recomienda construir la imagen por cuenta propia.

2. Clonar el proyecto

1
2


git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker

3. Revisar `vm.max_map_count`

El despliegue de RAGFlow depende de componentes como Elasticsearch u OpenSearch, así que en Linux normalmente hay que verificar:

1

sysctl vm.max_map_count

Si el valor está por debajo de 262144, puedes configurarlo temporalmente:

1

sudo sysctl -w vm.max_map_count=262144

Si quieres que persista tras reiniciar, añádelo a /etc/sysctl.conf.

4. Arrancar con Docker Compose

Puedes iniciar directamente el modo CPU:

1

docker compose -f docker-compose.yml up -d

Si quieres aceleración GPU para tareas DeepDoc, el README muestra cómo activar DEVICE=gpu en .env antes del arranque:

1
2


sed -i '1i DEVICE=gpu' .env
docker compose -f docker-compose.yml up -d

Luego inspecciona los logs:

1

docker logs -f docker-ragflow-cpu-1

Cuando los servicios estén listos, abre la dirección de la máquina en el navegador. Con la configuración predeterminada suele ser:

1

http://IP_OF_YOUR_MACHINE

5. Configurar claves API de modelos

RAGFlow necesita configuración de LLM y modelos de embedding. El README menciona elegir la fábrica LLM predeterminada en service_conf.yaml.template y actualizar el API_KEY correspondiente.

En la práctica, necesitas configurar modelos según tu proveedor:

Modelo de chat
Modelo de embedding
Modelo de rerank
Modelo multimodal, si quieres entender imágenes dentro de PDFs o DOCX

6. Crear la base de conocimiento y subir documentos

Después de arrancar el servicio, el flujo típico es:

Iniciar sesión en la Web UI.
Crear un dataset o base de conocimiento.
Subir documentos o configurar una sincronización de fuente de datos.
Esperar a que termine el parsing.
Inspeccionar los chunks y ajustarlos si hace falta.
Crear un asistente de chat y asociar la base de conocimiento.
Probar calidad de respuesta y fuentes de cita.

Si necesitas integrarlo con un sistema de negocio, puedes continuar con la API o SDK de RAGFlow y conectar recuperación y chat a tu propia aplicación.

04 Escenarios adecuados

RAGFlow encaja con necesidades como:

Q&A de bases de conocimiento internas empresariales
Manuales de producto, documentación técnica y recuperación de FAQ
Asistentes de soporte al cliente y preventa
Q&A trazable sobre contratos, informes y políticas
Manejo unificado de materiales multiformato
Equipos que quieren mantenimiento vía UI e integración API
Sistemas que quieren usar RAG como capa de contexto para agentes

Es especialmente adecuado cuando los formatos documentales son complejos, las citas importan y las personas quieren inspeccionar o intervenir en los resultados de parsing.

05 Qué vigilar

Primero, RAGFlow no es un script ligero. Tiene requisitos reales de infraestructura. La recomendación oficial es al menos 4 cores CPU, 16 GB de RAM y 50 GB de disco. Si solo quieres Q&A sobre una pequeña cantidad de Markdown, una plataforma completa puede ser innecesaria.

Segundo, la calidad documental sigue importando. RAGFlow puede mejorar parsing y chunking, pero no puede hacer mágicamente fiable material fuente de baja calidad, obsoleto o contradictorio. El gobierno de la base de conocimiento sigue siendo importante antes de producción.

Tercero, la selección de modelos afecta directamente la calidad. Las elecciones de embedding, rerank, chat y multimodal influyen en recuperación y respuestas. RAGFlow da el flujo, pero el resultado final sigue dependiendo de datos, modelos y ajuste.

Cuarto, los despliegues en producción deben cuidar permisos y seguridad de datos. Las bases de conocimiento empresariales suelen contener documentos internos, así que el modelo de despliegue, control de acceso, logs, claves API y políticas de datos del proveedor deben diseñarse de antemano.

06 Conclusión rápida

La fortaleza de RAGFlow es convertir las partes más difíciles de RAG en capacidades de plataforma: parsing de documentos complejos, chunking explicable, grounding de citas, recuperación multipath, reranking, configuración de modelos, Web UI, acceso API y extensiones de agentes.

Si necesitas una base de conocimiento empresarial verificable y mantenible que pueda conectarse a sistemas de negocio, RAGFlow es más completo que una configuración de “base vectorial más chat UI simple”. En cambio, si solo necesitas Q&A personal a pequeña escala sobre datos simples, un framework RAG más ligero puede ser más eficiente en recursos.

Enlaces relacionados

Proyecto GitHub: https://github.com/infiniflow/ragflow
Documentación oficial: https://ragflow.io/docs/dev/
Demo online: https://cloud.ragflow.io