TheVortiq

Etiqueta

PDF

text
Inteligencia Artificial21 de junio de 2026 · 7 min

Búsqueda de imágenes en PDFs para RAG sin coste elevado

Un artículo de Towards Data Science propone un flujo para extraer solo las imágenes relevantes de PDFs en sistemas RAG, evitando el coste de convertir todas las imágenes a texto. La clave está en un paso de filtrado con modelos ligeros que evalúa la importancia de cada imagen antes de enviarla a un OCR de pago.

a paper with a diagram on it
Inteligencia Artificial15 de junio de 2026 · 4 min

Docling: procesa PDFs para RAG localmente, sin nube

Docling permite a empresas y desarrolladores extraer contenido enriquecido de PDFs —incluyendo tablas, fórmulas y OCR— sin enviar datos a la nube. Ideal para RAG y cumplimiento normativo.