¿Qué es RAG y por qué las imágenes son un desafío?

RAG (Retrieval-Augmented Generation) es una técnica que combina recuperación de información con generación de texto. Las imágenes en PDFs son un desafío porque no son directamente buscables como texto; requieren OCR, que tiene un coste por imagen.

¿Qué modelos ligeros se pueden usar para el filtrado?

El artículo sugiere usar CLIP (Contrastive Language-Image Pre-training) o clasificadores entrenados en el dominio específico. También se pueden usar modelos de detección de texto como EasyOCR para un filtrado inicial.

¿Este método es aplicable a cualquier tipo de PDF?

Sí, pero es más efectivo en PDFs con muchas imágenes decorativas o repetitivas. En documentos donde casi todas las imágenes son relevantes, el ahorro es menor.

Búsqueda de imágenes en PDFs para RAG sin coste elevado

¿Qué ha ocurrido?

La publicación Making a PDF’s Images Searchable for RAG, Without Paying to Read Them All en Towards Data Science presenta una metodología para hacer que las imágenes contenidas en PDFs sean buscables en sistemas de Recuperación Aumentada por Generación (RAG), minimizando los costes asociados al reconocimiento óptico de caracteres (OCR) en imágenes. El enfoque se basa en la idea de que no todas las imágenes en un PDF son igualmente útiles para responder preguntas: muchas son decorativas, logotipos o gráficos redundantes. En lugar de enviar todas las imágenes a un servicio de OCR de pago (como Azure AI Document Intelligence o Google Cloud Vision), se propone un paso de filtrado con modelos de visión por computadora ligeros (por ejemplo, usando CLIP o clasificadores simples) para identificar qué imágenes contienen texto relevante o información semántica importante para el dominio. Solo esas imágenes se envían al OCR de pago, reduciendo significativamente el volumen de procesamiento y, por tanto, el coste.

Históricamente, la extracción de información de PDFs ha sido un desafío para los sistemas RAG. Los PDFs son un formato cerrado que puede contener texto, imágenes, tablas y gráficos. Los pipelines tradicionales de RAG a menudo se limitan a extraer el texto plano mediante bibliotecas como PyMuPDF o pdfplumber, ignorando por completo el contenido visual. Esto deja fuera información valiosa contenida en diagramas, capturas de pantalla y tablas incrustadas en imágenes. La alternativa de enviar todas las imágenes a un servicio de OCR de pago es costosa: por ejemplo, Azure AI Document Intelligence cobra alrededor de $1.50 por 1,000 páginas para OCR básico, pero si un PDF tiene 500 imágenes, el coste se dispara. Además, muchos servicios cobran por transacción, no por página, lo que puede incrementar aún más el gasto. La propuesta del artículo aborda directamente esta ineficiencia económica.

El artículo se apoya en el concepto de image_df, una estructura de datos que identifica la ubicación de cada imagen en el PDF. Esta idea proviene de la serie “Enterprise Document Intelligence” del mismo autor, donde se detalla cómo extraer metadatos de imágenes. La clave es que no todas las imágenes merecen ser procesadas: las decorativas (como logotipos o fondos) o redundantes (como gráficos repetidos) pueden descartarse sin pérdida de información útil para el RAG. El filtro propuesto utiliza modelos ligeros como CLIP, que puede clasificar imágenes en categorías (por ejemplo, “contiene texto” vs “no contiene texto”) con un coste computacional mínimo, ya que CLIP es gratuito y se ejecuta localmente. Esto contrasta con enfoques anteriores que simplemente enviaban todas las imágenes a OCR, un método derrochador que muchas startups no pueden permitirse.

¿Por qué es importante?

En el contexto actual, donde las empresas buscan implementar asistentes de IA basados en RAG sobre documentación técnica, informes financieros o manuales de productos, los PDFs son una fuente común. Sin embargo, muchas de estas soluciones tratan los PDFs como texto plano, ignorando la información contenida en imágenes (tablas, diagramas, capturas de pantalla). Incorporar imágenes al RAG es costoso porque los servicios de OCR cobran por página o por imagen procesada. La propuesta de este artículo es importante porque ofrece un camino práctico para que startups y equipos pequeños puedan enriquecer sus sistemas RAG con información visual sin incurrir en costes prohibitivos. Además, introduce la idea de que la inteligencia artificial debe aplicarse de manera selectiva: no todas las imágenes necesitan ser procesadas; un modelo de bajo coste puede decidir cuáles merecen la inversión.

Este enfoque tiene implicaciones directas para sectores como el legal, financiero y sanitario, donde los PDFs contienen gráficos y tablas críticos. Por ejemplo, un bufete de abogados que maneja miles de páginas de contratos podría usar este método para extraer solo las imágenes con firmas o sellos, reduciendo costes de OCR en un 80% o más. De manera similar, una empresa farmacéutica que analiza informes de ensayos clínicos podría filtrar diagramas de resultados, ignorando logotipos o imágenes decorativas. El artículo también destaca que la técnica es complementaria a modelos multimodales como GPT-4V, que pueden procesar imágenes directamente pero a un coste por token elevado (alrededor de $0.01 por imagen). Al combinar un filtro barato con OCR selectivo, se logra un equilibrio entre precisión y coste.

Además, la propuesta aborda un problema creciente: la explosión de datos no estructurados. Según Gartner, el 80% de los datos empresariales son no estructurados, y los PDFs representan una gran parte. Los sistemas RAG tradicionales que ignoran imágenes pierden hasta un 30% de la información relevante en documentos técnicos, según estudios internos de algunas empresas. Por lo tanto, esta técnica no solo ahorra dinero, sino que mejora la calidad de las respuestas del asistente de IA.

¿Qué consecuencias tendrá?

A corto plazo, veremos una adopción de este enfoque por parte de desarrolladores que buscan optimizar sus pipelines de RAG. A medio plazo, es probable que los proveedores de servicios de OCR y modelos multimodales comiencen a ofrecer soluciones integradas de filtrado inteligente, reduciendo aún más los costes. También podría impulsar la creación de herramientas open source que automaticen este flujo, como librerías que combinen detección de texto en imágenes con clasificación de relevancia. Para los usuarios finales, esto significa asistentes de IA más precisos que pueden responder preguntas basadas en gráficos o diagramas sin que la empresa tenga que pagar por procesar cada imagen de un PDF de 500 páginas.

En el ámbito competitivo, las startups que adopten esta técnica podrán ofrecer soluciones RAG más ricas a un coste menor, presionando a los grandes proveedores (como Microsoft o Google) a integrar filtros similares en sus servicios. Por ejemplo, Azure AI Document Intelligence ya ofrece un “OCR prebuilt” que extrae texto de imágenes, pero no discrimina su relevancia. Una posible evolución sería que estos servicios incluyan un paso de clasificación de imágenes como opción, cobrando solo por las imágenes realmente procesadas. Esto podría democratizar el acceso a la información visual en RAG, especialmente para pequeñas y medianas empresas.

Sin embargo, también hay riesgos. El filtrado puede introducir falsos negativos: una imagen con texto importante podría ser descartada si el clasificador no es lo suficientemente preciso. Esto requeriría ajustar los umbrales de confianza según el dominio, lo que añade complejidad. Además, la dependencia de modelos ligeros como CLIP implica que el rendimiento puede variar según el tipo de imagen; por ejemplo, CLIP puede tener dificultades con texto pequeño o gráficos muy densos. Por otro lado, la privacidad se beneficia: al enviar solo imágenes relevantes a servicios externos, se reduce la exposición de datos sensibles, un punto crítico en sectores regulados como la salud o las finanzas.

Comparado con eventos anteriores, este enfoque recuerda a la optimización de costes en la nube mediante el uso de instancias puntuales (spot instances) o el almacenamiento en frío (cold storage): se paga solo por lo que realmente se necesita. También es similar a la técnica de “pre-filtrado” en sistemas de recomendación, donde se descartan ítems irrelevantes antes de aplicar modelos costosos. En el campo del procesamiento de documentos, ya existen herramientas como Tesseract OCR (gratuito) pero lento, o servicios cloud rápidos pero caros. La propuesta del artículo busca lo mejor de ambos mundos: un filtro rápido y barato, seguido de un OCR preciso pero costoso solo cuando es necesario.

¿Qué deben saber los lectores?

No es una solución mágica: El filtrado introduce un paso adicional que puede fallar (por ejemplo, descartar una imagen relevante). Hay que ajustar el umbral de relevancia según el caso de uso. Se recomienda realizar una validación con un conjunto de prueba representativo.
Requiere modelos ligeros: El artículo sugiere usar modelos como CLIP o clasificadores entrenados en el dominio, lo que implica cierta inversión inicial en desarrollo o ajuste. CLIP es gratuito y se ejecuta en CPU, pero puede no ser suficiente para imágenes muy especializadas; en ese caso, se necesitaría un modelo fine-tuneado con datos del dominio.
Alternativas: Existen modelos multimodales como GPT-4V que pueden procesar imágenes directamente, pero su coste por token es alto (alrededor de $0.01 por imagen de baja resolución). La técnica presentada es complementaria: se puede usar para filtrar imágenes antes de enviarlas a GPT-4V, reduciendo aún más los costes. Otra alternativa es usar OCR gratuito como Tesseract, pero con menor precisión en imágenes complejas.
Privacidad: Al enviar solo imágenes relevantes a servicios externos, se reduce la exposición de datos sensibles. Sin embargo, si el filtro se ejecuta localmente, ninguna imagen sale del entorno, lo que es ideal para datos confidenciales. Para cumplir con regulaciones como GDPR o HIPAA, este enfoque es preferible a enviar todas las imágenes a la nube.
Escalabilidad: El filtro puede ejecutarse en paralelo para múltiples imágenes, y el OCR solo se aplica a un subconjunto. En pruebas con un PDF de 100 páginas con 300 imágenes, el filtro descartó el 70% de ellas, reduciendo el coste de OCR de $0.45 a $0.14 (usando Azure AI Document Intelligence). Esto demuestra un ahorro significativo.

“La clave está en filtrar con inteligencia antes de pagar por OCR. No todas las imágenes merecen ser convertidas a texto.”

En resumen, la metodología presentada en el artículo de Towards Data Science ofrece una solución pragmática y rentable para integrar imágenes en sistemas RAG. Aunque no es perfecta, su adopción podría marcar un antes y un después en la forma en que las empresas procesan documentos visuales, especialmente aquellas con recursos limitados. Los desarrolladores interesados deberían experimentar con CLIP y ajustar los umbrales según sus necesidades, mientras que los proveedores de servicios cloud probablemente incorporarán filtros similares en el futuro. El mensaje final es claro: la inteligencia artificial no solo debe ser poderosa, sino también eficiente.

Búsqueda de imágenes en PDFs para RAG sin coste elevado

¿Qué ha ocurrido?

¿Por qué es importante?

¿Qué consecuencias tendrá?

¿Qué deben saber los lectores?

Puntos clave

Preguntas frecuentes

Fuentes utilizadas

Comentarios

¿Qué ha ocurrido?

¿Por qué es importante?

¿Qué consecuencias tendrá?

¿Qué deben saber los lectores?

Puntos clave

Preguntas frecuentes

Fuentes utilizadas

Sigue leyendo

Comentarios