¿Qué métrica es más importante para un chatbot?

El tiempo hasta el primer token (TTFT) y la tasa de error son críticas para la experiencia de usuario y la fiabilidad.

¿Cómo se mide la calidad del texto generado?

Mediante métricas como BLEU (para traducción), ROUGE (para resumen) y perplejidad (para fluidez).

¿Qué métricas de coste debo considerar?

Coste por token, uso de memoria y GPU, y throughput (solicitudes por minuto) para optimizar recursos.

33 métricas para evaluar LLMs y agentes de IA

¿Qué ha ocurrido?

La publicación InfoWorld ha difundido una guía que recopila 33 métricas para evaluar grandes modelos de lenguaje (LLMs) y agentes de IA. Entre ellas destacan el tiempo hasta el primer token (TTFT), tokens por segundo, tasa de error, precisión, recall, F1, perplejidad, BLEU, ROUGE, METEOR, y métricas de coste y latencia. La lista incluye tanto indicadores tradicionales de NLP como nuevas medidas adaptadas a sistemas agénticos. Esta guía no es un benchmark cerrado, sino un marco de referencia que los equipos de IA pueden adaptar según sus necesidades. La iniciativa responde a una creciente demanda de transparencia y comparabilidad en un mercado donde proliferan modelos de cientos de proveedores, desde los gigantes OpenAI, Google, Anthropic y Meta hasta startups como Mistral AI o Cohere.

¿Por qué es importante?

A medida que las empresas integran LLMs y agentes en procesos críticos —como atención al cliente, análisis de contratos, generación de informes médicos o trading algorítmico— contar con métricas estandarizadas es esencial para comparar modelos, optimizar costes y garantizar la calidad. Sin ellas, las decisiones de selección y despliegue se basan en impresiones subjetivas o benchmarks limitados como MMLU o HumanEval, que no cubren aspectos operativos como latencia o eficiencia de costes. Esta guía proporciona un marco completo que abarca desde la velocidad de respuesta hasta la coherencia semántica. Además, la ausencia de métricas comunes ha llevado a incidentes como el de un chatbot legal que alucinó precedentes judiciales, lo que subraya la necesidad de medir la fiabilidad. La guía de InfoWorld llega en un momento en que Gartner predice que para 2026, el 80% de las organizaciones habrán utilizado modelos de lenguaje en producción, frente al 30% actual.

Métricas clave analizadas

Velocidad y rendimiento

Tiempo hasta el primer token (TTFT): crítico para aplicaciones en tiempo real. Los usuarios abandonan si la respuesta tarda más de unos milisegundos. Estudios de Google y Amazon muestran que un retraso de 100 ms reduce la conversión en un 1%.
Tiempo por token de salida y tokens por segundo: miden la velocidad sostenida del modelo, importante para procesamiento por lotes. Por ejemplo, GPT-4 genera ~20 tokens/segundo, mientras que modelos más pequeños como Llama 3 8B alcanzan 100+ tokens/segundo en hardware optimizado.
Throughput (solicitudes por minuto): relevante en sistemas multi-usuario, donde la eficiencia del pipeline puede marcar la diferencia. Empresas como Shopify procesan millones de solicitudes de IA al día, y un bajo throughput puede colapsar el servicio.

Calidad del output

Precisión, recall y F1: métricas clásicas para tareas de clasificación y extracción de información. Por ejemplo, en un sistema de detección de spam, la precisión mide falsos positivos y el recall falsos negativos.
Perplejidad: mide qué tan bien el modelo predice una secuencia; valores bajos indican mejor rendimiento. Un modelo con perplejidad 10 es más predecible que uno con 50, pero no siempre se correlaciona con calidad percibida.
BLEU, ROUGE, METEOR: comparan el texto generado con referencias humanas, útiles para traducción y resumen. BLEU se usa en traducción automática; ROUGE en resúmenes; METEOR considera sinónimos y orden de palabras. Sin embargo, estas métricas tienen limitaciones: BLEU penaliza la creatividad y ROUGE puede favorecer extractos literales.

Robustez y sesgo

Tasa de error: incluye respuestas incorrectas, alucinaciones y fallos del sistema. Un estudio de Vectara encontró que los LLMs alucinan entre 3% y 27% de las veces en tareas de resumen.
Métricas de sesgo y toxicidad: evalúan si el modelo reproduce estereotipos o lenguaje dañino. Herramientas como Perspective API o el conjunto de datos BBQ miden sesgos raciales, de género y religiosos. OpenAI reportó que GPT-4 reduce los sesgos en un 60% respecto a GPT-3.5, pero aún persisten.

Coste y eficiencia

Coste por token: fundamental para elegir entre modelos propietarios y open source. Por ejemplo, GPT-4 cuesta ~0.03 USD por 1k tokens de entrada, mientras que Llama 3 70B en una API como Together.ai cuesta ~0.001 USD. Para una empresa que procesa mil millones de tokens al mes, la diferencia es de 30.000 USD frente a 1.000 USD.
Uso de memoria y GPU: impactan en la escalabilidad y el coste de infraestructura. Modelos como Falcon 180B requieren 320 GB de memoria, lo que implica múltiples GPUs A100 de 80 GB. La cuantización (FP16, INT8) reduce el consumo pero puede afectar la precisión.

Consecuencias para el mercado

La estandarización de métricas facilitará la comparación objetiva entre proveedores como OpenAI, Anthropic, Google y Meta. Las startups que desarrollan herramientas de evaluación (ej. LangSmith, Weights & Biases, Arize AI) se beneficiarán, ya que los equipos de ML necesitarán integrar estas métricas en sus pipelines de CI/CD para modelos de lenguaje. Además, la guía fomenta la competencia en áreas como latencia y coste, donde los modelos open source pueden superar a los propietarios. Por ejemplo, Mistral AI ha demostrado que modelos más pequeños y eficientes pueden igualar a GPT-3.5 en ciertas tareas con un 80% menos de coste. Los proveedores de cloud, como AWS, Azure y GCP, también se verán impactados, ya que ofrecerán servicios gestionados que incluyan estas métricas como parte de sus SLAs. En el ámbito regulatorio, la Unión Europea, con su AI Act, podría exigir métricas de sesgo y robustez para modelos de alto riesgo, lo que daría a esta guía un valor legal.

Qué deben saber los lectores

No existe una métrica única; la elección depende del caso de uso. Para chatbots, priorizar TTFT y tasa de error; para generación de contenido, BLEU/ROUGE y evaluación humana; para sistemas financieros, precisión y coste por token. Además, las métricas deben monitorearse en producción, no solo en laboratorio. La guía de InfoWorld es un punto de partida, pero cada organización debe adaptar su panel de indicadores. Es crucial no caer en la trampa de optimizar una sola métrica (Goodhart's law): si solo se mide TTFT, se sacrificará calidad. Por último, la evaluación humana sigue siendo insustituible para tareas creativas o sensibles. La combinación de métricas automatizadas y revisión humana periódica es la práctica recomendada. Como señala InfoWorld, "no se puede gestionar lo que no se mide", pero medir correctamente requiere entender qué es importante para cada negocio.

33 métricas clave para evaluar LLMs y agentes de IA

¿Qué ha ocurrido?

¿Por qué es importante?

Métricas clave analizadas

Velocidad y rendimiento

Calidad del output

Robustez y sesgo

Coste y eficiencia

Consecuencias para el mercado

Qué deben saber los lectores

Puntos clave

Preguntas frecuentes

Fuentes utilizadas

Comentarios

¿Qué ha ocurrido?

¿Por qué es importante?

Métricas clave analizadas

Velocidad y rendimiento

Calidad del output

Robustez y sesgo

Coste y eficiencia

Consecuencias para el mercado

Qué deben saber los lectores

Puntos clave

Preguntas frecuentes

Fuentes utilizadas

Sigue leyendo

Comentarios