TheVortiq
Inteligencia Artificial

OpenAI lanza benchmark LifeSciBench: su mejor modelo falla 63.9%

GPT-Rosalind solo aprueba 36.1% de las tareas, revelando la brecha entre IA actual y la investigación científica real

21 de junio de 2026 · 4 min de lectura

white and black typewriter with white printer paper
Foto de Markus Winkler en Unsplash

¿Qué ha ocurrido?

OpenAI ha presentado LifeSciBench, un benchmark compuesto por 750 tareas diseñadas para evaluar la capacidad de los sistemas de inteligencia artificial de realizar tareas realistas de investigación en ciencias de la vida, más allá de simplemente responder preguntas de biología. El modelo más potente de OpenAI, GPT-Rosalind, obtuvo una tasa de aprobación de solo el 36.1 %, fallando en casi dos tercios de las tareas, según informó Slashdot. Este resultado es significativo porque, a pesar de los avances en IA, el mejor modelo disponible no logra superar ni siquiera la mitad de las tareas propuestas, lo que pone de relieve las limitaciones actuales de la tecnología en contextos de investigación compleja.

¿Por qué es importante?

LifeSciBench revela una debilidad recurrente de la IA: su rendimiento cae significativamente cuando debe trabajar con documentos de apoyo, figuras o conjuntos de datos complejos. GPT-Rosalind pasó del 45.1 % en tareas solo textuales al 28.1 % en tareas que involucran artefactos o URLs, una caída de 17 puntos porcentuales. Esto demuestra que, aunque la IA muestra capacidades crecientes en comunicación científica, síntesis de evidencia y traducción de hallazgos, aún no puede reemplazar la experiencia, el juicio y el escepticismo que exige la investigación real. El benchmark no solo mide conocimiento factual, sino habilidades como la interpretación de gráficos, el análisis de datos experimentales y la comprensión de protocolos de laboratorio, habilidades esenciales para cualquier científico.

El contexto histórico es relevante: benchmarks anteriores como GPQA (Graduate-Level Google-Proof Q&A) o MMLU (Massive Multitask Language Understanding) se centraban en preguntas de opción múltiple o respuestas textuales, pero LifeSciBench es pionero en evaluar tareas de investigación aplicada, como diseñar experimentos o interpretar resultados. Esto lo hace más cercano a las necesidades reales del sector biotecnológico y farmacéutico, donde la IA se utiliza para acelerar el descubrimiento de fármacos, la predicción de estructuras de proteínas y el análisis de datos genómicos.

Consecuencias y contexto

LifeSciBench no pretende sugerir que la IA sea inútil en investigación; al contrario, destaca su potencial como asistente para investigadores abrumados por información. OpenAI encontró que los modelos son cada vez más capaces de comunicación científica, síntesis de evidencia y traducción de hallazgos a explicaciones prácticas. Sin embargo, el benchmark sirve como recordatorio de que los sistemas actuales están lejos de ser científicos autónomos. Este lanzamiento se suma a otros benchmarks como GPQA o MMLU, pero se enfoca en tareas de investigación aplicada, lo que lo hace más relevante para el sector biotecnológico y farmacéutico.

El impacto en el mercado es doble: por un lado, empresas que invierten en IA para descubrimiento de fármacos, como Insilico Medicine, Recursion Pharmaceuticals o BenevolentAI, deben considerar estas limitaciones al integrar modelos de lenguaje en sus flujos de trabajo. Por otro lado, LifeSciBench establece un nuevo estándar para la evaluación de modelos en el dominio científico, lo que podría impulsar el desarrollo de sistemas más robustos. Comparado con eventos anteriores, como el lanzamiento de AlphaFold de DeepMind en 2021, que revolucionó la predicción de estructuras de proteínas, LifeSciBench muestra que la IA aún tiene dificultades con tareas que requieren razonamiento multimodal y juicio experto.

Además, la publicación del benchmark como recurso abierto permite a la comunidad académica y empresarial comparar modelos y mejorar sus sistemas. Esto fomenta la transparencia y la competencia, pero también plantea preguntas sobre la reproducibilidad y la validez de las evaluaciones, ya que los benchmarks pueden sufrir de contaminación de datos si los modelos se entrenan con ejemplos similares.

Lo que deben saber los lectores

  • El benchmark es público y puede ser utilizado por la comunidad para comparar modelos. OpenAI ha puesto a disposición el código y los datos en GitHub, lo que permite a otros investigadores replicar los experimentos y proponer mejoras.
  • Los resultados no invalidan el uso de IA en ciencia, pero establecen expectativas realistas. La IA puede ser una herramienta poderosa para tareas como la búsqueda bibliográfica, la generación de hipótesis o la redacción de manuscritos, pero no debe considerarse un sustituto del criterio humano.
  • Empresas que invierten en IA para descubrimiento de fármacos deben considerar estas limitaciones. La integración de modelos de lenguaje en pipelines de investigación requiere validación cuidadosa y supervisión humana, especialmente en tareas que involucran datos multimodales o razonamiento causal.
"La IA puede ayudar, asistir y a veces proporcionar información sorprendentemente útil, pero no puede reemplazar de manera confiable la experiencia, el juicio y el escepticismo que requiere la investigación científica real." — Slashdot

En conclusión, LifeSciBench es un paso importante hacia la evaluación realista de la IA en ciencias de la vida, pero sus resultados subrayan que aún queda un largo camino por recorrer antes de que los sistemas de IA puedan actuar como científicos autónomos. La combinación de habilidades humanas y herramientas de IA parece ser, por ahora, el camino más prometedor para avanzar en la investigación biomédica.

Puntos clave

  • OpenAI lanza LifeSciBench, benchmark de 750 tareas para IA en ciencias de la vida.
  • GPT-Rosalind solo aprueba el 36.1% de las tareas, fallando en casi dos tercios.
  • El rendimiento de la IA cae drásticamente al trabajar con figuras o datos complejos.
  • La IA es útil como asistente pero no reemplaza el juicio humano en investigación.
  • LifeSciBench establece expectativas realistas para el uso de IA en biotecnología.

Preguntas frecuentes

¿Qué es LifeSciBench?

Es un benchmark de 750 tareas creado por OpenAI para evaluar la capacidad de los sistemas de IA en tareas realistas de investigación en ciencias de la vida.

¿Qué modelo probó OpenAI y cuál fue su resultado?

OpenAI probó su modelo GPT-Rosalind, que obtuvo una tasa de aprobación del 36.1%, fallando en el 63.9% de las tareas.

¿Por qué es importante este benchmark?

Porque revela las limitaciones actuales de la IA en investigación científica, especialmente cuando se enfrenta a datos no textuales, y establece expectativas realistas para su uso en biotecnología.

Fuentes utilizadas

Comentarios

Sé el primero en comentar.

Deja tu comentario