
Inteligencia Artificial14 de junio de 2026 · 4 min
DPO: La optimización de preferencias que va más allá de los chatbots
Direct Preference Optimization (DPO) ha demostrado ser una técnica eficaz para alinear modelos de lenguaje con preferencias humanas sin necesidad de refuerzo complejo. Pero su aplicación va mucho más allá de los chatbots: desde la generación de imágenes hasta la robótica, DPO está transformando cómo entrenamos sistemas de IA.