Ejecutan modelo de 397B parámetros en un PC con Ryzen AI Max+ 395
Longsys demuestra que la inferencia de IA masiva ya no requiere un clúster de GPUs, gracias a 128 GB de RAM unificada y el nuevo procesador AMD.
19 de junio de 2026 · 5 min de lectura
¿Qué ha ocurrido?
Longsys, fabricante chino de memorias y almacenamiento, ha demostrado la ejecución de un modelo de inteligencia artificial masivo de 397 mil millones de parámetros en un PC de escritorio basado en el procesador AMD Ryzen AI Max+ 395. El sistema contaba con 128 GB de RAM unificada, aprovechando la arquitectura de memoria compartida CPU-GPU de AMD, similar a la serie Ryzen 7040/8040 con gráficos RDNA 3 y motor de IA XDNA. La hazaña fue reportada por TechRadar, que califica el hecho como un salto enorme en la computación edge, subrayando que se trata de un hito técnico que acerca la inteligencia artificial de gran escala a entornos locales.
El modelo utilizado no fue especificado públicamente, pero por su tamaño (397B parámetros) se especula que podría ser una versión cuantificada de Llama 3.1 405B o similar, ya que 128 GB de RAM unificada permiten alojar modelos de ese orden con cuantificación de 4 u 8 bits. La demostración se realizó en un PC personalizado por Longsys, lo que indica que no es un producto comercial inmediato sino un proof-of-concept para validar la viabilidad técnica.
¿Por qué es importante?
Hasta ahora, modelos de este tamaño requerían múltiples GPUs empresariales como NVIDIA H100 (80 GB VRAM cada una) o A100, en configuraciones de 8 o más unidades, con un coste que supera fácilmente los 300.000 dólares y un consumo energético de varios kilovatios. Ejecutarlos en un PC de consumo reduce drásticamente la barrera de entrada, permitiendo a startups, universidades y desarrolladores individuales experimentar con modelos de frontera sin depender de la nube o de infraestructura costosa. Esto democratiza el acceso a la inteligencia artificial de alto nivel, acelerando la innovación en campos como la investigación médica, el procesamiento de lenguaje natural y la visión por computadora.
Además, la computación edge (en el borde) se beneficia enormemente: poder ejecutar modelos masivos localmente mejora la privacidad de los datos, reduce la latencia y elimina la dependencia de conexiones a internet. Sectores como salud (diagnóstico por imagen), finanzas (detección de fraude) y defensa (análisis en tiempo real) podrían adoptar estas capacidades sin enviar datos sensibles a la nube.
¿Qué consecuencias tendrá?
En el corto plazo, veremos un aumento en el desarrollo de modelos optimizados para memoria compartida y técnicas de cuantificación agresiva. AMD podría ganar tracción en el mercado de estaciones de trabajo IA frente a NVIDIA, que domina con sus GPUs dedicadas pero a un coste mayor. Sin embargo, la latencia y el rendimiento de inferencia serán inferiores a un clúster dedicado, por lo que no reemplazará a los centros de datos para despliegues masivos o entrenamiento. La demostración de Longsys es un indicador de que la arquitectura de memoria unificada de AMD (similar a la de Apple con sus chips M) puede competir en el segmento de inferencia local.
A largo plazo, esto impulsará la computación en el borde (edge AI) y aplicaciones donde la privacidad de datos es crítica. También podría presionar a NVIDIA para ofrecer soluciones más asequibles o acelerar el desarrollo de sus propias APUs con memoria unificada. Empresas como Microsoft (con su chip Pluton) y Apple (con M2 Ultra) también avanzan en esta dirección, pero AMD tiene la ventaja de ser un estándar abierto en PC.
Lo que los lectores deben saber
- El modelo utilizado no fue especificado, pero probablemente sea una versión cuantificada (4 bits o 8 bits) para caber en 128 GB. Un modelo de 397B parámetros en FP16 ocuparía ~794 GB, imposible en un PC. Con cuantificación de 4 bits, el tamaño se reduce a ~198 GB, aún por encima de 128 GB, por lo que se requieren técnicas adicionales como pruning o destilación.
- El rendimiento de inferencia no se ha revelado; es probable que sea lento comparado con GPUs dedicadas. La inferencia de modelos grandes en APUs puede ser de 1-5 tokens por segundo, frente a los 50+ tokens/s en H100. Sin embargo, para tareas por lotes o no interactivas, puede ser suficiente.
- Esta demostración es un proof-of-concept, no un producto comercial. Longsys es conocido por memorias y SSD, no por PCs IA, por lo que la comercialización dependería de integradores o de AMD lanzando plataformas similares.
- AMD Ryzen AI Max+ 395 integra una NPU (Neural Processing Unit) para aceleración de IA, pero la ejecución de modelos tan grandes depende principalmente de la RAM y la GPU integrada RDNA 3.5. La NPU está diseñada para modelos más pequeños y eficientes.
"La capacidad de ejecutar modelos de 400B parámetros en un PC de escritorio es un hito que redefine lo que consideramos 'computación edge'." — Analista de TheVortiq.
Contexto histórico
Hace apenas un año, ejecutar un modelo de 400B parámetros requería al menos 8 GPUs H100 (80 GB cada una) o servidores especializados con interconexiones de alta velocidad como NVLink. El coste de hardware superaba los 300.000 dólares, más electricidad y refrigeración. La evolución de la memoria unificada en APUs de AMD, combinada con técnicas de cuantificación (como GPTQ, AWQ, GGUF), ha permitido este avance. Es comparable al salto de los mainframes a las PC en los años 80: lo que antes requería una sala entera ahora cabe en un escritorio. Apple ya había demostrado ejecución de modelos de 70B en Mac Studio con M2 Ultra (192 GB unificados), pero 397B es un orden de magnitud superior.
Además, la comunidad open-source ha desarrollado herramientas como llama.cpp y Ollama que optimizan la inferencia en CPU/GPU integrada, facilitando estos experimentos. Longsys ha aprovechado este ecosistema para su demostración.
Implicaciones para el mercado
Empresas como Apple (con su memoria unificada M2 Ultra) y Microsoft (con Pluton) también avanzan en esta dirección. AMD podría posicionarse como líder en estaciones de trabajo IA asequibles, compitiendo directamente con las Mac Studio de Apple y las workstations con GPUs NVIDIA. Sin embargo, NVIDIA sigue dominando en rendimiento bruto y tiene una ventaja en software (CUDA, TensorRT). La competencia beneficiará a los consumidores, con más opciones y precios más bajos.
Para Longsys, esta demostración es una estrategia de marketing para posicionarse como innovador en memorias para IA. Podría impulsar la demanda de sus módulos DDR5 y SSD de alta capacidad. Para AMD, es una prueba de concepto que podría traducirse en futuras APUs con mayor ancho de banda y capacidad de memoria unificada, quizás alcanzando los 256 GB en próximas generaciones.
En resumen, la hazaña de Longsys marca un antes y un después en la computación edge, acercando la inteligencia artificial de frontera a los usuarios finales. Aunque aún hay limitaciones de rendimiento, la tendencia es clara: la IA local se está democratizando rápidamente.
Puntos clave
- Un PC con AMD Ryzen AI Max+ 395 y 128 GB de RAM ejecutó un modelo de 397 mil millones de parámetros.
- Hace un año, esto requería múltiples GPUs empresariales en servidores.
- La hazaña es posible gracias a la memoria unificada y técnicas de cuantificación.
- Implica una democratización de la IA de alto nivel para investigación y edge computing.
- El rendimiento de inferencia aún no se ha revelado; probablemente sea inferior a clústeres dedicados.
Preguntas frecuentes
¿Qué modelo de IA se ejecutó?
No se especificó, pero probablemente sea una versión cuantificada de Llama 3.1 405B o similar.
¿Qué hardware se utilizó?
Un PC personalizado con AMD Ryzen AI Max+ 395 y 128 GB de RAM, probablemente con almacenamiento SSD.
¿Es mejor que usar GPUs?
No en rendimiento bruto, pero sí en accesibilidad y costo. Es ideal para prototipado y edge computing.
¿Cuándo estará disponible comercialmente?
Es solo un demostrador. No hay fecha de comercialización.
Fuentes utilizadas
Sigue leyendo
Comentarios
Sé el primero en comentar.