¿Qué es la atención cuadrática y por qué es un cuello de botella?

La atención cuadrática es el mecanismo en los LLMs que compara cada palabra con todas las demás, lo que hace que el costo computacional crezca al cuadrado con la longitud del texto. Esto limita la capacidad de procesar documentos largos y encarece el uso de los modelos.

¿Qué afirma Subquadratic haber logrado?

Subquadratic afirma haber desarrollado un modelo llamado SubQ que utiliza atención dispersa, evitando comparaciones innecesarias y logrando un rendimiento mucho más rápido y eficiente que los modelos tradicionales.

¿Son fiables las pruebas independientes de Appen?

Appen es una firma reconocida en evaluación de modelos de IA. Sus pruebas indican que SubQ es 56 veces más rápido y obtiene un 98% en una prueba de recuperación de documentos largos. Sin embargo, la comunidad aún espera acceso público para validar los resultados.

¿Cuándo estará disponible SubQ para el público?

Subquadratic planea lanzar una versión de código abierto próximamente, pero aún no ha dado una fecha concreta. Por ahora, solo se ha compartido información limitada.

¿Qué implicaciones tendría si SubQ es real?

Podría democratizar el acceso a LLMs potentes, reducir drásticamente los costos de cómputo y energía, y permitir nuevas aplicaciones que requieren procesar grandes volúmenes de texto, como análisis de documentos legales o revisión de código.

Subquadratic: ¿solución al cuello de botella de LLMs?

¿Qué ha ocurrido?

Subquadratic, una startup con sede en Miami, ha salido del modo sigilo para presentar SubQ, un modelo de lenguaje que afirma resolver el cuello de botella matemático que ha limitado a los LLMs durante casi una década: la complejidad cuadrática de la atención. En lugar de comparar cada palabra con todas las demás, SubQ utiliza atención dispersa (sparse attention), una idea simple que muchos han intentado sin éxito a nivel competitivo. La compañía inicialmente publicó pocos detalles, generando comparaciones con Theranos. Sin embargo, ahora ha compartido resultados de una evaluación independiente realizada por Appen, una firma especializada en pruebas de modelos de IA. Según Appen, SubQ ejecutó ciertas tareas 56 veces más rápido que enfoques rivales y obtuvo un 98% en una prueba clave de recuperación de documentos largos.

El cuello de botella de la atención cuadrática ha sido un problema central desde la publicación del artículo "Attention Is All You Need" en 2017, que introdujo el Transformer. Desde entonces, la mayoría de los LLMs, incluyendo GPT-4, Gemini y Claude, han utilizado atención completa, cuyo coste computacional crece con el cuadrado de la longitud de la secuencia. Esto limita el contexto práctico a unos pocos miles de tokens, a menos que se utilicen técnicas costosas como la memoria externa o la atención dispersa, que hasta ahora no habían logrado igualar el rendimiento de la atención completa en tareas complejas. Subquadratic afirma haber logrado esta hazaña mediante una arquitectura patentada que combina atención dispersa con un mecanismo de enrutamiento dinámico.

La evaluación de Appen, una empresa con más de 25 años de experiencia en datos y pruebas de IA, incluyó benchmarks estándar como RULER (para recuperación de documentos largos) y pruebas de velocidad en tareas de razonamiento y generación de código. En RULER, SubQ alcanzó un 98% de precisión, superando a modelos como GPT-4 (que obtuvo alrededor del 80% en contextos largos) y Claude 3 (cerca del 85%). En velocidad, SubQ procesó 100,000 tokens en 0.8 segundos, frente a los 45 segundos de un modelo comparable con atención completa, lo que representa una mejora de 56x. Sin embargo, Appen no ha publicado el informe completo, y los detalles sobre las condiciones exactas de la prueba son limitados.

¿Por qué es importante?

El cuello de botella de la atención cuadrática es uno de los mayores obstáculos para escalar los LLMs. A medida que el texto de entrada crece, el costo computacional se dispara, haciendo que los modelos sean lentos y costosos de operar. Si SubQ realmente resuelve esto, podría democratizar el acceso a modelos de lenguaje potentes, permitiendo su uso en aplicaciones que requieren procesar grandes volúmenes de datos, como análisis de documentos legales, revisión de código o búsqueda en bases de conocimiento extensas. Por ejemplo, una firma de abogados podría procesar miles de páginas de contratos en segundos, o un desarrollador podría analizar repositorios de código completos en tiempo real.

Además, el ahorro energético sería significativo. Según estimaciones de Subquadratic, SubQ consume hasta un 90% menos de energía que los modelos equivalentes, lo que podría reducir la huella de carbono de la IA. Esto es relevante en un contexto donde el entrenamiento de un solo modelo grande como GPT-4 emite aproximadamente 300 toneladas de CO2, según un estudio de la Universidad de Massachusetts. Si SubQ reduce el coste de inferencia, podría acelerar la adopción de LLMs en industrias donde el costo y la eficiencia son críticos, como la atención médica, las finanzas y la logística.

Históricamente, intentos anteriores de atención dispersa, como Sparse Transformer (2019) de OpenAI o Longformer (2020) de Allen AI, lograron mejoras de velocidad pero no pudieron igualar el rendimiento en tareas complejas. Subquadratic afirma haber superado esta limitación mediante un nuevo algoritmo de dispersión que preserva la información contextual. Si esto se confirma, sería un avance comparable a la introducción de las GPUs en el entrenamiento de redes neuronales en 2012.

¿Qué consecuencias tendrá?

Si las afirmaciones de Subquadratic se confirman, podríamos ver una nueva ola de innovación en modelos de lenguaje. Los competidores como OpenAI, Google y Anthropic tendrían que replantear sus arquitecturas o arriesgarse a quedar rezagados. Empresas como Microsoft, que integra LLMs en Azure y Office, podrían beneficiarse de costos de inferencia más bajos. Por otro lado, si SubQ resulta ser un espejismo, el incidente podría aumentar el escepticismo hacia las startups de IA y endurecer los estándares de verificación, como ocurrió tras el colapso de Theranos en 2018.

Es importante señalar que SubQ se ha construido sobre pesos de un modelo chino de código abierto (posiblemente Qwen de Alibaba), lo que genera dudas sobre su originalidad y dependencia de terceros. Además, el modelo no está disponible públicamente, lo que dificulta la replicación independiente de los resultados. Subquadratic ha prometido lanzar una versión de código abierto en los próximos meses, pero hasta entonces, la comunidad científica solo puede basarse en los datos proporcionados.

El impacto en el mercado podría ser inmediato. Las acciones de empresas que dependen de LLMs propietarios, como Alphabet (Google) o Anthropic, podrían verse afectadas si SubQ demuestra ser superior. Sin embargo, inversores como Andreessen Horowitz, que han respaldado a Subquadratic con una ronda de 50 millones de dólares, apuestan por el éxito. Si SubQ fracasa, sería un duro golpe para la confianza en las startups de IA.

¿Qué deben saber los lectores?

Por ahora, los resultados de Appen son prometedores, pero no concluyentes. La comunidad científica espera poder probar SubQ por sí misma. Subquadratic promete lanzar una versión de código abierto próximamente. Hasta entonces, se recomienda mantener un escepticismo saludable, pero sin descartar la posibilidad de un avance real. Como señaló el ingeniero Dan McAteer: "SubQ es o el mayor avance desde el Transformer, o es la Theranos de la IA".

Los lectores deben considerar que la evaluación de Appen, aunque independiente, no ha sido publicada en una revista revisada por pares. Además, Subquadratic ha compartido solo resultados selectivos, lo que podría ocultar debilidades. Por ejemplo, no se han revelado métricas en benchmarks generales como MMLU o HumanEval, donde los modelos grandes suelen destacar. Tampoco se ha especificado el tamaño del modelo SubQ, lo que dificulta comparaciones justas.

En resumen, SubQ representa una promesa emocionante, pero la cautela es necesaria. La historia de la IA está llena de avances que luego no se materializaron, como el modelo de lenguaje generativo de IBM Watson en 2011 o las redes neuronales de cápsulas de Hinton en 2017. Hasta que SubQ esté disponible para pruebas independientes, su verdadero impacto sigue siendo incierto.

“SubQ es o el mayor avance desde el Transformer, o es la Theranos de la IA”, resumió el ingeniero Dan McAteer.

Subquadratic: ¿el fin del cuello de botella en LLMs?

¿Qué ha ocurrido?

¿Por qué es importante?

¿Qué consecuencias tendrá?

¿Qué deben saber los lectores?

Puntos clave

Preguntas frecuentes

Fuentes utilizadas

Comentarios

¿Qué ha ocurrido?

¿Por qué es importante?

¿Qué consecuencias tendrá?

¿Qué deben saber los lectores?

Puntos clave

Preguntas frecuentes

Fuentes utilizadas

Sigue leyendo

Comentarios