La IA ha puesto patas arriba una vieja regla de los servidores: la memoria ya no quiere vivir en cada máquina
La memoria de la conversación. Cada respuesta de un modelo de lenguaje se construye poco a poco, token a token. Para no recalcular todo lo anterior en cada paso, los sistemas guardan una especie de memoria de trabajo llamada KV cache. The Next Platform explica que ahí se conservan los vectores de atención previos, que ayudan al modelo a seguir teniendo en cuenta el contexto mientras genera la respuesta. El problema es que en servicios con muchos usuarios esa caché puede crecer hasta ocupar cantidades enormes de memoria, incluso más que el propio modelo.
Ya no es solo teoría. Esta idea ya no vive solo en documentos técnicos o promesas de arquitectura. The Register menciona a Panmnesia, Liqid y UnifabriX como compañías que trabajan en sistemas para llevar memoria fuera del servidor y ponerla al alcance de varias máquinas. Algunos lo hacen con switches CXL, otros con grandes reservas de DDR5 que pueden repartirse entre distintos hosts. The Next Platform añade el caso de Enfabrica y su sistema Emfasys, pensado para inferencia y capaz, según el medio, de alcanzar 18 TB de DDR5 por servidor de memoria y 144 TB en un rack completo. La conclusión es sencilla: la industria no solo busca más memoria, busca colocarla de otra manera para que la IA pueda aprovecharla mejor.
Imágenes | Xataka con Nano Banana
Fuente: Artículo original