Compramos equipos informáticos usados

La escasez de memoria es más que un problema de la cadena de suministro

La escasez de memoria es más que un problema de la cadena de suministro
Tiempo de lectura: 4 minutos

Un fabricante de tamaño medio de Ohio presupuesta $180.000 por la renovación de un servidor con la misma configuración que lleva comprando tres años seguidos. El presupuesto asciende a $240.000. Plazo de entrega: 34 semanas. 

Los módulos de memoria que necesitan están asignados. No descatalogados. 

Habla por ellos alguien que hizo un pedido hace seis meses con más capital y un horizonte de planificación más largo.

Esta situación se está produciendo en todos los sectores relacionados con los equipos informáticos. La causa no es un incendio en una fábrica ni una pandemia logística. Es estructural: La IA está consumiendo memoria más rápido de lo que la industria puede producirla, y el resto del mercado está comprando lo que queda.

Comprender por qué ocurre esto y por qué no se resolverá por sí solo es la única manera de planificarlo.

Por qué la IA consume memoria a esta escala

Entrenar un modelo de IA de gran tamaño no es un único cálculo. Se trata de miles de millones de parámetros cargados simultáneamente en la memoria y procesados en miles de núcleos de GPU que funcionan en paralelo.

El enfoque más común es el paralelismo de datos: el conjunto de datos de entrenamiento se divide a partes iguales entre el hardware. Cada componente ejecuta el modelo completo con su porción asignada y el modelo concilia los resultados. Cuando se entrena un modelo con cientos de miles de millones de parámetros, cada GPU necesita memoria de gran ancho de banda (HBM) para almacenar su parte de la carga de trabajo mientras se procesa. A más parámetros, más GPU y más HBM. La relación es aproximadamente lineal y no existe ningún atajo arquitectónico para evitarla.

La inferencia añade otra capa. Cuando un usuario envía una consulta, el modelo lanza cargas de trabajo paralelas para generar la respuesta. La inferencia requiere menos memoria que la formación, pero a la escala a la que operan los hiperescaladores -millones de consultas por hora- sigue consumiendo una importante capacidad de HBM.

El resultado: cada gran construcción de IA es un evento de aprovisionamiento de memoria sostenido y de gran volumen. Y hay docenas de ellos ocurriendo simultáneamente.

El cuello de botella dentro del cuello de botella

Las GPU actuales (H100, B200) son tan rápidas que la memoria no puede seguirles el ritmo. Algunas GPU pueden procesar datos más rápido de lo que la memoria HBM de mayor rendimiento puede suministrar, lo que obliga a la GPU a reducir su velocidad para adaptarse al ancho de banda de la memoria. Estás pagando por una capacidad de cálculo máxima y funcionando a una fracción de ella.

Piensa en la GPU como si fuera una cocina. Los chefs son los procesadores y la memoria es el expedidor, que se comunica entre el chef y los servidores. Si el expedidor sólo puede entregar 1 comida cada minuto, no importa que el chef pueda cocinar 1 plato cada segundo. El ritmo al que se sirven los platos depende tanto del expedidor como del chef. 

Las organizaciones pueden añadir más memoria para solucionar parte de este problema. Mover datos de una GPU a otra, o de la GPU al almacenamiento, sigue siendo demasiado lento independientemente de la cantidad de memoria que se tenga. Más memoria amplía la capacidad. No arregla la velocidad de transferencia. El expedidor puede guardar más tickets, pero la comida sigue tardando lo mismo en llegar.

Por eso los hiperescaladores no se limitan a comprar más memoria. Compran toda la memoria de mayor rendimiento disponible, la bloquean en acuerdos plurianuales y la retiran del mercado antes de que el siguiente comprador tenga la oportunidad de presentar una oferta.

Lo que ya es más caro

Las categorías de hardware que afrontan los mayores aumentos de precio y la menor disponibilidad en estos momentos:

  • Unidades SSD de gran capacidad (2 TB-8 TB)
  • Kits de RAM grandes (32 GB-128 GB)
  • Tarjetas microSD de más de 1 TB
  • Tarjetas CFexpress y SD profesionales
  • GPU con gran VRAM. H100, A100 y sus equivalentes de consumo

Esto no se limita a la infraestructura empresarial. Dell está reposicionando la memoria de alta capacidad como un nivel de características premium. HP ha reducido las configuraciones de memoria en algunos dispositivos para mantener los precios. Nintendo está aplicando descuentos en la compra de juegos digitales para reducir la demanda de cartuchos de almacenamiento. Sony ha hecho acopio de RAM para prepararse para esta situación, pero sigue subiendo el precio de sus consolas de videojuegos en $100 o más, según el modelo.

Cuando Sony y Nintendo hacen jugadas estratégicas con la memoria, la escasez ha dejado atrás la informática empresarial y se ha trasladado a la economía en general.

¿Quién sale más perjudicado?

La prioridad de los fabricantes de memorias es simplemente económica: es más eficiente satisfacer un pedido de 1.000 unidades que 1.000 pedidos de una sola unidad. Los clientes empresariales y de hiperescala con capital para comprometer obtienen la asignación. Todos los demás compiten por lo que queda.

Eso significa que las pequeñas empresas, las organizaciones con presupuestos limitados para TI y los consumidores particulares... están comprando en un mercado que no estaba estructurado para ellos. Si no puedes negociar un acuerdo a largo plazo y aportar capital por adelantado, estás en el mercado al contado. Pagas más, esperas más y tienes menos previsibilidad.

Vehículos modernos, teléfonos inteligentes, tabletas, equipos industriales, dispositivos médicos: cualquier cosa con un procesador y almacenamiento integrado consume memoria. La presión sobre los precios no se limita a la sala de servidores. Aparece en categorías de compras que quizá no hayas marcado como hardware informático.

Si se te acaba el presupuesto para comprar hardware nuevo, los componentes usados y reacondicionados son una opción legítima a corto plazo. La capacidad no igualará las especificaciones de la generación actual. Para las cargas de trabajo que no lo requieren, la compensación de rendimiento es manejable y la diferencia de coste es real.

Por qué el aumento de la eficiencia no lo solucionará

La suposición intuitiva es que la tecnología de la memoria mejorará, los costes bajarán y la escasez se corregirá por sí sola. La paradoja de Jevons sugiere lo contrario.

Cuando un recurso se vuelve más eficiente, su demanda aumenta en lugar de disminuir. Una memoria más eficiente permite modelos más grandes, que requieren más memoria. Un menor coste por gigabyte significa que las organizaciones que antes no podían permitirse grandes despliegues de memoria ahora pueden justificarlos. Cada mejora de la eficiencia amplía el mercado al que puede dirigirse la próxima generación de aplicaciones con uso intensivo de memoria.

Por ejemplo, el algoritmo de compresión TurboQuant de Google reduce en gran medida la cantidad de memoria necesaria para el funcionamiento de los LLM al tiempo que aumenta la velocidad. Poner este algoritmo en producción reducirá el uso de memoria 6 veces, por lo que puedes reasignar memoria lejos de las cargas de trabajo de inferencia LLM manteniendo el mismo nivel de rendimiento.

Las empresas no se limitarán a vender la memoria reasignada. La reasignarán al entrenamiento de IA, que requiere aún más memoria que la inferencia, o ampliarán aún más sus cargas de trabajo de inferencia. Un hardware más eficiente incentiva el crecimiento, no el estancamiento. 

Este ha sido el patrón con todos los recursos informáticos importantes: almacenamiento, ancho de banda, computación. No hay ninguna razón estructural para que la memoria sea diferente.

Incluso si las organizaciones reducen el uso de memoria en las cargas de trabajo de IA, existe una demanda masiva de memoria en otros sectores. Los fabricantes de PC y portátiles, los proveedores de computación en la nube, los fabricantes de smartphones, los fabricantes de automóviles y muchas otras empresas necesitan memoria con urgencia. No hay vuelta de hoja. 

Qué puede hacer ahora

La escasez no se resolverá el próximo trimestre. Planifique en consecuencia.

Si tiene capital para comprometer, los acuerdos a largo plazo con los fabricantes son la forma más directa de asegurarse la asignación. Se compite con compradores mucho mayores, pero un pedido comprometido por volumen es más atractivo que una compra al contado.

Si no dispone de ese capital, establezca prioridades. Identifique qué sistemas dependientes de la memoria son críticos para sus operaciones y proteja primero esas líneas de aprovisionamiento. Acepte que el hardware no crítico puede tener ciclos de actualización más largos de lo previsto.

El mercado ya se ha reestructurado en torno a los compradores que actuaron pronto. La cuestión ahora es si su horizonte de planificación es lo suficientemente largo como para captar la próxima ventana de asignación, o si todavía está reaccionando a la que se perdió.

es_ESSpanish