Nous achetons du matériel informatique d'occasion !

La pénurie de mémoires est plus qu'un simple incident dans la chaîne d'approvisionnement

La pénurie de mémoires est plus qu'un simple incident dans la chaîne d'approvisionnement
Temps de lecture : 4 minutes

Un fabricant de taille moyenne de l'Ohio prévoit un budget de 1T4T180 000 pour le rafraîchissement d'un serveur en utilisant la même configuration que celle qu'il achète depuis trois ans. Le devis revient à $240 000. Délai d'exécution : 34 semaines. 

Les modules de mémoire dont ils ont besoin sont attribués. Non abandonné. 

Ils sont demandés par quelqu'un qui a passé une commande il y a six mois avec un capital plus important et un horizon de planification plus long.

Ce scénario se déroule actuellement dans tous les secteurs qui touchent au matériel informatique. La cause première n'est pas un incendie d'usine ou un problème de logistique dû à une pandémie. Elle est structurelle : L'IA consomme de la mémoire plus rapidement que l'industrie ne peut en produire, et le reste du marché achète ce qui reste.

Comprendre pourquoi cela se produit, et pourquoi cela ne se résoudra pas tout seul, est la seule façon de planifier.

Pourquoi l'IA consomme-t-elle de la mémoire à cette échelle ?

L'entraînement d'un grand modèle d'IA n'est pas un calcul unique. Il s'agit de milliards de paramètres chargés en mémoire simultanément, traités par des milliers de cœurs de GPU fonctionnant en parallèle.

L'approche la plus courante est le parallélisme des données : l'ensemble des données d'apprentissage est réparti de manière égale sur le matériel. Chaque composant exécute le modèle complet sur la tranche qui lui est attribuée, et le modèle réconcilie les résultats. Lorsque vous entraînez un modèle avec des centaines de milliards de paramètres, chaque GPU a besoin d'une mémoire à large bande passante (HBM) pour conserver sa part de la charge de travail pendant le traitement. Plus de paramètres signifie plus de GPU et plus de HBM. La relation est à peu près linéaire et il n'y a pas de raccourci architectural possible.

L'inférence ajoute une couche supplémentaire. Lorsqu'un utilisateur soumet une requête, le modèle lance des charges de travail parallèles pour générer la réponse. L'inférence est moins gourmande en mémoire que l'entraînement, mais à l'échelle à laquelle les hyperscalers fonctionnent - des millions de requêtes par heure - elle consomme toujours une capacité HBM significative.

Le résultat : tous les grands projets d'IA est un événement soutenu d'acquisition de mémoire en grande quantité. Et il y en a des dizaines qui se produisent simultanément.

Le goulot d'étranglement L'intérieur du goulot d'étranglement

Les GPU d'aujourd'hui (H100, B200) sont suffisamment rapides pour que la mémoire ne puisse pas suivre. Certains GPU peuvent traiter des données plus rapidement que la mémoire HBM la plus performante ne peut le faire, ce qui oblige le GPU à réduire sa vitesse pour s'adapter à la bande passante de la mémoire. Vous payez pour une capacité de calcul maximale et vous ne l'utilisez qu'à une fraction de celle-ci.

Imaginez le GPU comme une cuisine. Les chefs sont les processeurs et la mémoire est l'expéditeur, qui communique entre le chef et les serveurs. Si l'expéditeur ne peut livrer qu'un repas par minute, il importe peu que le chef puisse cuisiner un plat par seconde. Le rythme auquel les plats sont servis dépend autant de l'expéditeur que du chef. 

Les entreprises peuvent ajouter de la mémoire pour remédier en partie à ce problème. Le déplacement des données d'un GPU à l'autre, ou d'un GPU au stockage, reste trop lent, quelle que soit la quantité de mémoire disponible. Plus de mémoire augmente la capacité. Elle ne règle pas la vitesse de transfert. L'expéditeur peut contenir plus de tickets, mais la nourriture met toujours le même temps à arriver.

C'est pourquoi les hyperscalers ne se contentent pas d'acheter plus de mémoire. Ils achètent toute la mémoire la plus performante disponible, la bloquent dans des accords pluriannuels et la retirent du marché avant que l'acheteur suivant n'ait la possibilité de soumettre une offre.

Ce qui devient déjà plus cher

Les catégories de matériel informatique qui subissent les plus fortes augmentations de prix et les plus faibles disponibilités à l'heure actuelle :

  • Disques SSD de grande capacité (2TB-8TB)
  • Kits de RAM de grande taille (32GB-128GB)
  • 1TB+ cartes microSD
  • Cartes CFexpress et SD professionnelles
  • GPU dotés d'une grande VRAM. H100, A100 et leurs équivalents grand public

Ce phénomène ne se limite pas à l'infrastructure des entreprises. Dell repositionne la mémoire à haute capacité comme un niveau de fonctionnalité supérieur. HP a réduit les configurations de mémoire sur certains appareils pour maintenir ses prix. Nintendo fait des remises sur les achats de jeux numériques afin de réduire la demande de stockage de cartouches. Sony a stocké de la mémoire vive pour se préparer à ce scénario, mais il continue d'augmenter le prix de ses consoles de jeux vidéo de $100 ou plus, selon le modèle.

Lorsque Sony et Nintendo jouent la carte de la mémoire stratégique, la pénurie a largement dépassé le cadre de l'informatique d'entreprise pour s'étendre à l'ensemble de l'économie.

Qui est le plus touché ?

La priorité des fabricants de mémoire est tout simplement économique : il est plus efficace d'honorer une commande de 1 000 unités que 1 000 commandes d'unités individuelles. Les entreprises et les clients à très grande échelle qui ont des capitaux à engager obtiennent une allocation. Tous les autres se font concurrence pour obtenir ce qui reste.

Cela signifie que les petites entreprises, les organisations dont les budgets informatiques sont limités et les consommateurs individuels ont besoin de l'aide de l'Union européenne. achètent sur un marché qui n'a pas été structuré pour eux. Si vous ne pouvez pas négocier un accord à long terme et verser un capital à l'avance, vous êtes sur le marché au comptant. Vous payez plus cher, vous attendez plus longtemps et vous êtes moins prévisible.

Véhicules modernes, smartphones, tablettes, équipements industriels, appareils médicaux : tout ce qui est équipé d'un processeur et d'une mémoire embarquée consomme de la mémoire. La pression sur les prix ne se limite pas à la salle des serveurs. Elle se manifeste dans des catégories d'achat que vous n'avez peut-être pas identifiées comme étant du matériel informatique.

Si vous ne pouvez pas acheter de nouveau matériel, les composants usagés et remis à neuf constituent une option légitime à court terme. La capacité ne correspondra pas aux spécifications de la génération actuelle. Pour les charges de travail qui ne l'exigent pas, le compromis de performance est gérable et la différence de coût est réelle.

Pourquoi les gains d'efficacité ne résoudront pas le problème

L'hypothèse intuitive est que la technologie des mémoires s'améliorera, que les coûts baisseront et que la pénurie se résorbera d'elle-même. Le paradoxe de Jevons suggère le contraire.

Lorsqu'une ressource devient plus efficace, la demande augmente au lieu de diminuer. Une mémoire plus efficace permet d'utiliser des modèles plus grands, qui nécessitent plus de mémoire. La baisse du coût par gigaoctet signifie que les entreprises qui ne pouvaient pas se permettre de déployer de grandes quantités de mémoire peuvent désormais les justifier. Chaque amélioration de l'efficacité élargit le marché accessible pour la prochaine génération d'applications gourmandes en mémoire.

Par exemple, l'algorithme de compression TurboQuant de Google réduit considérablement la quantité de mémoire nécessaire au fonctionnement des LLM tout en augmentant la vitesse. La mise en production de cet algorithme réduira l'utilisation de la mémoire de 6 fois, ce qui vous permettra de réaffecter la mémoire des charges de travail d'inférence LLM tout en conservant le même niveau de performance.

Les entreprises ne se contenteront pas de vendre la mémoire réaffectée. Elles la réaffecteront à la formation à l'IA, qui est encore plus gourmande en mémoire que l'inférence, ou elles augmenteront encore davantage leurs charges de travail d'inférence. Le matériel plus efficace incite à l'augmentation de l'échelle, et non à la stagnation. 

Il en a été ainsi pour toutes les ressources informatiques importantes : stockage, bande passante, calcul. Il n'y a aucune raison structurelle pour que la mémoire soit différente.

Même si les entreprises réduisent leur utilisation de la mémoire dans les charges de travail d'IA, il existe une demande massive de mémoire dans d'autres secteurs. Les fabricants de PC et d'ordinateurs portables, les fournisseurs d'informatique en nuage, les fabricants de smartphones, les constructeurs automobiles et d'innombrables autres entreprises ont un besoin urgent de mémoire. Il n'y a pas moyen d'y échapper. 

Ce que vous pouvez faire maintenant

La pénurie ne se résorbera pas au prochain trimestre. Planifiez en conséquence.

Si vous avez des capitaux à engager, les accords à long terme avec les fabricants sont le moyen le plus direct d'obtenir une allocation. Vous êtes en concurrence avec des acheteurs beaucoup plus importants, mais une commande engagée sur un volume est plus intéressante qu'un achat au comptant.

Si vous ne disposez pas de ce capital, établissez des priorités. Identifiez les systèmes dépendant de la mémoire qui sont essentiels à vos opérations et protégez d'abord ces lignes d'approvisionnement. Acceptez que le matériel non critique puisse avoir des cycles de rafraîchissement plus longs que prévu.

Le marché s'est déjà restructuré autour des acheteurs qui ont agi tôt. La question est maintenant de savoir si votre horizon de planification est suffisamment long pour saisir la prochaine fenêtre d'allocation, ou si vous réagissez encore à celle que vous avez manquée.

fr_FRFrench