Wij kopen gebruikte IT-apparatuur!

Het geheugentekort is meer dan een probleem in de toeleveringsketen

Het geheugentekort is meer dan een probleem in de toeleveringsketen
Leestijd: 4 minuten

Een middelgrote fabrikant in Ohio budgetteert $180.000 voor een serverrenovatie met dezelfde configuratie die ze al drie jaar achter elkaar hebben aangeschaft. De offerte komt terug op $240.000. Doorlooptijd: 34 weken. 

De geheugenmodules die ze nodig hebben worden toegewezen. Niet beëindigd. 

Ze zijn bezet door iemand die zes maanden geleden een bestelling heeft geplaatst met meer kapitaal en een langere planningshorizon.

Dat scenario speelt zich momenteel af in elke sector die in aanraking komt met computerhardware. De hoofdoorzaak is niet een fabrieksbrand of een pandemische logistieke storing. Het is structureel: AI verbruikt geheugen sneller dan de industrie het kan produceren en de rest van de markt koopt wat overblijft.

Begrijpen waarom dit gebeurt en waarom het niet vanzelf oplost, is de enige manier om er omheen te plannen.

Waarom AI geheugen op deze schaal gebruikt

Het trainen van een groot AI-model is niet een enkele berekening. Het zijn miljarden parameters die tegelijkertijd in het geheugen worden geladen en verwerkt worden door duizenden GPU-kernen die parallel draaien.

De meest gebruikelijke aanpak is dataparallellisme: de trainingsdataset wordt gelijk verdeeld over de hardware. Elk onderdeel voert het volledige model uit tegen het toegewezen deel en het model verzoent de resultaten. Wanneer je een model traint met honderden miljarden parameters, heeft elke GPU een geheugen met hoge bandbreedte (HBM) nodig om zijn deel van de werklast vast te houden terwijl de verwerking plaatsvindt. Meer parameters betekent meer GPU's en meer HBM. De relatie is grofweg lineair en er is geen architecturale kortere weg omheen.

Inference voegt nog een laag toe. Wanneer een gebruiker een vraag stelt, start het model parallelle workloads om het antwoord te genereren. Inference is minder geheugenintensief dan training, maar op de schaal waarop hyperscalers werken - miljoenen query's per uur - verbruikt het nog steeds veel HBM-capaciteit.

Het resultaat: elke grote AI-uitbreiding is een aanhoudende, grootschalige geheugenverwervende gebeurtenis. En er gebeuren er tientallen tegelijk.

De flessenhals binnen de flessenhals

De GPU's van tegenwoordig (H100's, B200's) zijn zo snel dat het geheugen ze niet kan bijhouden. Sommige GPU's kunnen gegevens sneller verwerken dan zelfs HBM met de hoogste prestaties kan leveren, wat de GPU dwingt om gas terug te nemen om de bandbreedte van het geheugen te evenaren. Je betaalt voor piek rekencapaciteit en draait op een fractie daarvan.

Zie de GPU als een keuken. De chefs zijn de processors en het geheugen is de expeditor, die communiceert tussen de chef en de servers. Als de expediteur slechts 1 maaltijd per minuut kan leveren, maakt het niet uit dat de chef-kok 1 gerecht per seconde kan bereiden. Het tempo waarin de gerechten worden geserveerd hangt net zo goed af van de expediteur als van de chef-kok. 

Organisaties kunnen meer geheugen toevoegen om hier iets aan te doen. Het verplaatsen van gegevens van de ene GPU naar de andere of van GPU naar opslag is nog steeds te langzaam, ongeacht hoeveel geheugen je hebt. Meer geheugen vergroot de capaciteit. Het lost de snelheid van de overdracht niet op. De expediteur kan meer kaartjes bewaren, maar het eten doet er nog steeds even lang over om aan te komen.

Daarom kopen hyperscalers niet alleen meer geheugen. Ze kopen al het best presterende geheugen dat beschikbaar is, sluiten het in meerjarige overeenkomsten en halen het van de markt voordat de volgende koper de kans krijgt om een bod uit te brengen.

Wat al duurder wordt

De hardwarecategorieën met de scherpste prijsstijgingen en de krapste beschikbaarheid op dit moment:

  • SSD's met hoge capaciteit (2TB-8TB)
  • Grote RAM-kits (32 GB-128 GB)
  • 1TB+ microSD-kaarten
  • CFexpress en professionele SD-kaarten
  • GPU's met veel VRAM. H100, A100 en hun consumentenequivalenten

Dit is niet beperkt tot bedrijfsinfrastructuur. Dell herpositioneert geheugen met hoge capaciteit als een eersteklas eigenschap. HP heeft de geheugenconfiguraties op sommige apparaten verlaagd om de prijs vast te houden. Nintendo geeft korting op de aankoop van digitale games om de vraag naar opslagruimte voor cartridges te verminderen. Sony heeft RAM opgeslagen om zich voor te bereiden op dit scenario, maar verhoogt nog steeds de prijs van zijn spelconsoles met $100 of meer, afhankelijk van het model.

Wanneer Sony en Nintendo strategische geheugenspelletjes doen, is het tekort al lang niet meer beperkt tot bedrijfs-IT, maar verplaatst het zich naar de bredere economie.

Wie wordt het meest gekwetst?

De prioriteit van geheugenfabrikanten is eenvoudigweg economisch: het is efficiënter om één order van 1000 eenheden uit te voeren dan 1000 orders van één enkele eenheid. Enterprise en hyperscale klanten die kapitaal kunnen toezeggen, krijgen de toewijzing. Alle anderen concurreren om wat overblijft.

Dat betekent dat kleine bedrijven, organisaties met beperkte IT-budgetten en individuele consumenten kopen in een markt die niet voor hen is gestructureerd. Als je niet kunt onderhandelen over een langetermijnovereenkomst en vooraf kapitaal kunt storten, zit je op de spotmarkt. Je betaalt meer, wacht langer en krijgt minder voorspelbaarheid.

Moderne voertuigen, smartphones, tablets, industriële apparatuur, medische apparaten: alles met een processor en onboard opslag is een geheugengebruiker. De prijsdruk is niet beperkt tot uw serverruimte. Het is te zien in inkoopcategorieën die u misschien niet hebt aangemerkt als IT-hardware.

Als je geen nieuwe hardware meer wilt, gebruikte en gereviseerde onderdelen zijn een legitieme optie op korte termijn. De capaciteit zal niet overeenkomen met de specificaties van de huidige generatie. Voor werklasten die dat niet nodig hebben, is het prestatieverlies beheersbaar en is het kostenverschil reëel.

Waarom efficiëntieverbeteringen dit niet zullen oplossen

De intuïtieve aanname is dat geheugentechnologie zal verbeteren, de kosten zullen dalen en het tekort zichzelf zal corrigeren. De paradox van Jevons suggereert iets anders.

Wanneer een bron efficiënter wordt, neemt de vraag ernaar toe in plaats van af. Efficiënter geheugen maakt grotere modellen mogelijk, waarvoor meer geheugen nodig is. Lagere kosten per gigabyte betekenen dat organisaties die zich voorheen geen grote geheugenimplementaties konden veroorloven, deze nu wel kunnen rechtvaardigen. Elke verbetering in efficiëntie vergroot de markt voor de volgende generatie geheugenintensieve toepassingen.

Het TurboQuant compressiealgoritme van Google vermindert bijvoorbeeld de hoeveelheid geheugen die LLM's nodig hebben om te werken aanzienlijk, terwijl de snelheid toeneemt. Door dit algoritme in productie te nemen, wordt het geheugengebruik 6x zo laag. U kunt dus geheugen toewijzen aan LLM-inferentiewerklasten terwijl het prestatieniveau hetzelfde blijft.

Bedrijven zullen dat opnieuw toegewezen geheugen niet zomaar verkopen. Ze zullen het toewijzen aan AI-training, wat nog meer geheugen kost dan inferentie, of ze zullen hun inferentiewerklasten nog verder opschalen. De efficiëntere hardware stimuleert schaalvergroting, geen stilstand. 

Dit is het patroon geweest bij elke belangrijke computerbron: opslag, bandbreedte, computing. Er is geen structurele reden waarom geheugen anders zal zijn.

Zelfs als organisaties hun geheugengebruik in AI-workloads verminderen, is er een enorme vraag naar geheugen in andere sectoren. Pc- en laptopfabrikanten, cloud computing providers, smartphonefabrikanten, autofabrikanten en talloze andere bedrijven hebben geheugen hard nodig. Je kunt er niet omheen. 

Wat u nu kunt doen

Het tekort is volgend kwartaal nog niet opgelost. Plan dienovereenkomstig.

Als je kapitaal kunt vastleggen, zijn langetermijnovereenkomsten met fabrikanten de meest directe manier om toewijzing veilig te stellen. Je concurreert met veel grotere inkopers, maar een toegezegde volumebestelling is aantrekkelijker dan een spotaankoop.

Als u dat kapitaal niet hebt, stel dan prioriteiten. Bepaal welke geheugenafhankelijke systemen kritisch zijn voor uw activiteiten en bescherm die aanschaflijnen als eerste. Accepteer dat niet-kritieke hardware mogelijk langere verversingscycli heeft dan gepland.

De markt heeft zich al geherstructureerd rond de kopers die vroeg hebben gehandeld. De vraag is nu of je planningshorizon lang genoeg is om het volgende toewijzingsvenster op te vangen, of dat je nog steeds reageert op het venster dat je hebt gemist.

nl_NLDutch