En medelstor tillverkare i Ohio budgeterar $180.000 för en serveruppdatering med samma konfiguration som de har köpt i tre år i rad. Offerten kommer tillbaka på $240 000. Ledtid: 34 veckor.
De minnesmoduler de behöver är tilldelade. Inte avvecklad.
De efterfrågas av någon som lade en order för sex månader sedan med mer kapital och en längre planeringshorisont.
Det scenariot utspelar sig just nu i alla sektorer som berör datorhårdvara. Grundorsaken är inte en fabriksbrand eller ett logistikstrul under pandemitiden. Den är strukturell: AI förbrukar minne snabbare än industrin kan producera det, och resten av marknaden köper det som finns kvar.
Att förstå varför det här händer och varför det inte kommer att lösa sig av sig självt är det enda sättet att planera för det.
Varför AI förbrukar minne i den här skalan
Att träna en stor AI-modell är inte en enda beräkning. Det är miljarder parametrar som laddas in i minnet samtidigt och bearbetas av tusentals GPU-kärnor som körs parallellt.
Det vanligaste tillvägagångssättet är dataparallellism: träningsdatasetet delas lika över hårdvaran. Varje komponent kör hela modellen mot sin tilldelade del, och modellen förenar resultaten. När du tränar en modell med hundratals miljarder parametrar behöver varje GPU minne med hög bandbredd (HBM) för att hålla sin del av arbetsbelastningen medan bearbetningen sker. Fler parametrar betyder fler GPU: er och mer HBM. Förhållandet är i stort sett linjärt och det finns ingen arkitektonisk genväg runt det.
Inferens lägger till ytterligare ett lager. När en användare skickar in en fråga startar modellen parallella arbetsbelastningar för att generera svaret. Inferens är mindre minnesintensivt än träning, men i den skala som hyperscalers arbetar i - miljontals frågor per timme - förbrukar det fortfarande betydande HBM-kapacitet.
Resultatet blev..: varje större AI-utbyggnad är en ihållande, storskalig minnesanskaffning. Och det finns dussintals av dem som sker samtidigt.
Flaskhalsen inuti flaskhalsen
Dagens GPU:er (H100, B200) är tillräckligt snabba för att minnet inte ska kunna hålla jämna steg med dem. Vissa GPU:er kan bearbeta data snabbare än vad till och med det mest högpresterande HBM-minnet kan leverera, vilket tvingar GPU:n att strypa hastigheten för att matcha minnesbandbredden. Du betalar för maximal beräkningskapacitet och kör med en bråkdel av den.
Tänk på GPU:n som ett kök. Kockarna är processorerna och minnet är expediten som kommunicerar mellan kocken och servrarna. Om expediten bara kan leverera 1 måltid varje minut spelar det ingen roll att kocken kan laga 1 rätt varje sekund. Hur snabbt rätterna serveras beror lika mycket på expeditören som på kocken.
Organisationer kan lägga till mer minne för att hantera en del av detta. Att flytta data från en GPU till en annan, eller från GPU till lagring, är fortfarande för långsamt oavsett hur mycket minne du har. Mer minne utökar kapaciteten. Det fixar inte överföringshastigheten. Expeditören kan ha fler biljetter, men maten tar fortfarande samma tid att komma fram.
Det är därför som hyperscalers inte bara köper mer minne. De köper allt minne med högsta prestanda som finns tillgängligt, låser in det i fleråriga avtal och tar bort det från marknaden innan nästa köpare får en chans att lämna ett bud.
Det som redan blir dyrare
De hårdvarukategorier som just nu står inför de kraftigaste prisökningarna och den knappaste tillgängligheten:
- SSD-enheter med hög kapacitet (2 TB-8 TB)
- Stora RAM-kit (32 GB-128 GB)
- 1TB+ microSD-kort
- CFexpress och professionella SD-kort
- GPU:er med stort VRAM. H100, A100 och deras motsvarigheter i konsumentklass
Detta är inte begränsat till företagsinfrastruktur. Dell ompositionerar högkapacitetsminne som en premiumfunktion. HP har minskat minneskonfigurationerna på vissa enheter för att behålla prispunkterna. Nintendo rabatterar digitala spelköp för att minska efterfrågan på kassettlagring. Sony har lagrat RAM-minne för att förbereda sig för det här scenariot, men höjer ändå priset på sina spelkonsoler med $100 eller mer, beroende på modell.
När Sony och Nintendo gör strategiska minnesutspel har bristen flyttat långt förbi företagsIT till den bredare ekonomin.
Vem blir mest skadad?
Minnestillverkarnas prioritet är enkel ekonomi: det är effektivare att leverera en order på 1.000 enheter än 1.000 order på enstaka enheter. Enterprise- och hyperscale-kunder med kapital att engagera får tilldelning. Alla andra konkurrerar om det som återstår.
Det innebär att småföretag, organisationer med begränsade IT-budgetar och enskilda konsumenter köper på en marknad som inte var strukturerad för dem. Om du inte kan förhandla fram ett långsiktigt avtal och sätta in kapital i förväg, befinner du dig på spotmarknaden. Du betalar mer, väntar längre och får mindre förutsägbarhet.
Moderna fordon, smartphones, surfplattor, industriell utrustning, medicinsk utrustning: allt med en processor och inbyggd lagring är minneskonsumenter. Prispressen är inte begränsad till ditt serverrum. Den dyker upp i upphandlingskategorier som du kanske inte har flaggat som IT-hårdvara.
Om du inte har råd med ny hårdvara, begagnade och renoverade komponenter är ett legitimt alternativ på kort sikt. Kapaciteten kommer inte att matcha den nuvarande generationens specifikationer. För arbetsbelastningar som inte kräver det är prestandakompromissen hanterbar och kostnadsskillnaden är verklig.
Varför effektivitetsvinster inte kommer att lösa detta
Det intuitiva antagandet är att minnestekniken kommer att förbättras, att kostnaderna kommer att sjunka och att bristen kommer att rätta till sig själv. Jevons paradox tyder på motsatsen.
När en resurs blir mer effektiv ökar efterfrågan på den i stället för att minska. Effektivare minne möjliggör större modeller, som kräver mer minne. Lägre kostnad per gigabyte innebär att organisationer som tidigare inte hade råd med stora minnesinstallationer nu kan motivera dem. Varje effektivitetsförbättring expanderar den adresserbara marknaden för nästa generations minnesintensiva applikationer.
Googles TurboQuant-komprimeringsalgoritm minskar till exempel kraftigt den mängd minne som krävs för att LLM:er ska fungera samtidigt som hastigheten ökar. Om du sätter den här algoritmen i produktion minskar minnesanvändningen 6x, så att du kan omfördela minne från LLM-inferensarbetsbelastningar samtidigt som du behåller samma prestandanivå.
Företagen kommer inte bara att ta det omallokerade minnet och sälja det. De kommer att omfördela det till AI-träning, vilket är ännu mer minnesintensivt än inferens, eller så kommer de att skala upp sina inferensarbetsbelastningar ännu mer. Den mer effektiva hårdvaran uppmuntrar till ytterligare skalning, inte till stagnation.
Detta har varit mönstret med alla större datorresurser: lagring, bandbredd, beräkning. Det finns ingen strukturell anledning till att minne skulle vara annorlunda.
Även om organisationer minskar sin minnesanvändning i AI-arbetsbelastningar finns det en massiv efterfrågan på minne i andra branscher. Tillverkare av datorer och bärbara datorer, leverantörer av molntjänster, smarttelefontillverkare, biltillverkare och otaliga andra företag behöver verkligen minne. Det går inte att komma runt.
Vad du kan göra nu
Bristen löser sig inte nästa kvartal. Planera därefter.
Om du har kapital att satsa är långsiktiga avtal med tillverkare det mest direkta sättet att säkra tilldelningen. Du konkurrerar med mycket större inköpare, men en bindande order på volym är mer attraktiv än ett spotköp.
Om du inte har det kapitalet måste du prioritera. Identifiera vilka minnesberoende system som är kritiska för din verksamhet och skydda dessa inköpslinjer först. Acceptera att icke-kritisk hårdvara kan ha längre uppdateringscykler än planerat.
Marknaden har redan omstrukturerats kring de köpare som agerade tidigt. Frågan är nu om din planeringshorisont är tillräckligt lång för att fånga nästa allokeringsfönster, eller om du fortfarande reagerar på det du missade.