Ein mittelgroßer Hersteller in Ohio veranschlagt $180.000 für die Erneuerung eines Servers mit derselben Konfiguration, die er seit drei Jahren verwendet. Der Kostenvoranschlag lautet auf $240.000. Vorlaufzeit: 34 Wochen.
Die von ihnen benötigten Speichermodule werden zugewiesen. Nicht ausgelaufen.
Sie werden von jemandem in Anspruch genommen, der vor sechs Monaten einen Auftrag mit mehr Kapital und einem längeren Planungshorizont erteilt hat.
Dieses Szenario spielt sich derzeit in allen Bereichen ab, die mit Computerhardware zu tun haben. Die Ursache ist weder ein Fabrikbrand noch ein pandemiebedingtes Logistikproblem. Sie ist strukturell bedingt: KI verbraucht Speicher schneller, als die Industrie ihn produzieren kann, und der Rest des Marktes kauft, was übrig bleibt.
Nur wenn man versteht, warum dies geschieht und warum es sich nicht von selbst löst, kann man entsprechend planen.
Warum KI in dieser Größenordnung Speicher verbraucht
Das Training eines großen KI-Modells ist keine einzelne Berechnung. Es sind Milliarden von Parametern, die gleichzeitig in den Speicher geladen und von Tausenden von parallel laufenden GPU-Kernen verarbeitet werden.
Der gängigste Ansatz ist die Datenparallelität: Der Trainingsdatensatz wird gleichmäßig auf die Hardware verteilt. Jede Komponente führt das vollständige Modell anhand des ihr zugewiesenen Slice aus, und das Modell gleicht die Ergebnisse ab. Wenn Sie ein Modell mit Hunderten von Milliarden von Parametern trainieren, benötigt jede GPU einen Speicher mit hoher Bandbreite (HBM), um ihren Teil der Arbeitslast zu speichern, während die Verarbeitung stattfindet. Mehr Parameter bedeuten mehr GPUs und mehr HBM. Die Beziehung ist in etwa linear, und es gibt keine architektonische Abkürzung dafür.
Die Inferenz fügt eine weitere Ebene hinzu. Wenn ein Benutzer eine Eingabeaufforderung abschickt, startet das Modell parallele Workloads, um die Antwort zu generieren. Die Inferenz ist weniger speicherintensiv als das Training, aber bei der Größenordnung, in der Hyperscaler arbeiten - Millionen von Abfragen pro Stunde - verbraucht sie immer noch erhebliche HBM-Kapazität.
Das Ergebnis: jede größere KI-Entwicklung ist ein anhaltender, großvolumiger Speicherbeschaffungsvorgang. Und davon gibt es Dutzende gleichzeitig.
Der Engpass im Inneren des Engpasses
Die heutigen Grafikprozessoren (H100, B200) sind so schnell, dass der Speicher nicht mit ihnen mithalten kann. Einige GPUs können Daten schneller verarbeiten, als selbst der leistungsstärkste HBM sie liefern kann, was die GPU dazu zwingt, die Leistung zu drosseln, um mit der Speicherbandbreite Schritt zu halten. Sie zahlen für die maximale Rechenkapazität und arbeiten mit einem Bruchteil davon.
Stellen Sie sich die GPU wie eine Küche vor. Die Köche sind die Prozessoren und der Speicher ist der Expeditor, der zwischen den Köchen und den Servern kommuniziert. Wenn der Expeditor nur eine Mahlzeit pro Minute liefern kann, spielt es keine Rolle, dass der Chefkoch jede Sekunde ein Gericht zubereiten kann. Das Tempo, in dem die Gerichte serviert werden, hängt vom Disponenten genauso ab wie vom Koch.
Unternehmen können mehr Speicher hinzufügen, um einige dieser Probleme zu lösen. Das Verschieben von Daten von einer GPU zu einer anderen oder von der GPU zum Speicher ist immer noch zu langsam, unabhängig davon, wie viel Arbeitsspeicher zur Verfügung steht. Mehr Speicher erweitert die Kapazität. Die Geschwindigkeit der Übertragung wird dadurch nicht verbessert. Der Expeditor kann mehr Tickets aufnehmen, aber das Essen braucht immer noch die gleiche Zeit, um anzukommen.
Aus diesem Grund kaufen Hyperscaler nicht einfach mehr Speicher. Sie kaufen den gesamten verfügbaren Hochleistungsspeicher, binden ihn in mehrjährigen Verträgen und nehmen ihn vom Markt, bevor der nächste Käufer die Chance hat, ein Angebot abzugeben.
Was bereits teurer wird
Die Hardware-Kategorien mit den stärksten Preiserhöhungen und der knappsten Verfügbarkeit sind derzeit am stärksten betroffen:
- SSDs mit hoher Speicherkapazität (2TB-8TB)
- Große RAM-Kits (32GB-128GB)
- 1TB+ microSD-Karten
- CFexpress und professionelle SD-Karten
- GPUs mit großem VRAM. H100, A100 und ihre Äquivalente für Verbraucher
Dies ist nicht auf die Unternehmensinfrastruktur beschränkt. Dell positioniert Arbeitsspeicher mit hoher Kapazität als eine Premium-Ausstattungsstufe. HP hat bei einigen Geräten die Speicherkonfigurationen reduziert, um die Preise zu halten. Nintendo gewährt beim Kauf digitaler Spiele Rabatte, um die Nachfrage nach Cartridge-Speicher zu verringern. Sony hat sich mit RAM eingedeckt, um für dieses Szenario gewappnet zu sein, erhöht aber dennoch den Preis seiner Videospielkonsolen um $100 oder mehr, je nach Modell.
Wenn Sony und Nintendo strategische Speicherlösungen anbieten, hat sich die Knappheit weit über die Unternehmens-IT hinaus auf die Wirtschaft ausgeweitet.
Wer wird am meisten geschädigt?
Die Priorität der Speicherhersteller liegt in der Wirtschaftlichkeit: Es ist effizienter, eine Bestellung von 1.000 Einheiten zu erfüllen als 1.000 Einzelaufträge. Unternehmens- und Hyperscale-Kunden, die Kapital bereitstellen können, erhalten Zuteilungen. Alle anderen konkurrieren um das, was übrig bleibt.
Das bedeutet, dass kleine Unternehmen, Organisationen mit eingeschränkten IT-Budgets und Privatkunden auf einem Markt kaufen, der nicht für sie strukturiert wurde. Wenn Sie keinen langfristigen Vertrag aushandeln und kein Kapital im Voraus anzahlen können, befinden Sie sich auf dem Spotmarkt. Sie zahlen mehr, müssen länger warten und haben weniger Planungssicherheit.
Moderne Fahrzeuge, Smartphones, Tablets, Industrieausrüstungen, medizinische Geräte: Alles, was einen Prozessor und integrierten Speicher hat, ist ein Speicherverbraucher. Der Preisdruck ist nicht auf Ihren Serverraum beschränkt. Er macht sich in Beschaffungskategorien bemerkbar, die Sie vielleicht nicht als IT-Hardware erkannt haben.
Wenn Sie sich keine neue Hardware leisten können, gebrauchte und aufgearbeitete Komponenten sind eine legitime Option für die nahe Zukunft. Die Kapazität entspricht nicht den Spezifikationen der aktuellen Generation. Bei Arbeitslasten, die dies nicht erfordern, ist der Leistungsnachteil überschaubar, und der Kostenunterschied ist real.
Warum Effizienzsteigerungen das Problem nicht lösen werden
Man geht intuitiv davon aus, dass sich die Speichertechnologie verbessern wird, die Kosten sinken und der Mangel sich von selbst beheben wird. Das Jevons-Paradoxon legt das Gegenteil nahe.
Wenn eine Ressource effizienter wird, steigt die Nachfrage nach ihr, anstatt zu sinken. Ein effizienterer Speicher ermöglicht größere Modelle, die mehr Speicher benötigen. Niedrigere Kosten pro Gigabyte bedeuten, dass Unternehmen, die sich zuvor keine großen Speicherimplementierungen leisten konnten, diese nun rechtfertigen können. Jede Effizienzverbesserung vergrößert den adressierbaren Markt für die nächste Generation speicherintensiver Anwendungen.
Der Komprimierungsalgorithmus TurboQuant von Google zum Beispiel reduziert den für LLMs erforderlichen Speicherplatz erheblich und erhöht gleichzeitig die Geschwindigkeit. Der Einsatz dieses Algorithmus in der Produktion reduziert die Speichernutzung um das 6-fache, so dass Sie bei gleichbleibender Leistung Speicher von LLM-Inferenz-Workloads weg zuweisen können.
Die Unternehmen werden den neu zugewiesenen Speicher nicht einfach verkaufen. Sie werden ihn dem KI-Training zuweisen, das noch speicherintensiver ist als die Inferenz, oder sie werden ihre Inferenz-Workloads noch weiter ausbauen. Die effizientere Hardware bietet Anreize für eine weitere Skalierung, nicht für Stillstand.
Dies war bei allen wichtigen Computerressourcen der Fall: Speicher, Bandbreite, Rechenleistung. Es gibt keinen strukturellen Grund dafür, dass es beim Speicher anders sein wird.
Selbst wenn Unternehmen ihre Speichernutzung bei KI-Workloads reduzieren, besteht in anderen Branchen ein enormer Bedarf an Speicher. PC- und Laptop-Hersteller, Cloud-Computing-Anbieter, Smartphone-Produzenten, Autohersteller und zahllose andere Unternehmen brauchen dringend Speicher. Daran führt kein Weg vorbei.
Was Sie jetzt tun können
Der Mangel ist im nächsten Quartal noch nicht behoben. Planen Sie entsprechend.
Wenn Sie über das nötige Kapital verfügen, sind langfristige Vereinbarungen mit Herstellern der direkteste Weg, um Zuteilungen zu erhalten. Sie konkurrieren zwar mit viel größeren Abnehmern, aber eine verbindliche Bestellung mit einem bestimmten Volumen ist attraktiver als ein Spontankauf.
Wenn Sie dieses Kapital nicht haben, sollten Sie Prioritäten setzen. Ermitteln Sie, welche speicherabhängigen Systeme für Ihren Betrieb entscheidend sind, und schützen Sie diese Beschaffungslinien zuerst. Akzeptieren Sie, dass nicht kritische Hardware längere Aktualisierungszyklen als geplant durchlaufen kann.
Der Markt hat sich bereits um die Käufer, die früh gehandelt haben, neu strukturiert. Die Frage ist nun, ob Ihr Planungshorizont lang genug ist, um das nächste Zuteilungsfenster zu erwischen, oder ob Sie noch auf das verpasste Fenster reagieren.