Wir kaufen gebrauchte IT-Ausrüstung!

Die Entscheidung über die Kühlung, die Ihre nächste Infrastrukturauffrischung bestimmen wird

Die Entscheidung über die Kühlung, die Ihre nächste Infrastrukturauffrischung bestimmen wird
Lesezeit: 6 Minuten

So wie der Markt über Kühlung spricht, könnte man meinen, dass die Wahl einfach ist: Luftkühlung ist veraltet, Flüssigkeitskühlung ist die Zukunft, und jeder, der immer noch CRAC-Einheiten in großem Maßstab einsetzt, ist rückständig.

Das ist falsch, und es kostet die Menschen Geld.

Die Flüssigkeitskühlung bietet echte Effizienzgewinne und ermöglicht Rack-Dichten, an die Luft einfach nicht herankommt. Sie bringt aber auch Infrastrukturverpflichtungen, Abhängigkeiten von Einrichtungen und eine komplexe Stilllegung mit sich, die in den Verkaufsargumenten der Anbieter nicht erwähnt werden.

Die richtige Architektur hängt davon ab, was sich tatsächlich in Ihren Regalen befindet. 

Für die meisten Unternehmensumgebungen lautet die Antwort nicht überall Flüssigkeit. Dort, wo die thermische Belastung es rechtfertigt, ist es Flüssigkeit, und überall sonst Luft.

Luftkühlung: Immer noch der Standard, mit echten Grenzen

Luftkühlung ist in den meisten Unternehmensrechenzentren nach wie vor die vorherrschende Architektur. Und für die meisten Nicht-AI-Workloads ist sie auch völlig ausreichend. Computer Room Air Conditioner (CRAC) und Computer Room Air Handler (CRAH) Einheiten zirkulieren gekühlte Luft durch erhöhte Bodenplenums oder Überkopfversorgung.

Die kühle Luft transportiert die Wärme aus den Hintertüren der Server. Die Kühlsysteme steuern die Umgebungstemperatur innerhalb eines definierten thermischen Rahmens. 

Diese Infrastruktur ist gut bekannt, die Wartungsfähigkeiten sind weit verbreitet, und das Ökosystem der Geräte (Server, Switches, Speicher) ist darauf ausgerichtet und optimiert.

Die Grenze ist die Physik. 

Luft hat eine etwa 800-mal geringere Wärmekapazität als Wasser, gemessen am Volumen. Um genug davon zu bewegen, um die Wärmedichte eines modernen GPU-Clusters zu bewältigen, sind Lüfter erforderlich, die mit hohen Geschwindigkeiten laufen und viel Strom verbrauchen und Lärm erzeugen. Ganz zu schweigen davon, dass die CRAC-Einheiten selbst viel Energie verbrauchen. 

Nach Angaben der Association for Computer Operations Management steigt die Rack-Dichte von 7 kW pro Rack im Jahr 2021 auf 16 kW pro Rack im Jahr 2025, wobei das stärkste Wachstum bei KI- und Hyperscale-Implementierungen zu verzeichnen ist. Bei Rack-Dichten über 30 bis 40 Kilowatt wird die Luftkühlung immer teurer. Ab 60 Kilowatt ist sie in keiner konventionellen Form mehr praktikabel.

Für Unternehmensumgebungen mit gemischten Arbeitslasten (KI-Inferenzcluster neben herkömmlichen Rechen-, Speicher- und Netzwerksystemen) werden die Anforderungen komplizierter. Die Speicherreihen und die Netzwerkausrüstung bleiben gut innerhalb der Reichweite der Luftkühlung. Für die GPU-Knoten gilt das nicht. 

Außerbetriebnahme von luftgekühlter Hardware 

Die Außerbetriebnahme einer luftgekühlten Architektur ist einfach. Das Gerät kommt so aus dem Rack heraus, wie es hineingekommen ist: Keine Rückstände, kein Umgang mit Flüssigkeiten, keine Kontaminationsprobleme. Server, Laufwerke und Komponenten sind in dem Moment, in dem sie ausgeschaltet und entfernt werden, bereit für Tests, Bewertungen und den Wiederverkauf oder ein verantwortungsvolles Recycling. 

Für ITAD-Zwecke ist luftgekühlte Hardware das einfachste Szenario.

Direct-to-Chip-Flüssigkeitskühlung: Der pragmatische Einstiegspunkt

Bei der Direct-to-Chip (D2C)-Kühlung (manchmal auch Cold Plate Cooling genannt) wird flüssiges Kühlmittel durch Metallplatten geleitet, die direkt auf den Komponenten mit hoher Hitzeentwicklung angebracht sind: CPUs, GPUs und Beschleuniger

Bei einem geschlossenen Kreislauf wird das Kühlmittel von einer Coolant Distribution Unit (CDU) durch die Rohrleitungen auf Rack-Ebene zu den Kühlplatten und zurück geleitet, wobei die Wärme an einen sekundären Gebäudekreislauf oder Wärmetauscher übertragen wird. Die Abluft des Servers führt immer noch etwas Restwärme mit sich, die in der Regel durch ein kleineres Zusatzluftsystem abgeführt wird, aber ~70-90% der Wärmelast wird direkt am Chip aufgefangen.

D2C beherrscht derzeit den größten Teil des Marktes für Flüssigkeitskühlung. Sein Vorteil bei der Übernahme ist, dass es erfordert nicht, dass die Server neu aufgebaut oder untergetaucht werden müssen: Standard-Serverformfaktoren können nachgerüstet oder flüssigkeitsgekühlt von Dell, HPE, Lenovo und anderen erworben werden. NVIDIA empfiehlt für seine DGX- und HGX H100-Systeme ausdrücklich eine direkte Kühlung bis zum Chip. Die CDU-Infrastruktur erfordert zwar Änderungen an den Rohrleitungen der Anlage und Leckerkennungssysteme, aber die Umstellung ist deutlich weniger störend als die Tauchkühlung - eine weitere bewährte Methode der Flüssigkeitskühlung.

Stilllegung von Hardware für die Direct-to-Chip-Flüssigkeitskühlung 

In der Stilllegungsphase bringt D2C eine besondere Komplikation mit sich, die es bei der Luftkühlung nicht gibt: die Befestigung der Kühlplatten. Kühlplatten sind mechanisch an der CPU befestigt und GPU-Gehäusen, in der Regel mit Wärmeleitmaterial (TIM) zwischen der Kühlplatte und dem Chipgehäuse. 

Um eine Kühlplatte zu entfernen, ohne den Prozessor zu beschädigen, muss man die spezifischen Drehmomentspezifikationen und Ausbauverfahren kennen. Wenn Techniker D2C-Server wie luftgekühlte Server behandeln, werden sie Komponenten beschädigen. Sie sind anfällig für Schäden an der Kühlplatte, der TIM-Schicht, dem Prozessorgehäuse oder allen drei. Einen brauchbaren H100 zu beschädigen bedeutet im Grunde, Tausende von Dollar in Brand zu setzen. 

Das restliche Kühlmittel im Kreislauf auf der Rackseite muss ordnungsgemäß abgelassen und entsorgt werden, bevor die Hardware entfernt wird. Es handelt sich hierbei nicht um eine komplexe Gefahrstoffsituation; Wasser-Glykol-Gemische sind wohlbekannt. Aber es erfordert ein definiertes Ablassverfahren.

Ihr ITAD-Partner sollte wissen, dass er danach fragen muss, bevor die Stilllegungsmannschaft eintrifft.

Immersionskühlung: Maximale Dichte, maximale Komplexität der Übergänge

Bei der Tauchkühlung werden ganze Server in eine dielektrische Flüssigkeit getaucht: eine nichtleitende Flüssigkeit, die die Wärme von allen Komponenten gleichzeitig aufnimmt. 

Beim einphasigen Eintauchen zirkuliert die Flüssigkeit durch den Tank und durch einen externen Wärmetauscher und bleibt während des gesamten Zyklus flüssig. Beim Zweiphasentauchen verdampft eine Flüssigkeit mit niedrigerem Siedepunkt, wenn sie Wärme aufnimmt, kondensiert in einem Wärmetauscher über dem Tank und fließt als Flüssigkeit zurück. Dadurch wird eine wesentlich höhere Wärmeübertragungseffizienz erreicht.

Die Dichtezahlen sind beträchtlich. Einphasige Tauchsysteme bewältigen Rack-Dichten von 100 bis 120 Kilowatt. Zweiphasige Systeme erreichen höhere Werte. Ein gut geführtes luftgekühltes Rechenzentrum erreicht laut AKCP in der Regel eine Power Usage Effectiveness (PUE) von 1,4 bis 1,6. Das bedeutet, dass für jede Energieeinheit, die für die Rechenleistung verbraucht wird, 0,4 bis 1,6 Energieeinheiten für die Kühlung aufgewendet werden. In Zentren mit Flüssigkeitskühlung liegt dieser Wert viel niedriger, bei 1,1 oder weniger.    

Der Kompromiss ist die Verpflichtung zur Infrastruktur. 

Das Eintauchen erfordert Tank-Hardware, maßgeschneiderte wasserdichte Gehäuse, die für bestimmte Serverkonfigurationen ausgelegt sind, für das Eintauchen konstruierte CDUs, modifizierte Sanitäranlagen und dielektrische Flüssigkeitsmanagementsysteme. 

Bei Standardservern kann es erforderlich sein, die Hardware vor dem Eintauchen zu modifizieren: Die Lüfter werden in der Regel entfernt, und die Kompatibilität der Komponenten mit der spezifischen dielektrischen Chemie muss bestätigt werden. Intel hat bestimmte dielektrische Flüssigkeiten für die Verwendung mit seinen Xeon-Prozessorreihen offiziell zertifiziert. NVIDIAs GPUs mit Blackwell-Architektur sind mit Flüssigkeitskühlung, einschließlich Eintauchen, als beabsichtigte Wärmemanagementmethode konzipiert.

Stilllegung der Hardware für die Eintauchkühlung 

Die Außerbetriebnahme von tauchgekühlter Hardware ist die komplizierteste dieser drei Kühlarchitekturen. Jeder Server, der aus dem Tank kommt, ist mit Rückständen der dielektrischen Flüssigkeit überzogen. Diese Rückstände müssen entfernt werden, bevor die Hardware genau getestet, bewertet oder weiterverkauft werden kann. Für den Reinigungsprozess sind Lösungs- oder Reinigungsmittel erforderlich, die mit der spezifischen dielektrischen Chemie kompatibel sind (Flüssigkeiten auf Fluorkohlenstoffbasis, Flüssigkeiten auf Kohlenwasserstoffbasis und synthetische Ester), die jeweils unterschiedliche Reinigungsanforderungen stellen und unterschiedliche Umweltbedingungen berücksichtigen.

Dielektrische Flüssigkeiten auf Fluorkohlenstoffbasis enthalten Verbindungen, die als PFAS eingestuft werden: Per- und Polyfluoralkylsubstanzen, die manchmal auch als "forever chemicals" bezeichnet werden. PFAS werden in den USA und in der EU von den Behörden immer genauer unter die Lupe genommen. Ein ITAD-Anbieter, der noch nie mit tauchgekühlter Hardware aus einem PFAS-Flüssigkeitssystem gearbeitet hat, verfügt möglicherweise nicht über den Entsorgungspfad, das Wissen über die Vorschriften oder die Zertifizierungen der Einrichtung, um diesen Strom korrekt zu verwalten. 

Dies ist kein Einzelfall. Es handelt sich um ein aktives Regulierungs- und Umweltrisiko, das bei der Stilllegung zu Ihrem Problem wird, wenn Sie Ihren ITAD-Partner nicht vor Beginn des Projekts danach gefragt haben.

Das Hybridmodell: Wie Luft und Flüssigkeit zusammenarbeiten

Die überwiegende Mehrheit der Unternehmensrechenzentren mit Flüssigkeitskühlung wird nicht vollständig umgestellt. Mit anderen Worten: Die Architektur der Flüssigkeitskühlung ist fast gleichbedeutend mit einem Hybridmodell, das sowohl Luft- als auch Flüssigkeitskühlung verwendet.

Die Funktionslogik eines Hybridmodells ist die thermische Zonierung. KI-Rechencluster mit hoher Dichte (GPU-Knoten, Beschleuniger-Arrays, HPC-Infrastruktur) werden in flüssigkeitsgekühlten Zonen entweder mit D2C oder Immersion isoliert. Die höchste Wärmeleistungsdichte rechtfertigt dies. 

Standardmäßige Rechen-, Speicher-, Netzwerk- und Verwaltungsinfrastrukturen verbleiben in luftgekühlten Bereichen, in denen die thermische Belastung die Investitionen in die Infrastruktur oder die betriebliche Komplexität von Flüssigkeiten nicht rechtfertigt.

Hinweis: Die NVIDIA Rubin-Linie ist zum Zeitpunkt der Veröffentlichung dieses Blogs noch nicht verfügbar, aber die kW-pro-Rack-Schätzungen reichen von 

Art der InfrastrukturTypische Rack-DichteEmpfohlene KühlungKomplexität der Stilllegung
AI/GPU-Rechencluster (H100, B200, MI300X)80-140+ kW pro RackDirekt auf den Chip oder EintauchenMittelhoch: Entfernen von Kühlplatten, Ablassen von Flüssigkeiten, Reinigung des Dielektrikums
Universelle Datenverarbeitung/Virtualisierung5-25 kW pro GestellLuftkühlungGering: Standardentfernung, keine Rückstände oder Flüssigkeitshandhabung
Speicher-Arrays für Unternehmen5-15 kW pro GestellLuftkühlungGering bis mittel: Standardentnahme, einfache Bewertung. Die Komplexität hängt von den Compliance-Anforderungen ab
Kernnetzwerke / Top-of-Rack-Switching2-8 kW pro GestellLuftkühlungGering: Standardentnahme, gut verstandener Sekundärmarkt
Inferenz-optimierte Server (GPUs mit geringerer Last)25-50 kW pro GestellLuftkühlung oder Wärmetauscher an der HintertürGering bis mittel: Ausbau der HX-Hintertür, kein Flüssigkeitskontakt auf Komponentenebene

Der Wärmetauscher an der Rückseite der Tür (RDHx) ist eine mittlere Technologie, die natürlich in hybride Designs passt. Eine flüssigkeitsgekühlte Platte, die an der Rückseite eines Standard-Serverschranks angebracht ist, absorbiert die Wärme aus der Abluft, bevor sie wieder in die Datenhalle gelangt. 

RDHx erfordert keine Kühlplatten oder Servermodifikationen (vorhandene luftgekühlte Server arbeiten unverändert), aber es reduziert die Belastung der Kühlinfrastruktur in der Einrichtung und erweitert den Bereich der realisierbaren Dichte von luftgekühlten Reihen. Bei der Außerbetriebnahme wird die RDHx-Hardware auf Rack-Ebene entfernt und erfordert keine Flüssigkeitsbehandlung auf Komponentenebene.

Die betriebliche Herausforderung in einer Hybridanlage besteht darin, dass verschiedene Zonen unterschiedliche Stilllegungsverfahren, unterschiedliche ITAD-Fachkenntnisse und eine unterschiedliche Dokumentation erfordern. 

Ein ITAD-Anbieter, der luftgekühlte Hardware effizient handhaben kann, verfügt möglicherweise nicht über die Kenntnisse in Bezug auf Kühlplatten, die Handhabung dielektrischer Flüssigkeiten oder Umweltgenehmigungen, um die flüssigkeitsgekühlten Zonen korrekt zu verwalten. Besprechen Sie die Kühlungsarchitektur frühzeitig, wenn Sie eine Stilllegung planen, sonst müssen Sie sich während des Betriebs um die Logistik kümmern.

Die Wirtschaftlichkeit der Stilllegung eines flüssigkeitsgekühlten Rechenzentrums

Luftgekühlte Hardware kommt sauber aus dem Rack, wird getestet, bewertet und nach einem relativ vorhersehbaren Zeitplan dem Sekundärmarkt oder dem verantwortungsvollen Recycling zugeführt. Der ITAD-Prozess ist in der Branche gut bekannt, und der Wiederverwertungswert lässt sich leicht abschätzen.

Direct-to-Chip-Hardware erhöht den Arbeitsaufwand auf Komponentenebene. Der Ausbau von Kühlplatten erfordert geschulte Techniker, die die Drehmomentspezifikationen und Ausbauverfahren für jede Hardwarekonfiguration kennen. Unsachgemäß entfernte Kühlplatten beschädigen Prozessorgehäuse und verringern oder beseitigen den Wiederverkaufswert. 

Ein ITAD-Partner, der bereits DGX- und HGX-Systeme verarbeitet hat, bringt dieses Wissen mit. Ein Partner, der das nicht hat, wird anfällig für Fehler sein.

Bei tauchgekühlter Hardware kommt zu der Arbeit auf Komponentenebene noch die Komplexität der Handhabung von Flüssigkeiten hinzu. Jeder Server muss gereinigt werden, bevor er genau inspiziert oder getestet werden kann. Die Chemie des Dielektrikums bestimmt den Reinigungsansatz und die Anforderungen an die Entsorgung. 

Wenn die Anlage Flüssigkeiten auf Fluorkohlenstoffbasis verwendet, überschneidet sich der Abfallstrom mit den PFAS-Vorschriften, die sowohl in den USA als auch in der EU aktiv weiterentwickelt werden. Der ITAD-Anbieter benötigt einen dokumentierten Entsorgungsweg für diesen Strom und nicht die Zusage, dass er ihn irgendwann herausfinden wird.

Keine dieser Komplexitäten macht die Flüssigkeitskühlung zur falschen Wahl. 

Die Anforderungen an die thermische Leistung, insbesondere für KI-Hardwarekomponenten, sind perfekt für die Flüssigkeitskühlung geeignet. Flüssigkühlung ist jedoch mit Kosten verbunden, und Ihre Rechenzentrumsteams müssen dies von Anfang an bedenken. Planen Sie die zusätzliche Stilllegung bereits bei der Installation der Kühlarchitektur ein, nicht erst, wenn der Aktualisierungszyklus ansteht.

de_DEGerman