Direkt zum Inhalt
DATENZENTRUM

4 Infrastrukturfehler, die die Einführung von KI verlangsamen - und wie man sie vermeiden kann.

c5a5880befd76eb5a78dcd8772b9522 Michael Wang Apr. 27, 2026
Data Centres AI

Die meisten Berichte über unzureichende KI-Implementierungen konzentrieren sich auf die Modellauswahl, die Datenqualität oder die Wahl der Werkzeuge. Die Infrastruktur ist selten das Hauptthema. Das sollte sie aber sein.

Die physische Netzebene - Verkabelung, Konnektivität, Pfaddesign, Glasfaserarchitektur - ist jetzt ein direkter Bestimmungsfaktor für die Leistung von GPU-Clustern. Die Dichte der Glasfaserverbindungen, die Qualität der physischen Verbindungen: Dies sind keine Hintergrundbedingungen. Sie sind Leistungsvariablen. Und Entscheidungen, die in einem frühen Stadium des Rechenzentrumsdesigns getroffen werden, oft bevor die Anforderungen der KI-Workloads vollständig evaluiert sind, können die Leistung in einer Weise einschränken, die teuer und störend ist und nicht mehr rückgängig gemacht werden kann.

Im Folgenden finden Sie vier Infrastrukturfehler, die bei KI-Implementierungen immer wieder auftreten - und was Sie tun müssen, um sie zu vermeiden.

  1. Auslegung auf Bandbreite ohne Berücksichtigung von Verlusten

Das traditionelle IT-Netzwerkdesign konzentriert sich auf den Durchsatz: Wie viele Daten kann das Netzwerk pro Sekunde übertragen. Bei KI-Trainings- und Inferenz-Workloads werden dabei die kritischen Variablen nicht berücksichtigt.

Die GPU-zu-GPU-Kommunikation beim verteilten KI-Training beruht auf kollektiven Operationen - AllReduce, AllGather, Broadcast -, die eine enge Synchronisierung über Dutzende oder Hunderte von Beschleunigern gleichzeitig erfordern. Der zugrundeliegende Transport, in der Regel RDMA over Converged Ethernet (RoCEv2) oder InfiniBand, ist äußerst empfindlich gegenüber Paketverlusten und Latenzschwankungen. Selbst Paketverluste von weniger als 0,1 % können erneute Übertragungen auslösen, die die GPU-Synchronisierung zum Stillstand bringen, wodurch sich die Leerlaufzeit im gesamten Cluster erhöht. In einem 512-GPU-Trainingscluster kann eine einzige überlastete Verbindung die Gesamtauslastung des Clusters um einen Faktor verschlechtern, der den Trainingszeitraum wirtschaftlich unrentabel macht.

Die Entwicklung von KI bedeutet, dass von Anfang an ein verlustfreies Fabric mit geringer Latenz spezifiziert werden muss: hochwertige optische Verbindungen, die Einfügungsdämpfungsschwankungen eliminieren, und eine Glasfaserinfrastruktur, die die physikalischen Ursachen der Signalverschlechterung beseitigt. Bandbreitenkapazität ist notwendig, aber nicht ausreichend.

  1. Festhalten an der Verkabelung der ersten Generation

Die Aktualisierungszyklen der KI-Infrastruktur werden immer kürzer. Implementierungen, die vor zwei Jahren für 100G in traditionellen DC-Implementierungen gebaut wurden, stehen bereits unter dem Druck von 400G GPU-Interconnects. Bereitstellungen, die heute für 400G spezifiziert sind, benötigen einen glaubwürdigen Weg zu 800G - und 1,6T steht bereits auf der Roadmap.

Der Fehler besteht darin, die physikalische Schicht für die heutige Geschwindigkeitsstufe zu optimieren, ohne Spielraum für weitere Entwicklungen zu lassen. Dies äußert sich typischerweise in der Wahl von Kabeln, die höhere Modulationsformate nicht unterstützen, in Steckerkonfigurationen, die keine Transceiver der nächsten Generation aufnehmen können, oder in der Auslastung von Leitungen, die keinen Platz für zusätzliche Kabel lassen, wenn die Portdichte steigt.

Die KI-Infrastruktur erfordert auch eine andere Netzwerkarchitektur wie Mesh und Spine/Leaf. Ein zukunftssicheres Verkabelungsdesign berücksichtigt, wohin sich die Technologie entwickelt, nicht nur, wo sie ist. Für Glasfaser bedeutet dies, dass OM4 oder OM5 Multimode - oder Singlemode - in Dichten spezifiziert werden, die die nächste Generation von Transceivern aufnehmen können, ohne dass eine vollständige Neuanschaffung erforderlich ist. Bei Glasfaser-Patch-Panels ermöglicht das modulare Design zukünftige Erweiterungen aufgrund von Änderungen des Transceiver-Formfaktors und der neuen Dichte durch die neue Generation von AI-POD. Die Verkabelung hat eine Lebensdauer, die in Jahrzehnten gemessen wird, die aktive Elektronik darüber jedoch nicht. Die Annahme, dass beide den gleichen Erneuerungshorizont haben, ist einer der häufigsten und kostspieligsten Fehler bei der Planung der Infrastruktur von Rechenzentren.

  1. Unterschätzung der Anzahl der benötigten Glasfasern

Nichts offenbart den Unterschied zwischen traditionellem IT-Netzwerkdesign und AI-Fabric-Design schneller als die Anzahl der Glasfasern. Herkömmliche Planungsmodelle für Rechenzentren, die auf Server-to-ToR-Konnektivität und Nord-Süd-Verkehrsmustern basieren, unterschätzen den Glasfaserbedarf von GPU-Clustern dramatisch.

KI-Fabrics sind in Ost-West-Richtung dominant. Jeder Grafikprozessor benötigt einen Pfad mit hoher Bandbreite und niedriger Latenz zu jedem anderen Grafikprozessor, mit dem er zusammenarbeitet, entweder direkt oder über das Spine. High-Radix-Spine-Switches, die das Rückgrat jeder ernstzunehmenden KI-Fabric bilden, können 64 oder mehr 400G-Ports pro Gerät aufweisen. Ein einzelner Pod mit GPU-Servern, der vollständig mit einer nicht blockierenden Fabric verkabelt ist, kann Tausende von einzelnen Glasfaserverbindungen erfordern, was auch als Scale-up Networking bezeichnet wird. Scale-out Fabric, die über mehrere Pods hinweg Verbindungen herstellt, ist eine der wichtigsten physischen Veränderungen, die durch die Auswirkungen der KI ausgelöst werden.

Die Dichte der für diese Veränderung eingesetzten Glasfasern kann dazu führen, dass ein Vielfaches an Glasfasern installiert werden muss, bevor eine KI-Schulung stattfindet.

Vorkonfektionierte MPO-Verkabelungssysteme mit hoher Dichte, die für eine schnelle, fehlerfreie Verlegung von Glasfasern mit der von KI geforderten Dichte ausgelegt sind, sind die praktische Antwort auf dieses Problem, sowohl für die anfängliche Verlegung als auch für die schrittweisen Erweiterungen, die folgen.

  1. Kabelmanagement als nachträglicher Gedanke behandeln

Das Kabelmanagement in Umgebungen mit hoher GPU-Dichte ist keine Frage der Haushaltsführung. Es ist eine Frage der Zuverlässigkeit.

Das Kabelmanagement bestimmt die Wartbarkeit der Infrastruktur während ihrer Lebensdauer. Ein überfüllter Kabelkanal in einer 400G-Umgebung bedeutet, dass jede Änderung - ein Austausch von Transceivern, eine Neuzuweisung von Ports, eine Fabric-Erweiterung - das Risiko birgt, benachbarte Verbindungen zu stören. In einer Umgebung, in der die Qualität der physischen Anschlüsse eine direkte Leistungsvariable ist, ist dieses Risiko nicht unerheblich. Fasern, die unterhalb des minimalen Biegeradius gebogen, an den Steckerschnittstellen belastet oder wiederholt ohne angemessene Zugentlastung gehandhabt werden, sind Fasern, die die Signalintegrität im Laufe der Zeit beeinträchtigen.

Das Routing, die Kennzeichnung und die Kapazität der Pfade müssen vom ersten Tag an Teil des Infrastrukturdesigns sein - und nicht erst bei der Inbetriebnahme, wenn die Möglichkeiten begrenzt sind.

Eine Infrastruktur, die für die tatsächlichen Anforderungen von AI ausgelegt ist

Der gemeinsame Nenner aller vier Fehler ist der Zeitplan: Entscheidungen werden getroffen, bevor die vollen Anforderungen der KI-Arbeitslast bekannt sind, und sie werden für Bedingungen optimiert, die nicht bestehen bleiben werden. Die Abhilfe besteht darin, die physische Ebene mit der gleichen vorausschauenden Disziplin zu entwerfen, die auch bei der Rechen- und Softwarearchitektur angewandt wird - und zwar im Hinblick auf Langlebigkeit, Dichte und Spielraum und nicht auf die heute machbare Minimalkonfiguration.

Das Aginode-Portfolio für die Konnektivität von Rechenzentren - einschließlich hochdichter Glasfaserverkabelung, vorkonfektionierter MPO-Lösungen und Duplex-LC-Konnektivität, die Geschwindigkeiten bis zu 400G und darüber hinaus unterstützt - ist genau für diese Umgebungen konzipiert.

Aginode-Lösungen für Rechenzentren
Mehr

Share this

About the author

c5a5880befd76eb5a78dcd8772b9522

Michael Wang

Michael Wang(王君原) ist der APAC & MEA Product Director bei Aginode. Er ist Experte für strukturierte Verkabelungssysteme und Mitglied des Unterausschusses für die Zusammenschaltung von Geräten der Informationstechnologie (SAC/TC28/SC25) des Nationalen Technischen Komitees für die Normung der Informationstechnologie in China. Er ist auch ein aktiver Experte in der Arbeitsgruppe ISO/IEC JTC1 SC25 WG3 und trägt zur Entwicklung und Überarbeitung nationaler und internationaler Normen bei. Er ist Mitverfasser mehrerer White Papers und hat sich auf die intelligente Gebäudeverkabelung und die Planung der Infrastruktur von Rechenzentren spezialisiert und verfügt über umfangreiche praktische Projekterfahrung.