データセンター
AI導入を遅らせる4つのインフラの過ちとその回避策
うまくいっていないAI導入に関する事後分析のほとんどは、モデルの選択、データ品質、ツールの選択に焦点を当てている。インフラが見出しになることはほとんどない。そうあるべきだ。
物理ネットワーク層(ケーブル配線、接続性、経路設計、ファイバー・アーキテクチャ)は、今やGPUクラスタの性能を直接決定する要素となっている。ファイバー接続の密度、物理的接続の品質、これらは背景条件ではありません。これらはパフォーマンスの変数です。そして、データセンター設計の初期段階、多くの場合、AIワークロードの要件が十分に評価される前に行われた決定は、元に戻すのに費用がかかり、破壊的な方法でパフォーマンスを制約する可能性があります。
ここでは、AIの導入で常に表面化する4つのインフラの過ちと、それを避けるために必要なことを紹介します。
損失を考慮しない帯域幅の設計
従来のITネットワーク設計の中心はスループットである。AIのトレーニングや推論のワークロードでは、この枠組みは重要な変数を見逃しています。
分散AIトレーニングにおけるGPU間通信は、AllReduce、AllGather、Broadcastといった、同時に数十または数百のアクセラレータ間で厳密な同期を必要とする集団演算に依存しています。基礎となるトランスポートは、一般的にRDMA over Converged Ethernet(RoCEv2)またはInfiniBandであり、パケットロスやレイテンシの変動に非常に敏感です。0.1%以下のパケットロスでさえ、GPUの同期を停止させる再送信イベントを引き起こす可能性があり、クラスタ全体でアイドル時間が蓄積されます。512GPUのトレーニングクラスタでは、1つの輻輳したリンクがクラスタ全体の利用率を低下させ、トレーニング期間が経済的に成り立たなくなる可能性があります。
AIのための設計とは、最初からロスレスで低遅延のファブリックを指定することを意味します。挿入ロスのばらつきをなくす高品質な光接続、信号劣化の物理的原因を取り除くファイバーインフラストラクチャなどです。帯域幅の容量は必要ですが、十分ではありません。
単一世代ケーブルへのロック
AIインフラの更新サイクルは圧縮されている。2年前に従来のDC展開で100G用に構築された展開は、すでに400G GPUインターコネクトの圧力下にある。今日、400G用に指定されている配備には、800Gへの確実なパスが必要であり、1.6Tはすでにロードマップ上にある。
そして、1.6Tはすでにロードマップに載っている。間違いは、移動の余地を残さずに物理層を現在の速度層に最適化することだ。これは一般的に、より高い変調フォーマットに対応できないケーブルの選択、次世代トランシーバーのフォームファクターを受け入れることができないコネクター構成、ポート密度が高まるにつれてケーブルを追加する余地を与えない経路充填率として現れる。
AIインフラはまた、メッシュやスパイン/リーフといった異なるネットワーク・アーキテクチャを必要とします。将来を見据えたケーブリング設計は、テクノロジーが現在ある場所だけでなく、どこに向かっているのかを考慮したものです。ファイバーの場合、それはOM4またはOM5マルチモード、またはシングルモードを、全面的な植え替えなしに次世代のトランシーバーに対応する密度で指定することを意味します。ファイバー・パッチ・パネルでは、モジュラー設計により、トランシーバーのフォーム・ファクターの変更による将来の拡張や、新世代のAI-PODによる新しい密度を可能にします。ケーブルの寿命は数十年だが、その上のアクティブ・エレクトロニクスはそうではない。両者を同じリフレッシュホライズンを持つものとして扱うことは、データセンターのインフラ計画において最も一般的でコストのかかる間違いの一つです。
ファイバー数の要件を過小評価する
従来のITネットワーク設計とAIファブリック設計の違いが、ファイバー数ほど早く明らかになるものはありません。サーバー間のToR接続や南北方向のトラフィックパターンを中心に構築された従来のデータセンター計画モデルは、GPUクラスタのファイバー要件を劇的に過小評価しています。
AIファブリックは東西が支配的です。すべてのGPUは、直接またはスパインを介して、他のすべてのGPUと連携する高帯域幅、低レイテンシーのパスを必要とします。本格的なAIファブリックのバックボーンである高Radixスパイン・スイッチは、デバイスあたり64個以上の400Gポートを提供できます。GPUサーバーのポッド1つを、ノンブロッキング・ファブリックに完全にケーブル接続すると、スケールアップ・ネットワーキングとも呼ばれる数千の個別ファイバー接続が必要になることがあります。マルチポッド展開にまたがって接続するスケールアウト・ファブリックも、AIの影響による最も重要な物理的変化の1つになります。
この変更のために導入されるファイバーの密度は、AIのトレーニングが行われる前に、数倍のファイバーを敷設することにつながります。
高密度終端済みMPOケーブル・システム(AIファブリックが要求するファイバー・カウントで迅速かつエラーのない配備のために設計)は、初期配備とそれに続く段階的拡張の両方で、この問題に対する実用的な答えです。
ケーブル管理を後回しにする
GPU密度の高い環境におけるケーブル管理は、家計簿的な問題ではない。信頼性の問題である。
ケーブル管理は、運用期間中のインフラの保守性を左右する。400G環境で混雑したケーブル・トレイは、トランシーバーの交換、ポートの再配置、ファブリックの拡張など、あらゆる変更が隣接する接続を妨害するリスクを伴うことを意味する。物理的なコネクターの品質が性能に直結する環境では、そのリスクは些細なものではない。最小曲げ半径以下に曲げられているファイバー、コネクター・インターフェイスでストレスを受けているファイバー、適切なストレイン・リリーフなしで繰り返し取り扱われるファイバーは、時間とともにシグナル・インテグリティを劣化させるファイバーです。
ルーティング、ラベリング、経路容量は、初日からインフラ設計プロセスの一部である必要があります。
AIが実際に必要とするものを想定したインフラ
4つの過ちに共通するのは、時間軸である。AIのワークロードの全需要が理解される前に決定され、持続しない条件に合わせて最適化される。解決策は、コンピュートとソフトウェア・アーキテクチャに適用されるのと同じように、将来を見据えた規律で物理層を設計することである。
Aginodeのデータセンター接続ポートフォリオは、高密度ファイバーケーブル、終端済みMPOソリューション、最大400G以上の速度をサポートする二重LC接続など、まさにこのような環境向けに設計されています。