데이터 센터
브로드컴의 토마호크 6과 AI 데이터센터 케이블링의 미래
브로드컴의 새로운 102.4Tbps 스위치 칩은 AI 워크로드가 확장됨에 따라 대역폭과 지연 시간 병목 현상을 해결하며 데이터센터 네트워킹에 큰 도약을 가져왔습니다. 이제 고속, 저지연 인프라는 필수입니다.

세계 최초 102.4Tbps 스위치 칩
6월 초, 브로드컴은 차세대 스위치 칩 시리즈인 '토마호크 6' 출시로 헤드라인을 장식했었습니다. 토마호크 6는 현재 주력 스위치인 51.2Tbps 이더넷 데이터센터 스위치의 용량을 두 배로 늘린, 세계 최초의 102.4Tbps 대역폭을 제공하는 스위치 칩입니다. AI 데이터센터를 위해 특별히 설계된 토마호크 6는 스케일업/스케일아웃 아키텍처를 강화하고, 10만 개 이상의 XPU를 포함하는 AI 클러스터의 끊임없이 증가하는 요구사항을 충족하기 위해 100G/200G SerDes(직렬화기/역직렬화기) 및 CPO(코패키지드 광학) 기술을 통합했습니다.
최근 대규모 AI 모델의 출시가 급증하면서, 막대한 규모의 고성능 인프라에 대한 필요성이 그 어느 때보다 절실해지고 있습니다. 이제 네트워크 대역폭과 저지연 시간에 요구는 AI 데이터센터를 확장하는 데 있어 주요 병목 지점이 되었습니다.

AI 시대의 케이블링 재정의
토마호크 6는 네트워크 대역폭에 대한 압박을 크게 완화해줍니다. 200G SerDes를 탑재하여 200Gbps로 512개의 채널을 제공하며, 기존 100G SerDes 인프라를 지원하기 위해 1024 x 100G 버전도 제공합니다. 대규모 AI 클러스터 네트워킹을 위해, 이 칩의 통합 이더넷 아키텍처는 512개에서 최대 10만 개의 XPU까지 확장을 지원합니다.

이미지: 512개의 XPU를 위한 효율적인 스케일업 네트워킹을 지원하는 TH6(출처: Broadcom)
200G SerDes를 기반으로 하는 스위치 칩인 토마호크 6는 현재의 400G/800G 구축에서부터 업그레이드된 1.6T 네트워크까지 명확한 길을 제시합니다. 또한 AI 데이터센터 케이블링의 새로운 시대를 열었습니다.
대역폭 두 배 확장: 1.6T 시대 진입
AI 데이터센터 네트워크는 두 가지 주요 측면에서 기존 네트워크와 다릅니다.
1. 초고속 네트워킹에 대한 수요.
2. 초저지연에 대한 요구
대규모 AI 모델은 GPU 상호 연결에 크게 의존하며, CPU 사용량을 최소화하고 접근 효율성을 높이기 위해 종종 RDMA(원격 직접 메모리 접근)를 사용합니다. 이러한 상호 연결은 극단적인 대역폭을 요구하며, 기존 이더넷만으로는 더 이상 충분하지 않습니다. 인피니밴드(슈퍼컴퓨팅에 사용되는 고속, 저지연 네트워크 표준) 및 RoCE(컨버지드 이더넷 기반 RDMA, 이더넷을 통한 빠른 데이터 전송 가능)와 같은 기술이 전반적인 네트워킹을 개선했지만, 800G조차도 부족해지고 있어 1.6T로의 전환이 불가피 해졌습니다.

대역폭 개선은 두 가지 핵심 요소에 달려 있습니다.
각 SerDes 채널의 속도
채널 수
예를 들어, 800G 네트워크는 다음과 같은 다양한 구성으로 도달할 수 있습니다.
50G 16채널
100G 8채널
200G 4채널

이미지: 채널 수와 800G 관계(출처: 이더넷 얼라이언스)
16채널 솔루션은 풀 듀플렉스 양방향 통신을 하기 위해 일반적으로 2개의 MPO-16 (또는 MPO-24) 커넥터가 필요합니다. 반면, 4채널 솔루션은 단 하나의 MPO-8/12 커넥터만 필요로 하여 인프라를 크게 단순화합니다. 개별 채널 속도가 빠를수록 케이블링 비용이 낮아지고 Gbps당 에너지 효율이 향상됩니다.
더 낮은 지연 시간, 더 나은 확장성: AI 네트워크 재구축
지연 시간은 AI 성능의 또 다른 주요 장애물입니다. 대규모 데이터센터에서는 스위치 레이어가 추가될 때마다 지연 시간이 증가합니다. 1만 개 이상의 GPU로 확장할 때, 종종 3계층 스위치 아키텍처가 사용되는데, 최대 5개의 스위치 홉이 추가되어 각각 물리적 매체(광 또는 구리)의 지연 시간을 훨씬 초과하는 지연 시간이 발생할 수 있습니다.
토마호크 6는 최대 512개의 XPU를 직접 상호 연결할 수 있으며, 200G 링크를 기반으로 구축된 2계층 Clos 네트워크(대규모 데이터센터에서 일반적으로 사용되는 매우 효율적인 다단계 스위치 아키텍처)를 사용하여 10만 개 이상의 GPU를 지원하도록 확장할 수 있습니다. 기존 3계층 설계와 비교할 때, 이는 스위치 홉 수를 두 개 줄여 하이퍼스케일 AI 배포를 위한 지연 시간을 크게 낮출 수 있습니다.

이미지: 100,000개 이상의 GPU 네트워크를 위해 간소화된 2계층 Clos를 지원하는 Tomahawk 6 (출처: Broadcom)
AI 데이터센터를 위한 새로운 케이블링 트렌드
규모와 기술 복잡성이 커짐에 따라, AI 데이터센터 케이블링은 기존 데이터센터보다 더 빠르게 진화해야 합니다. 유연하고 미래 지향적인 케이블링 인프라는 사용자가 숨겨진 인프라를 반복적으로 점검하지 않고도 급변하는 기술 변화에 적응할 수 있도록 지원합니다.
ISO/IEC 11801-5 및 TIA 942와 같은 표준은 구조화된 케이블링이 ToR(Top-of-Rack), 스파인-리프(Spine-Leaf), 및 메시(Mesh) 토폴로지를 어떻게 지원할 수 있는지를 강조하며, 동적이고 확장 가능한 아키텍처를 위한 견고한 기반을 제공합니다.
애지노드는 차세대 데이터센터를 위해 특별히 설계된 LANmark ENSPACE 솔루션을 제공합니다. 네 가지의 핵심 강점을 통해 데이터센터가 800G 및 1.6T 네트워킹으로의 전환을 자신 있게 헤쳐나갈 수 있도록 돕습니다.
애지노드 ENSPACE

AI 시대에 준비된 케이블링 백본 지원
- 더 높은 효율성
8코어 및 16코어 파이버 연결을 모두 지원합니다. 고밀도 설계는 공간을 극대화하고 데이터 처리량을 높입니다. - 미래 지향적 확장성
100G부터 1.6T까지의 광 모듈과 호환되어 다양한 요구사항을 충족하며, 기술 업그레이드 시 마이그레이션을 간소화합니다. - 비용 최적화
합리적인 아키텍처와 간소화된 설치로 총소유비용(TCO)을 절감합니다. - 운영 간소화
고집적 패치 시스템은 케이블링 복잡성을 줄이고 유지보수 효율성을 향상시킵니다.