2025-07-30-08-01 JANOG56 参加レポート
キーワードをこのレポートにメモったので、今後見直して反芻していきたい。
Day1
不参加。
Day2
AI/ML基盤における800GbEスイッチ導入とその挑戦
既存が 400G スイッチで、800G スイッチを追加導入
400G で増設 or 800G 導入
- 800G で決定
- 400G が余るのは避けたいため、有効活用したい
- 混在構成で行けないか ?
400G / 800G 混在の課題
OS / ASIC が別
負荷分散のメソッドをどうするか
- ADaptive Routing / Dynamic Load Balancing
なるべく Spine を通したくない
- NCCL_CROSS_NIC = 0 で NIC を使用すると同じ Ring で同じ NIC ポートを使用
性能劣化発生 !
Spine - Leaf に想定よりも多くのトラフィックが
- NVIDIA DGX H100 と Dell XE9680 と 2 種類の GPU サーバを採用
NIC の見え方 (例:enp64s0) がサーバの種類で異なる