2025-07-30-08-01 JANOG56 参加レポート

提供:hkatou_Lab
2025年7月31日 (木) 10:30時点におけるHkatou (トーク | 投稿記録)による版
ナビゲーションに移動 検索に移動

キーワードをこのレポートにメモったので、今後見直して反芻していきたい。

Day1

不参加。

Day2

AI/ML基盤における800GbEスイッチ導入とその挑戦

資料

既存が 400G スイッチで、800G スイッチを追加導入

400G で増設 or 800G 導入

  • 800G で決定
  • 400G が余るのは避けたいため、有効活用したい
    • 混在構成で行けないか ?

400G / 800G 混在の課題

OS / ASIC が別

負荷分散のメソッドをどうするか

  • ADaptive Routing / Dynamic Load Balancing

なるべく Spine を通したくない

  • NCCL_CROSS_NIC = 0 で NIC を使用すると同じ Ring で同じ NIC ポートを使用

性能劣化発生 !

Spine - Leaf に想定よりも多くのトラフィックが

  • NVIDIA DGX H100 と Dell XE9680 と 2 種類の GPU サーバを採用

NIC の見え方 (例:enp64s0) がサーバの種類で異なる


Day3