「2025-07-30-08-01 JANOG56 参加レポート」の版間の差分

提供:hkatou_Lab
ナビゲーションに移動 検索に移動
ページの作成:「キーワードをこのレポートにメモったので、今後見直して反芻していきたい。 = Day1 = 不参加。 = Day2 = == [https://www.janog.gr.jp/meeting/janog56/800g/ 10:15-11:00 AI/ML基盤における800GbEスイッチ導入とその挑戦] == [https://www.janog.gr.jp/meeting/janog56/wp-content/uploads/2025/07/JANOG56_AIML%E5%9F%BA%E7%9B%A4%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B800GbE%E3%82%B9%E3%82%A4%E3%83%83%E3%83%81%E5%B0%8E%E5%85%A5%E3%81%…」
 
編集の要約なし
6行目: 6行目:
= Day2 =
= Day2 =


== [https://www.janog.gr.jp/meeting/janog56/800g/ 10:15-11:00 AI/ML基盤における800GbEスイッチ導入とその挑戦] ==
== [https://www.janog.gr.jp/meeting/janog56/800g/ AI/ML基盤における800GbEスイッチ導入とその挑戦] ==
[https://www.janog.gr.jp/meeting/janog56/wp-content/uploads/2025/07/JANOG56_AIML%E5%9F%BA%E7%9B%A4%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B800GbE%E3%82%B9%E3%82%A4%E3%83%83%E3%83%81%E5%B0%8E%E5%85%A5%E3%81%A8%E3%81%9D%E3%81%AE%E6%8C%91%E6%88%A6.pdf 資料]
[https://www.janog.gr.jp/meeting/janog56/wp-content/uploads/2025/07/JANOG56_AIML%E5%9F%BA%E7%9B%A4%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B800GbE%E3%82%B9%E3%82%A4%E3%83%83%E3%83%81%E5%B0%8E%E5%85%A5%E3%81%A8%E3%81%9D%E3%81%AE%E6%8C%91%E6%88%A6.pdf 資料]
=== 既存が 400G スイッチで、800G スイッチを追加導入 ===
400G で増設 or 800G 導入
* 800G で決定
* 400G が余るのは避けたいため、有効活用したい
** 混在構成で行けないか ?
=== 400G / 800G 混在の課題 ===
OS / ASIC が別
負荷分散のメソッドをどうするか
* ADaptive Routing / Dynamic Load Balancing
なるべく Spine を通したくない
* NCCL_CROSS_NIC = 0 で NIC を使用すると同じ Ring で同じ NIC ポートを使用
=== 性能劣化発生 ! ===
Spine - Leaf に想定よりも多くのトラフィックが
* NVIDIA DGX H100 と Dell XE9680 と 2 種類の GPU サーバを採用
NIC の見え方 (例:enp64s0) がサーバの種類で異なる


= Day3 =
= Day3 =

2025年7月31日 (木) 10:30時点における版

キーワードをこのレポートにメモったので、今後見直して反芻していきたい。

Day1

不参加。

Day2

AI/ML基盤における800GbEスイッチ導入とその挑戦

資料

既存が 400G スイッチで、800G スイッチを追加導入

400G で増設 or 800G 導入

  • 800G で決定
  • 400G が余るのは避けたいため、有効活用したい
    • 混在構成で行けないか ?

400G / 800G 混在の課題

OS / ASIC が別

負荷分散のメソッドをどうするか

  • ADaptive Routing / Dynamic Load Balancing

なるべく Spine を通したくない

  • NCCL_CROSS_NIC = 0 で NIC を使用すると同じ Ring で同じ NIC ポートを使用

性能劣化発生 !

Spine - Leaf に想定よりも多くのトラフィックが

  • NVIDIA DGX H100 と Dell XE9680 と 2 種類の GPU サーバを採用

NIC の見え方 (例:enp64s0) がサーバの種類で異なる


Day3