「2025-07-30-08-01 JANOG56 参加レポート」の版間の差分

提供:hkatou_Lab
ナビゲーションに移動 検索に移動
編集の要約なし
編集の要約なし
9行目: 9行目:
[https://www.janog.gr.jp/meeting/janog56/wp-content/uploads/2025/07/JANOG56_AIML%E5%9F%BA%E7%9B%A4%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B800GbE%E3%82%B9%E3%82%A4%E3%83%83%E3%83%81%E5%B0%8E%E5%85%A5%E3%81%A8%E3%81%9D%E3%81%AE%E6%8C%91%E6%88%A6.pdf 資料]
[https://www.janog.gr.jp/meeting/janog56/wp-content/uploads/2025/07/JANOG56_AIML%E5%9F%BA%E7%9B%A4%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B800GbE%E3%82%B9%E3%82%A4%E3%83%83%E3%83%81%E5%B0%8E%E5%85%A5%E3%81%A8%E3%81%9D%E3%81%AE%E6%8C%91%E6%88%A6.pdf 資料]


=== 既存が 400G スイッチで、800G スイッチを追加導入 ===
==== 既存が 400G スイッチで、800G スイッチを追加導入 ====
400G で増設 or 800G 導入
400G で増設 or 800G 導入


16行目: 16行目:
** 混在構成で行けないか ?
** 混在構成で行けないか ?


=== 400G / 800G 混在の課題 ===
==== 400G / 800G 混在の課題 ====
OS / ASIC が別
OS / ASIC が別


27行目: 27行目:
* NCCL_CROSS_NIC = 0 で NIC を使用すると同じ Ring で同じ NIC ポートを使用
* NCCL_CROSS_NIC = 0 で NIC を使用すると同じ Ring で同じ NIC ポートを使用


=== 性能劣化発生 ! ===
==== 性能劣化発生 ! ====
Spine - Leaf に想定よりも多くのトラフィックが
Spine - Leaf に想定よりも多くのトラフィックが


34行目: 34行目:
NIC の見え方 (例:enp64s0) がサーバの種類で異なる
NIC の見え方 (例:enp64s0) がサーバの種類で異なる


=== 物理系の話 ===
800G 64 ポートスイッチを 400G 128 ポートスイッチとして使用
MPO ケーブルとトランシーバのプルタブが干渉、MPO 抜栓時にトランシーバも抜けてしまった
ポート番号が分かりづらい
* 上段は若番が左側に、下段は若番が右側に
===== 1U MPO-12 32 ポートは高密度すぎる =====
* SN-MT コネクタで小型化
* ポート密度が 4 倍に
* ラック間ケーブル本数を半分に
* クリーナが別なのがつらみ
=== マルチベンダー Lossless ===
Dell SN4700 と Juniper QFX5240 を使用
* QFX5240 の Broadcom ASIC では Adaptive Routing (AR) 使用不可、Dynamic Load Balacing (DLB) を使用する
==== DLB の inactiveity-interval ====
長すぎる場合は負荷分散が弱く、短すぎると Reorder で順番が入れ替わってしまう
* 常に最良の結果を出せる値は存在しない
* 自動化される機能があれば採用したい
筆者注 : この機能は Juniper
=== 監視基盤 ===
QFX5420 / Junos : gNMIc でテレメトリーデータを取得 @ 2 秒間隔
SN4700 / Cumulus Linux : OpenTelemetry で取得 @ 2 秒間隔
* gNMIc は 15 秒間隔で採用できなかった


= Day3 =
= Day3 =

2025年7月31日 (木) 10:45時点における版

キーワードをこのレポートにメモったので、今後見直して反芻していきたい。

Day1

不参加。

Day2

AI/ML基盤における800GbEスイッチ導入とその挑戦

資料

既存が 400G スイッチで、800G スイッチを追加導入

400G で増設 or 800G 導入

  • 800G で決定
  • 400G が余るのは避けたいため、有効活用したい
    • 混在構成で行けないか ?

400G / 800G 混在の課題

OS / ASIC が別

負荷分散のメソッドをどうするか

  • ADaptive Routing / Dynamic Load Balancing

なるべく Spine を通したくない

  • NCCL_CROSS_NIC = 0 で NIC を使用すると同じ Ring で同じ NIC ポートを使用

性能劣化発生 !

Spine - Leaf に想定よりも多くのトラフィックが

  • NVIDIA DGX H100 と Dell XE9680 と 2 種類の GPU サーバを採用

NIC の見え方 (例:enp64s0) がサーバの種類で異なる

物理系の話

800G 64 ポートスイッチを 400G 128 ポートスイッチとして使用

MPO ケーブルとトランシーバのプルタブが干渉、MPO 抜栓時にトランシーバも抜けてしまった

ポート番号が分かりづらい

  • 上段は若番が左側に、下段は若番が右側に
1U MPO-12 32 ポートは高密度すぎる
  • SN-MT コネクタで小型化
  • ポート密度が 4 倍に
  • ラック間ケーブル本数を半分に
  • クリーナが別なのがつらみ

マルチベンダー Lossless

Dell SN4700 と Juniper QFX5240 を使用

  • QFX5240 の Broadcom ASIC では Adaptive Routing (AR) 使用不可、Dynamic Load Balacing (DLB) を使用する

DLB の inactiveity-interval

長すぎる場合は負荷分散が弱く、短すぎると Reorder で順番が入れ替わってしまう

  • 常に最良の結果を出せる値は存在しない
  • 自動化される機能があれば採用したい

筆者注 : この機能は Juniper

監視基盤

QFX5420 / Junos : gNMIc でテレメトリーデータを取得 @ 2 秒間隔

SN4700 / Cumulus Linux : OpenTelemetry で取得 @ 2 秒間隔

  • gNMIc は 15 秒間隔で採用できなかった

Day3