「2025-07-30-08-01 JANOG56 参加レポート」の版間の差分
ナビゲーションに移動
検索に移動
編集の要約なし |
編集の要約なし |
||
9行目: | 9行目: | ||
[https://www.janog.gr.jp/meeting/janog56/wp-content/uploads/2025/07/JANOG56_AIML%E5%9F%BA%E7%9B%A4%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B800GbE%E3%82%B9%E3%82%A4%E3%83%83%E3%83%81%E5%B0%8E%E5%85%A5%E3%81%A8%E3%81%9D%E3%81%AE%E6%8C%91%E6%88%A6.pdf 資料] | [https://www.janog.gr.jp/meeting/janog56/wp-content/uploads/2025/07/JANOG56_AIML%E5%9F%BA%E7%9B%A4%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B800GbE%E3%82%B9%E3%82%A4%E3%83%83%E3%83%81%E5%B0%8E%E5%85%A5%E3%81%A8%E3%81%9D%E3%81%AE%E6%8C%91%E6%88%A6.pdf 資料] | ||
=== 既存が 400G スイッチで、800G スイッチを追加導入 === | ==== 既存が 400G スイッチで、800G スイッチを追加導入 ==== | ||
400G で増設 or 800G 導入 | 400G で増設 or 800G 導入 | ||
16行目: | 16行目: | ||
** 混在構成で行けないか ? | ** 混在構成で行けないか ? | ||
=== 400G / 800G 混在の課題 === | ==== 400G / 800G 混在の課題 ==== | ||
OS / ASIC が別 | OS / ASIC が別 | ||
27行目: | 27行目: | ||
* NCCL_CROSS_NIC = 0 で NIC を使用すると同じ Ring で同じ NIC ポートを使用 | * NCCL_CROSS_NIC = 0 で NIC を使用すると同じ Ring で同じ NIC ポートを使用 | ||
=== 性能劣化発生 ! === | ==== 性能劣化発生 ! ==== | ||
Spine - Leaf に想定よりも多くのトラフィックが | Spine - Leaf に想定よりも多くのトラフィックが | ||
34行目: | 34行目: | ||
NIC の見え方 (例:enp64s0) がサーバの種類で異なる | NIC の見え方 (例:enp64s0) がサーバの種類で異なる | ||
=== 物理系の話 === | |||
800G 64 ポートスイッチを 400G 128 ポートスイッチとして使用 | |||
MPO ケーブルとトランシーバのプルタブが干渉、MPO 抜栓時にトランシーバも抜けてしまった | |||
ポート番号が分かりづらい | |||
* 上段は若番が左側に、下段は若番が右側に | |||
===== 1U MPO-12 32 ポートは高密度すぎる ===== | |||
* SN-MT コネクタで小型化 | |||
* ポート密度が 4 倍に | |||
* ラック間ケーブル本数を半分に | |||
* クリーナが別なのがつらみ | |||
=== マルチベンダー Lossless === | |||
Dell SN4700 と Juniper QFX5240 を使用 | |||
* QFX5240 の Broadcom ASIC では Adaptive Routing (AR) 使用不可、Dynamic Load Balacing (DLB) を使用する | |||
==== DLB の inactiveity-interval ==== | |||
長すぎる場合は負荷分散が弱く、短すぎると Reorder で順番が入れ替わってしまう | |||
* 常に最良の結果を出せる値は存在しない | |||
* 自動化される機能があれば採用したい | |||
筆者注 : この機能は Juniper | |||
=== 監視基盤 === | |||
QFX5420 / Junos : gNMIc でテレメトリーデータを取得 @ 2 秒間隔 | |||
SN4700 / Cumulus Linux : OpenTelemetry で取得 @ 2 秒間隔 | |||
* gNMIc は 15 秒間隔で採用できなかった | |||
= Day3 = | = Day3 = |
2025年7月31日 (木) 10:45時点における版
キーワードをこのレポートにメモったので、今後見直して反芻していきたい。
Day1
不参加。
Day2
AI/ML基盤における800GbEスイッチ導入とその挑戦
既存が 400G スイッチで、800G スイッチを追加導入
400G で増設 or 800G 導入
- 800G で決定
- 400G が余るのは避けたいため、有効活用したい
- 混在構成で行けないか ?
400G / 800G 混在の課題
OS / ASIC が別
負荷分散のメソッドをどうするか
- ADaptive Routing / Dynamic Load Balancing
なるべく Spine を通したくない
- NCCL_CROSS_NIC = 0 で NIC を使用すると同じ Ring で同じ NIC ポートを使用
性能劣化発生 !
Spine - Leaf に想定よりも多くのトラフィックが
- NVIDIA DGX H100 と Dell XE9680 と 2 種類の GPU サーバを採用
NIC の見え方 (例:enp64s0) がサーバの種類で異なる
物理系の話
800G 64 ポートスイッチを 400G 128 ポートスイッチとして使用
MPO ケーブルとトランシーバのプルタブが干渉、MPO 抜栓時にトランシーバも抜けてしまった
ポート番号が分かりづらい
- 上段は若番が左側に、下段は若番が右側に
1U MPO-12 32 ポートは高密度すぎる
- SN-MT コネクタで小型化
- ポート密度が 4 倍に
- ラック間ケーブル本数を半分に
- クリーナが別なのがつらみ
マルチベンダー Lossless
Dell SN4700 と Juniper QFX5240 を使用
- QFX5240 の Broadcom ASIC では Adaptive Routing (AR) 使用不可、Dynamic Load Balacing (DLB) を使用する
DLB の inactiveity-interval
長すぎる場合は負荷分散が弱く、短すぎると Reorder で順番が入れ替わってしまう
- 常に最良の結果を出せる値は存在しない
- 自動化される機能があれば採用したい
筆者注 : この機能は Juniper
監視基盤
QFX5420 / Junos : gNMIc でテレメトリーデータを取得 @ 2 秒間隔
SN4700 / Cumulus Linux : OpenTelemetry で取得 @ 2 秒間隔
- gNMIc は 15 秒間隔で採用できなかった