2025-07-30-08-01 JANOG56 参加レポート

提供:hkatou_Lab
ナビゲーションに移動 検索に移動

キーワードをこのレポートにメモったので、今後見直して反芻していきたい。

Day1

不参加。

Day2

AI/ML基盤における800GbEスイッチ導入とその挑戦

資料

既存が 400G スイッチで、800G スイッチを追加導入

400G で増設 or 800G 導入

  • 800G で決定
  • 400G が余るのは避けたいため、有効活用したい
    • 混在構成で行けないか ?

400G / 800G 混在の課題

OS / ASIC が別

負荷分散のメソッドをどうするか

  • ADaptive Routing / Dynamic Load Balancing

なるべく Spine を通したくない

  • NCCL_CROSS_NIC = 0 で NIC を使用すると同じ Ring で同じ NIC ポートを使用

性能劣化発生 !

Spine - Leaf に想定よりも多くのトラフィックが

  • NVIDIA DGX H100 と Dell XE9680 と 2 種類の GPU サーバを採用

NIC の見え方 (例:enp64s0) がサーバの種類で異なる

物理系の話

800G 64 ポートスイッチを 800G x1 -> 400G x2 へブレークアウト接続して、400G 128 ポートスイッチとして使用

MPO ケーブルとトランシーバのプルタブが干渉、MPO 抜栓時にトランシーバも抜けてしまった

ポート番号が分かりづらい

  • 上段は若番が左側に、下段は若番が右側に
1U MPO-12 32 ポートは高密度すぎる
  • SN-MT コネクタで小型化
  • ポート密度が 4 倍に
  • ラック間ケーブル本数を半分に
  • クリーナが別なのがつらみ

マルチベンダー Lossless

Dell SN4700 と Juniper QFX5240 を使用

  • QFX5240 の Broadcom ASIC では Adaptive Routing (AR) 使用不可、Dynamic Load Balacing (DLB) を使用する

DLB の inactiveity-interval

長すぎる場合は負荷分散が弱く、短すぎると Reorder で順番が入れ替わってしまう

  • 常に最良の結果を出せる値は存在しない
  • 自動化される機能があれば採用したい

筆者注 : この機能は Juniper

監視基盤

QFX5420 / Junos : gNMIc でテレメトリーデータを取得 @ 2 秒間隔

SN4700 / Cumulus Linux : OpenTelemetry で取得 @ 2 秒間隔

  • gNMIc は 15 秒間隔で採用できなかった

Q&A

GPU 間トラフィックの NVLINK でどこを通るのか、どうやって調べたのか ?

  • NCCL のデバッグログを人の目で見て、気合で解析

検証機と予算はどのように確保している ?

  • ベンダーさんから借用 or 予備機で検証環境を作る

少量の Loss があったほうがかえってパフォーマンスが高い場合もあるそうだが、テスト手法についてどのような展望を持っているか ?

  • 今後議論していきたいところです

経路ハイジャックに一撃、RPKI ROA

資料

IPv4 枯渇

2010 年頃に枯渇、APNIC では 103. から始まるアドレスを配布

/23 までならまだ申請で入手可能

2023/10 に返却されたアドレスの再利用を開始

連絡が取れず回収した PI アドレスもあり

未使用 IP アドレスが勝手に使用されてしまう話

JANOG49 で発表あり

実際に使用されてしまった例あり

RPKI

経路ハイジャックで、/21 や /23 で他組織のアドレスを広報していた組織あり

  • IRR の RADB に Customer Prefix として登録されてしまっており、フィルタをくぐり抜けていた

RPKI Origin Authorization (ROA) や Route Origin Validation (ROV) で検証する

  • IRR Explorler や BGP.tools で ROA や IRR の登録状況を見ることができる

IP アドレスを持っている組織に確認し、AS0 ROA を発行し、インターネット上で広報されない、という動作を行った

  • 悪意ある組織が瞬時に使用できなくなった
  • 結構たくさんの AS で RPKI/ROA を導入していた
  • 経路が残るところもあった
    • ROV されていない広告 Path を抜けている
    • 顧客から受信しちゃってる上流
    • Invalid と直接ピアしている組織

ROA が間違っていると通信が止まってしまうため、変更は要注意


ENOG で JPNIC がガイドラインを発表済み


APNIC では、2020 年に未割り当て IP に AS0 の ROA を作成

  • JPNIC も検討中

2024~2025年末年始にDDoSと戦った人の交換会リターンズ

航空会社や気象庁とかいろいろ攻撃を受けた件

集合住宅インターネットの"今"と"これから" 〜ホワイトペーパーから見える課題と展望〜

資料

業務で FTTH をやっているため、大体抑えている内容でした

サイバー旅館

  • 光回線 x3 , V-ONU x2 が引いてあるぞ !
  • 聞いてみたら、女将さんはポカーン

フレッツの PPPoE が輻輳したので、VNE を始めて IPoE へ切り替え

  • 週二回深夜作業を半年間、計 40 回くらい
  • PPPoE はローミング事業者から原因不明の回答、事業の上でブラックボックスに見えていた
  • AS も取得し、トラフィックの中身がわかるようになった
  • 原価が見えるように
    • トランジットや IX 事業者に価格交渉
    • ローミング事業者の価格が適正か評価できるように

VNE / AS でツライこと

  • トラフィック管理 -> すごい大変
  • やんちゃな住人がマンション全体のサービス品質に影響
    • Q : やんちゃな人に公平制御で帯域幅を下げると、文句を言ってくるのでは ?
    • A : やんちゃな人は何をしても文句を言ってくるので、約款に基づいて説明している
  • 24/365 で運用技術者を揃えるのは至難
  • 経営層に説明するのが難しい
    • 親会社が電力会社系でそこから経営層の人が降りてくる
    • トランジットを変電所に例えたりするとヨシ !

Day3

宇宙線とネットワーク機器との戦い

資料

オフレコ プログラム。資料の内容は SNS などで公開 OK. 議論の内容はオフレコで、とのこと。

Arista EOS パリティ / ECC エラーハンドリング

パリティ付きメモリ

検出はできるが修正はできない

EOS の修正

ハードウェアで SEU (Single Event Upset) を検知

EOS に割り込み処理

ソフトウェアで正しい値を特定

メモリ全体を修正

修正可能な場合はログを記録し、ハードウェアに書き込む

FPGA や ASIC のパリティ エラー

ログが記録されるが、連続して記録される場合はメンテナンス ウィンドウを取って再起動が推奨

Broadcom の ASIC ではエラーを検出する機能がある

替え玉エリア

すげーたのしい !!!

やっぱ HW がすこ

AI時代のバックボーンネットワーク:DDBRとスケールアウトネットワークアーキテクチャの商用化について

前にやってた内容 とあんまり変わらない

複数キャリアで検証すると品質が高まっていいよね、とか

コミュニティ版SONiCをAI/ML基盤適用できるか探る

資料

負荷分散技術

Enhanced ECMP

Adaptive Routing Switching

“自動化やってみた”のその先へ ~KDDIネットワーク検証の自動化、現場エンジニアの奮闘と学び~

資料

80 件 320 人月 / 年の検証工数あり

ブース

A10

A10 Thunder ADC が LB 兼 DNS キャッシュサーバで動作するらしいので、色々聞いてみました。

数万規模のユーザでも TH1060S で足りる、ただ帯域幅ライセンスに注意で、使用できる CPU コア数が異なるとのこと。