2024-07-03-05 JANOG54 参加レポート
キーワードをこのレポートにメモったので、今後見直して反芻していきたい。
Day1
バックボーンネットワークエンジニアがL3プロトコルを使ってL2リングを作り変えた話 ~ついでに400G-ZRでWDMレスで長距離飛ばしちゃったよ~
WDM + L2 Ring スイッチから、400G-ZR + EVPN 対応スイッチにリプレースした話。
リングプロトコルの課題
L2 ループこわい
- 設定ミス
- バグ
トラフィック エンジニアリングが難しい
独自プロトコルなので選択肢が少ない
- リプレースしづらい / 足元を見られる
EVPN / VXLAN を採用
実績が豊富
標準化されている
- 価格競争が働きやすい
- CNCi でも BGP を運用している
EVPN 設計
IPv6 LLA はなし
- traceroute が効かなかった
- (Slack から) v4 Loopback があれば出るはず
BGP Additinal Path を有効化
- バックアップ パスを見られるようにしたかった
今後の課題
マルチキャストをどうしよう
- EVPN の Head End Replication で複製はされるが・・・
EVPN All Active Multi Homing で MLAG 可能に
事前検証
ほとんどのコンフィグは ContainerLab で作成できた
- 物理系のみ実機が納入されてから作成
400G-ZR
WDM がなくなった分低コスト化
IPアドレスの管理・分配の世界を覗いてみよう !! ~ インターネットを維持するために、とっても大切なこと ~
APNIC でポリシーが変わると、下部組織である JPNIC のポリシーも影響を受けるため、確認したほうが良い
Day2
生成AI向けパブリッククラウドサービスをつくってみた話
スペック
NVIDIA H100 : GPU 2000+
200G x4 or 400G x4
2E Flops+
GPU サーバの構築
2 週間、30 人/日、200 台
- 開墾だけで半日
消費電力
データシートの最大値で見る
ラック単体で電力設計、サーバルーム全体でも電力設計
クラスタを組んでいると複数 GPU サーバで電力負荷が増加
冷却能力
コールドアイルとホットアイルで分離
排熱量が大きいラックの周囲には何も置けないことも
水冷式やファン付きラック扉を検討予定
騒音対策
「人間が会話できる場所ではなくなった」
- イヤーマフでガード + インカムで会話
- 6 ヶ月に一回聴覚検査をしなければならない
設計
シンプル・マルチテナンシー・公平
スイッチ
Arista Networks 7816R3 シャーシ型スイッチを採用
- スパインスイッチ不要
- VoQ ベースファブリック
- セル スプレー スイッチング
- ロスレス
- ノンブロッキング
- アウトオブオーダーなし
EVPN/VXLAN なし、VRF + VLAN のみでマルチテナンシーを実現可能
スイッチのラックマウント
機器をラックに設置する際に、推奨のツールがある
- 専門の業者様に依頼
ラインカード・電源などを抜いた状態で、32U 200kg
- ケージナットが行方不明
- シャーシ側面の保護シート剥がし忘れ
配線設計
パッチパネルとシャーシ スイッチが 1 ラックに収まらない
スイッチは 400G -> 200G x2 Breakout
MPO-16 が使いにくい
- ケーブルクリーナーが MPO-12 と異なる
追加整備は SMF MPO-12 配線 400GDR に変更
トランシーバ
サードパーティ トランシーバを採用
- 200GSR4 は BER の測定結果に差があり -> BER の値が良いメーカーを採用
- 400GDR4 は BER 測定結果にそこまで差がない
今後のトランシーバ
MMF ? SMF ?
- MMF のほうが安価だが・・・
- 基本的には SMF になりそう
光配線
MPO-16 パッチパネルの敷設が難しい
- 80G だと当面は必要に
- MMF/MPO なら Low-Loss タイプが良い
400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも
- MPO はやはり使いづらい
LPO 対応がちらほら見えてきた
フォームファクタは悩みそう
- QSFP 系 ? OSFP 系 ?
トラブルシューティング
1 分だけリンクアップ、その後リンクダウン
- OIR しても一緒
- 交換で OK
クリーナーでトランシーバの MPO の爪を破損させてしまった
- 再発防止をどうしよう
- 500 回見直しつらい
MPO ケーブル品質問題
端面検査機でエラー、BER あり
- コアディップあり
- コアの中心が歪んでいる
メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した
議論
シャーシ型スイッチは 1 台のみか ?
- 1 台のみだが、各コンポーネントは 1+1 or N+1 で冗長されているため、大きな問題はないと考えている
- スーパーバイザ
- ラインカード
- GPU はモジュールわけ分散収容
- ファブリック モジュール
- 電源
- シャーシには基板が搭載されていないため、シャーシが破損する危険性は低いと判断している
スイッチの Verup はどうする ?
- 全断で対応予定
シャーシ型スイッチを増やすような対応は可能か ?
- 現状はシャーシ型を採用したメリットが無くなってしまうため、営業にがんばってもらうw
- シャーシ間のインターコネクトは本数が多すぎるため、考えていない
LINEヤフー米国データセンタ技術の最前線:LLM(大規模言語モデル)と水冷技術への挑戦
GPU サーバのファン風量が大きくなりすぎて、フロア空調機の風力が足りなくなる
水冷を検討中、方式がいろいろある
GBL200 NVL72 は 1ラック120kw のお化けマシン
電源が 480V なので、ラック近辺まで高電圧線が来るのは危険性に留意する必要がある
AIを支えるAll optical network
2030 年に 1960 E Flops を動かすために、大型火力発電所 x6 基が必要
- 都市部集中から、再生可能エネルギーのポテンシャルがある、地方に計算リソースを分散配置
光ネットワークで低遅延・低消費電力に
ルーティングはまだまだルータで担当
ネットワーク内で光電変換不要
- ルータに遠距離トランシーバを搭載
低遅延の効果は限定的
光伝送装置にスパコン富嶽由来の水冷「クローズドループ型水冷技術」を採用
- 製品内にラジエータ・ポンプユニットを搭載し、外部に水冷装置の必要なし
C+L ROADM
- ディスアグリゲーション型アーキテクチャ
- C+L 共通部を導入し、C-Band , L-Band のサブユニットを必要時に増設可能
OpenZR+ の採用とトラブル
ベンダーロック
ベンダー名書き換えで対応
FEC モードご認識
CFEC で起動してしまい、OFEC にならない
低電力モードから起動しない
Low Power モードになったあとに起動せず、光が出ない
Low Power デフォルトのトランシーバで発生
ルータで解除コマンドが無いとどうしようもない
Slack の質問
> 他レイヤとの融合は良いと思う反面、責任の分界点が明確ではなりそうな気がしており障害時の復旧時間が延びるかと思うのですが・・・・。
ソフトバンクはサーバチーム・ネットワークチームといった、部署縦割りの弊害をなくしていく文化にしようとしている
- エンドユーザから見れば障害はどこで起きているか関係が無い