「2024-07-03-05 JANOG54 参加レポート」の版間の差分
編集の要約なし |
編集の要約なし |
||
90行目: | 90行目: | ||
=== 騒音対策 === | === 騒音対策 === | ||
'''「人間が会話できる場所ではなくなった」''' | |||
* イヤーマフでガード + インカムで会話 | * イヤーマフでガード + インカムで会話 | ||
146行目: | 146行目: | ||
==== 光配線 ==== | ==== 光配線 ==== | ||
===== MPO-16 パッチパネルの敷設が難しい ===== | |||
* 80G だと当面は必要に | * 80G だと当面は必要に | ||
* MMF/MPO なら Low-Loss タイプが良い | * MMF/MPO なら Low-Loss タイプが良い | ||
===== 400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも ===== | |||
400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも | |||
* MPO はやはり使いづらい | * MPO はやはり使いづらい | ||
163行目: | 161行目: | ||
=== トラブルシューティング === | === トラブルシューティング === | ||
==== 1 分だけリンクアップ、その後リンクダウン ==== | |||
* OIR しても一緒 | * OIR しても一緒 | ||
* 交換で OK | * 交換で OK | ||
==== クリーナーでトランシーバの MPO の爪を破損させてしまった ==== | |||
クリーナーでトランシーバの MPO の爪を破損させてしまった | |||
* 再発防止をどうしよう | * 再発防止をどうしよう | ||
* 500 回見直しつらい | * 500 回見直しつらい | ||
182行目: | 178行目: | ||
メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した | メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した | ||
=== 議論 === | |||
==== シャーシ型スイッチは 1 台のみか ? ==== | |||
* 各コンポーネントは !+! or N+1 で冗長されているため、大きな問題はないと考えている | |||
** スーパーバイザ | |||
** ラインカード | |||
*** モジュールわけ分散収容 | |||
** ファブリック モジュール | |||
** 電源 | |||
* シャーシには基板が搭載されていないため、シャーシが破損する危険性は低いと判断している | |||
==== スイッチの Verup はどうする ? ==== | |||
* 全断で対応予定 | |||
==== シャーシ型スイッチを増やすような対応は可能か ? ==== | |||
* 現状はシャーシ型を採用したメリットが無くなってしまうため、営業にがんばってもらうw | |||
* シャーシ間のインターコネクトは本数が多すぎるため、考えていない | |||
[[カテゴリ:イベント]] | [[カテゴリ:イベント]] |
2024年7月4日 (木) 11:17時点における版
キーワードをこのレポートにメモったので、今後見直して反芻していきたい。
Day1
バックボーンネットワークエンジニアがL3プロトコルを使ってL2リングを作り変えた話 ~ついでに400G-ZRでWDMレスで長距離飛ばしちゃったよ~
WDM + L2 Ring スイッチから、400G-ZR + EVPN 対応スイッチにリプレースした話。
リングプロトコルの課題
L2 ループこわい
- 設定ミス
- バグ
トラフィック エンジニアリングが難しい
独自プロトコルなので選択肢が少ない
- リプレースしづらい / 足元を見られる
EVPN / VXLAN を採用
実績が豊富
標準化されている
- 価格競争が働きやすい
- CNCi でも BGP を運用している
EVPN 設計
IPv6 LLA はなし
- traceroute が効かなかった
- (Slack から) v4 Loopback があれば出るはず
BGP Additinal Path を有効化
- バックアップ パスを見られるようにしたかった
今後の課題
マルチキャストをどうしよう
- EVPN の Head End Replication で複製はされるが・・・
EVPN All Active Multi Homing で MLAG 可能に
事前検証
ほとんどのコンフィグは ContainerLab で作成できた
- 物理系のみ実機が納入されてから作成
400G-ZR
WDM がなくなった分低コスト化
IPアドレスの管理・分配の世界を覗いてみよう !! ~ インターネットを維持するために、とっても大切なこと ~
APNIC でポリシーが変わると、下部組織である JPNIC のポリシーも影響を受けるため、確認したほうが良い
Day2
生成AI向けパブリッククラウドサービスをつくってみた話
スペック
NVIDIA H100 : GPU 2000+
200G x4 or 400G x4
2E Flops+
GPU サーバの構築
2 週間、30 人/日、200 台
- 開墾だけで半日
消費電力
データシートの最大値で見る
ラック単体で電力設計、サーバルーム全体でも電力設計
クラスタを組んでいると複数 GPU サーバで電力負荷が増加
冷却能力
コールドアイルとホットアイルで分離
排熱量が大きいラックの周囲には何も置けないことも
水冷式やファン付きラック扉を検討予定
騒音対策
「人間が会話できる場所ではなくなった」
- イヤーマフでガード + インカムで会話
- 6 ヶ月に一回聴覚検査をしなければならない
設計
シンプル・マルチテナンシー・公平
スイッチ
Arista Networks 7816R3 シャーシ型スイッチを採用
- スパインスイッチ不要
- VoQ ベースファブリック
- セル スプレー スイッチング
- ロスレス
- ノンブロッキング
- アウトオブオーダーなし
EVPN/VXLAN なし、VRF + VLAN のみでマルチテナンシーを実現可能
スイッチのラックマウント
機器をラックに設置する際に、推奨のツールがある
- 専門の業者様に依頼
ラインカード・電源などを抜いた状態で、32U 200kg
- ケージナットが行方不明
- シャーシ側面の保護シート剥がし忘れ
配線設計
パッチパネルとシャーシ スイッチが 1 ラックに収まらない
スイッチは 400G -> 200G x2 Breakout
MPO-16 が使いにくい
- ケーブルクリーナーが MPO-12 と異なる
追加整備は SMF MPO-12 配線 400GDR に変更
トランシーバ
サードパーティ トランシーバを採用
- 200GSR4 は BER の測定結果に差があり -> BER の値が良いメーカーを採用
- 400GDR4 は BER 測定結果にそこまで差がない
今後のトランシーバ
MMF ? SMF ?
- MMF のほうが安価だが・・・
- 基本的には SMF になりそう
光配線
MPO-16 パッチパネルの敷設が難しい
- 80G だと当面は必要に
- MMF/MPO なら Low-Loss タイプが良い
400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも
- MPO はやはり使いづらい
LPO 対応がちらほら見えてきた
フォームファクタは悩みそう
- QSFP 系 ? OSFP 系 ?
トラブルシューティング
1 分だけリンクアップ、その後リンクダウン
- OIR しても一緒
- 交換で OK
クリーナーでトランシーバの MPO の爪を破損させてしまった
- 再発防止をどうしよう
- 500 回見直しつらい
MPO ケーブル品質問題
端面検査機でエラー、BER あり
- コアディップあり
- コアの中心が歪んでいる
メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した
議論
シャーシ型スイッチは 1 台のみか ?
- 各コンポーネントは !+! or N+1 で冗長されているため、大きな問題はないと考えている
- スーパーバイザ
- ラインカード
- モジュールわけ分散収容
- ファブリック モジュール
- 電源
- シャーシには基板が搭載されていないため、シャーシが破損する危険性は低いと判断している
スイッチの Verup はどうする ?
- 全断で対応予定
シャーシ型スイッチを増やすような対応は可能か ?
- 現状はシャーシ型を採用したメリットが無くなってしまうため、営業にがんばってもらうw
- シャーシ間のインターコネクトは本数が多すぎるため、考えていない