「2024-07-03-05 JANOG54 参加レポート」の版間の差分
ページの作成:「キーワードをこのレポートにメモったので、今後見直して反芻していきたい。 = Day1 = == [https://www.janog.gr.jp/meeting/janog54/400g-zr/…」 |
編集の要約なし |
||
52行目: | 52行目: | ||
=== 400G-ZR === | === 400G-ZR === | ||
WDM がなくなった分低コスト化 | WDM がなくなった分低コスト化 | ||
== [https://www.janog.gr.jp/meeting/janog54/jpopf/ IPアドレスの管理・分配の世界を覗いてみよう !! ~ インターネットを維持するために、とっても大切なこと ~] == | |||
[https://www.janog.gr.jp/meeting/janog54/wp-content/uploads/2024/07/janog54-jpopf-%E4%B8%AD%E5%B7%9D.pdf 資料1] [https://www.janog.gr.jp/meeting/janog54/wp-content/uploads/2024/07/janog54-jpopf-%E8%B0%B7%E5%B4%8E.pdf 資料2] | |||
APNIC でポリシーが変わると、下部組織である JPNIC のポリシーも影響を受けるため、確認したほうが良い | |||
= Day2 = | |||
== [https://www.janog.gr.jp/meeting/janog54/sakura/ 生成AI向けパブリッククラウドサービスをつくってみた話] == | |||
[https://www.janog.gr.jp/meeting/janog54/wp-content/uploads/2024/05/janog54-sakura.pdf 資料] | |||
=== スペック === | |||
NVIDIA H100 : GPU 2000+ | |||
200G x4 or 400G x4 | |||
2E Flops+ | |||
=== GPU サーバの構築 === | |||
2 週間、30 人/日、200 台 | |||
* 開墾だけで半日 | |||
=== 消費電力 === | |||
データシートの最大値で見る | |||
ラック単体で電力設計、サーバルーム全体でも電力設計 | |||
クラスタを組んでいると複数 GPU サーバで電力負荷が増加 | |||
=== 冷却能力 === | |||
コールドアイルとホットアイルで分離 | |||
排熱量が大きいラックの周囲には何も置けないことも | |||
水冷式やファン付きラック扉を検討予定 | |||
=== 騒音対策 === | |||
人間が会話できる場所ではなくなった | |||
* イヤーマフでガード + インカムで会話 | |||
* 6 ヶ月に一回聴覚検査をしなければならない | |||
=== 設計 === | |||
シンプル・マルチテナンシー・公平 | |||
=== スイッチ === | |||
Arista Networks 7816R3 シャーシ型スイッチを採用 | |||
* スパインスイッチ不要 | |||
* VoQ ベースファブリック | |||
* セル スプレー スイッチング | |||
** ロスレス | |||
** ノンブロッキング | |||
** アウトオブオーダーなし | |||
EVPN/VXLAN なし、VRF + VLAN のみでマルチテナンシーを実現可能 | |||
==== スイッチのラックマウント ==== | |||
機器をラックに設置する際に、推奨のツールがある | |||
* 専門の業者様に依頼 | |||
ラインカード・電源などを抜いた状態で、32U 200kg | |||
* ケージナットが行方不明 | |||
* シャーシ側面の保護シート剥がし忘れ | |||
=== 配線設計 === | |||
パッチパネルとシャーシ スイッチが 1 ラックに収まらない | |||
スイッチは 400G -> 200G x2 Breakout | |||
MPO-16 が使いにくい | |||
* ケーブルクリーナーが MPO-12 と異なる | |||
追加整備は SMF MPO-12 配線 400GDR に変更 | |||
=== トランシーバ === | |||
サードパーティ トランシーバを採用 | |||
* 200GSR4 は BER の測定結果に差があり -> BER の値が良いメーカーを採用 | |||
* 400GDR4 は BER 測定結果にそこまで差がない | |||
=== 今後のトランシーバ === | |||
==== MMF ? SMF ? ==== | |||
* MMF のほうが安価だが・・・ | |||
* 基本的には SMF になりそう | |||
==== 光配線 ==== | |||
MPO-16 パッチパネルの敷設が難しい | |||
* 80G だと当面は必要に | |||
* MMF/MPO なら Low-Loss タイプが良い | |||
400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも | |||
* MPO はやはり使いづらい | |||
LPO 対応がちらほら見えてきた | |||
フォームファクタは悩みそう | |||
* QSFP 系 ? OSFP 系 ? | |||
=== トラブルシューティング === | |||
1 分だけリンクアップ、その後リンクダウン | |||
* OIR しても一緒 | |||
* 交換で OK | |||
クリーナーでトランシーバの MPO の爪を破損させてしまった | |||
* 再発防止をどうしよう | |||
* 500 回見直しつらい | |||
==== MPO ケーブル品質問題 ==== | |||
端面検査機でエラー、BER あり | |||
* コアディップあり | |||
* コアの中心が歪んでいる | |||
メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した | |||
[[カテゴリ:イベント]] |
2024年7月4日 (木) 11:02時点における版
キーワードをこのレポートにメモったので、今後見直して反芻していきたい。
Day1
バックボーンネットワークエンジニアがL3プロトコルを使ってL2リングを作り変えた話 ~ついでに400G-ZRでWDMレスで長距離飛ばしちゃったよ~
WDM + L2 Ring スイッチから、400G-ZR + EVPN 対応スイッチにリプレースした話。
リングプロトコルの課題
L2 ループこわい
- 設定ミス
- バグ
トラフィック エンジニアリングが難しい
独自プロトコルなので選択肢が少ない
- リプレースしづらい / 足元を見られる
EVPN / VXLAN を採用
実績が豊富
標準化されている
- 価格競争が働きやすい
- CNCi でも BGP を運用している
EVPN 設計
IPv6 LLA はなし
- traceroute が効かなかった
- (Slack から) v4 Loopback があれば出るはず
BGP Additinal Path を有効化
- バックアップ パスを見られるようにしたかった
今後の課題
マルチキャストをどうしよう
- EVPN の Head End Replication で複製はされるが・・・
EVPN All Active Multi Homing で MLAG 可能に
事前検証
ほとんどのコンフィグは ContainerLab で作成できた
- 物理系のみ実機が納入されてから作成
400G-ZR
WDM がなくなった分低コスト化
IPアドレスの管理・分配の世界を覗いてみよう !! ~ インターネットを維持するために、とっても大切なこと ~
APNIC でポリシーが変わると、下部組織である JPNIC のポリシーも影響を受けるため、確認したほうが良い
Day2
生成AI向けパブリッククラウドサービスをつくってみた話
スペック
NVIDIA H100 : GPU 2000+
200G x4 or 400G x4
2E Flops+
GPU サーバの構築
2 週間、30 人/日、200 台
- 開墾だけで半日
消費電力
データシートの最大値で見る
ラック単体で電力設計、サーバルーム全体でも電力設計
クラスタを組んでいると複数 GPU サーバで電力負荷が増加
冷却能力
コールドアイルとホットアイルで分離
排熱量が大きいラックの周囲には何も置けないことも
水冷式やファン付きラック扉を検討予定
騒音対策
人間が会話できる場所ではなくなった
- イヤーマフでガード + インカムで会話
- 6 ヶ月に一回聴覚検査をしなければならない
設計
シンプル・マルチテナンシー・公平
スイッチ
Arista Networks 7816R3 シャーシ型スイッチを採用
- スパインスイッチ不要
- VoQ ベースファブリック
- セル スプレー スイッチング
- ロスレス
- ノンブロッキング
- アウトオブオーダーなし
EVPN/VXLAN なし、VRF + VLAN のみでマルチテナンシーを実現可能
スイッチのラックマウント
機器をラックに設置する際に、推奨のツールがある
- 専門の業者様に依頼
ラインカード・電源などを抜いた状態で、32U 200kg
- ケージナットが行方不明
- シャーシ側面の保護シート剥がし忘れ
配線設計
パッチパネルとシャーシ スイッチが 1 ラックに収まらない
スイッチは 400G -> 200G x2 Breakout
MPO-16 が使いにくい
- ケーブルクリーナーが MPO-12 と異なる
追加整備は SMF MPO-12 配線 400GDR に変更
トランシーバ
サードパーティ トランシーバを採用
- 200GSR4 は BER の測定結果に差があり -> BER の値が良いメーカーを採用
- 400GDR4 は BER 測定結果にそこまで差がない
今後のトランシーバ
MMF ? SMF ?
- MMF のほうが安価だが・・・
- 基本的には SMF になりそう
光配線
MPO-16 パッチパネルの敷設が難しい
- 80G だと当面は必要に
- MMF/MPO なら Low-Loss タイプが良い
400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも
- MPO はやはり使いづらい
LPO 対応がちらほら見えてきた
フォームファクタは悩みそう
- QSFP 系 ? OSFP 系 ?
トラブルシューティング
1 分だけリンクアップ、その後リンクダウン
- OIR しても一緒
- 交換で OK
クリーナーでトランシーバの MPO の爪を破損させてしまった
- 再発防止をどうしよう
- 500 回見直しつらい
MPO ケーブル品質問題
端面検査機でエラー、BER あり
- コアディップあり
- コアの中心が歪んでいる
メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した