「2024-07-03-05 JANOG54 参加レポート」の版間の差分

提供:hkatou_Lab
ナビゲーションに移動 検索に移動
ページの作成:「キーワードをこのレポートにメモったので、今後見直して反芻していきたい。 = Day1 = == [https://www.janog.gr.jp/meeting/janog54/400g-zr/…」
 
編集の要約なし
52行目: 52行目:
=== 400G-ZR ===
=== 400G-ZR ===
WDM がなくなった分低コスト化
WDM がなくなった分低コスト化
== [https://www.janog.gr.jp/meeting/janog54/jpopf/ IPアドレスの管理・分配の世界を覗いてみよう !! ~ インターネットを維持するために、とっても大切なこと ~] ==
[https://www.janog.gr.jp/meeting/janog54/wp-content/uploads/2024/07/janog54-jpopf-%E4%B8%AD%E5%B7%9D.pdf 資料1] [https://www.janog.gr.jp/meeting/janog54/wp-content/uploads/2024/07/janog54-jpopf-%E8%B0%B7%E5%B4%8E.pdf 資料2]
APNIC でポリシーが変わると、下部組織である JPNIC のポリシーも影響を受けるため、確認したほうが良い
= Day2 =
== [https://www.janog.gr.jp/meeting/janog54/sakura/ 生成AI向けパブリッククラウドサービスをつくってみた話] ==
[https://www.janog.gr.jp/meeting/janog54/wp-content/uploads/2024/05/janog54-sakura.pdf 資料]
=== スペック ===
NVIDIA H100 : GPU 2000+
200G x4 or 400G x4
2E Flops+
=== GPU サーバの構築 ===
2 週間、30 人/日、200 台
* 開墾だけで半日
=== 消費電力 ===
データシートの最大値で見る
ラック単体で電力設計、サーバルーム全体でも電力設計
クラスタを組んでいると複数 GPU サーバで電力負荷が増加
=== 冷却能力 ===
コールドアイルとホットアイルで分離
排熱量が大きいラックの周囲には何も置けないことも
水冷式やファン付きラック扉を検討予定
=== 騒音対策 ===
人間が会話できる場所ではなくなった
* イヤーマフでガード + インカムで会話
* 6 ヶ月に一回聴覚検査をしなければならない
=== 設計 ===
シンプル・マルチテナンシー・公平
=== スイッチ ===
Arista Networks 7816R3 シャーシ型スイッチを採用
* スパインスイッチ不要
* VoQ ベースファブリック
* セル スプレー スイッチング
** ロスレス
** ノンブロッキング
** アウトオブオーダーなし
EVPN/VXLAN なし、VRF + VLAN のみでマルチテナンシーを実現可能
==== スイッチのラックマウント ====
機器をラックに設置する際に、推奨のツールがある
* 専門の業者様に依頼
ラインカード・電源などを抜いた状態で、32U 200kg
* ケージナットが行方不明
* シャーシ側面の保護シート剥がし忘れ
=== 配線設計 ===
パッチパネルとシャーシ スイッチが 1 ラックに収まらない
スイッチは 400G -> 200G x2 Breakout
MPO-16 が使いにくい
* ケーブルクリーナーが MPO-12 と異なる
追加整備は SMF MPO-12 配線 400GDR に変更
=== トランシーバ ===
サードパーティ トランシーバを採用
* 200GSR4 は BER の測定結果に差があり -> BER の値が良いメーカーを採用
* 400GDR4 は BER 測定結果にそこまで差がない
=== 今後のトランシーバ ===
==== MMF ? SMF ? ====
* MMF のほうが安価だが・・・
* 基本的には SMF になりそう
==== 光配線 ====
MPO-16 パッチパネルの敷設が難しい
* 80G だと当面は必要に
* MMF/MPO なら Low-Loss タイプが良い
400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも
* MPO はやはり使いづらい
LPO 対応がちらほら見えてきた
フォームファクタは悩みそう
* QSFP 系 ? OSFP 系 ?
=== トラブルシューティング ===
1 分だけリンクアップ、その後リンクダウン
* OIR しても一緒
* 交換で OK
クリーナーでトランシーバの MPO の爪を破損させてしまった
* 再発防止をどうしよう
* 500 回見直しつらい
==== MPO ケーブル品質問題 ====
端面検査機でエラー、BER あり
* コアディップあり
* コアの中心が歪んでいる
メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した
[[カテゴリ:イベント]]

2024年7月4日 (木) 11:02時点における版

キーワードをこのレポートにメモったので、今後見直して反芻していきたい。

Day1

バックボーンネットワークエンジニアがL3プロトコルを使ってL2リングを作り変えた話 ~ついでに400G-ZRでWDMレスで長距離飛ばしちゃったよ~

資料

WDM + L2 Ring スイッチから、400G-ZR + EVPN 対応スイッチにリプレースした話。

リングプロトコルの課題

L2 ループこわい

  • 設定ミス
  • バグ

トラフィック エンジニアリングが難しい

独自プロトコルなので選択肢が少ない

  • リプレースしづらい / 足元を見られる

EVPN / VXLAN を採用

実績が豊富

標準化されている

  • 価格競争が働きやすい
  • CNCi でも BGP を運用している

EVPN 設計

IPv6 LLA はなし

  • traceroute が効かなかった
    • (Slack から) v4 Loopback があれば出るはず

BGP Additinal Path を有効化

  • バックアップ パスを見られるようにしたかった

今後の課題

マルチキャストをどうしよう

  • EVPN の Head End Replication で複製はされるが・・・

EVPN All Active Multi Homing で MLAG 可能に

事前検証

ほとんどのコンフィグは ContainerLab で作成できた

  • 物理系のみ実機が納入されてから作成

400G-ZR

WDM がなくなった分低コスト化

IPアドレスの管理・分配の世界を覗いてみよう !! ~ インターネットを維持するために、とっても大切なこと ~

資料1 資料2

APNIC でポリシーが変わると、下部組織である JPNIC のポリシーも影響を受けるため、確認したほうが良い

Day2

生成AI向けパブリッククラウドサービスをつくってみた話

資料

スペック

NVIDIA H100 : GPU 2000+

200G x4 or 400G x4

2E Flops+

GPU サーバの構築

2 週間、30 人/日、200 台

  • 開墾だけで半日

消費電力

データシートの最大値で見る

ラック単体で電力設計、サーバルーム全体でも電力設計

クラスタを組んでいると複数 GPU サーバで電力負荷が増加

冷却能力

コールドアイルとホットアイルで分離

排熱量が大きいラックの周囲には何も置けないことも

水冷式やファン付きラック扉を検討予定

騒音対策

人間が会話できる場所ではなくなった

  • イヤーマフでガード + インカムで会話
  • 6 ヶ月に一回聴覚検査をしなければならない

設計

シンプル・マルチテナンシー・公平

スイッチ

Arista Networks 7816R3 シャーシ型スイッチを採用

  • スパインスイッチ不要
  • VoQ ベースファブリック
  • セル スプレー スイッチング
    • ロスレス
    • ノンブロッキング
    • アウトオブオーダーなし

EVPN/VXLAN なし、VRF + VLAN のみでマルチテナンシーを実現可能

スイッチのラックマウント

機器をラックに設置する際に、推奨のツールがある

  • 専門の業者様に依頼

ラインカード・電源などを抜いた状態で、32U 200kg

  • ケージナットが行方不明
  • シャーシ側面の保護シート剥がし忘れ

配線設計

パッチパネルとシャーシ スイッチが 1 ラックに収まらない

スイッチは 400G -> 200G x2 Breakout

MPO-16 が使いにくい

  • ケーブルクリーナーが MPO-12 と異なる

追加整備は SMF MPO-12 配線 400GDR に変更

トランシーバ

サードパーティ トランシーバを採用

  • 200GSR4 は BER の測定結果に差があり -> BER の値が良いメーカーを採用
  • 400GDR4 は BER 測定結果にそこまで差がない

今後のトランシーバ

MMF ? SMF ?

  • MMF のほうが安価だが・・・
  • 基本的には SMF になりそう

光配線

MPO-16 パッチパネルの敷設が難しい

  • 80G だと当面は必要に
  • MMF/MPO なら Low-Loss タイプが良い


400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも

  • MPO はやはり使いづらい

LPO 対応がちらほら見えてきた

フォームファクタは悩みそう

  • QSFP 系 ? OSFP 系 ?

トラブルシューティング

1 分だけリンクアップ、その後リンクダウン

  • OIR しても一緒
  • 交換で OK


クリーナーでトランシーバの MPO の爪を破損させてしまった

  • 再発防止をどうしよう
  • 500 回見直しつらい

MPO ケーブル品質問題

端面検査機でエラー、BER あり

  • コアディップあり
  • コアの中心が歪んでいる

メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した