treedown’s Report

システム管理者に巻き起こる様々な事象を読者の貴方へ報告するブログです。会社でも家庭でも"システム"に携わるすべての方の共感を目指しています。

※https化しました。その影響でしばらくリンク切れなどがあるかもしれませんが徐々に修正していきます。 リンク切れなどのお気づきの点がございましたらコメントなどでご指摘いただけますと助かります。

ある日曜日のネットワーク障害に対処する

ちょっと前のことですが、出会ったことがないネットワーク障害に遭遇しましたのでご報告です。
こういうこともあるんだなぁと思った障害の記録です。

ある日の日曜日

前日夜に雷鳴が轟いていた翌日、晴天の日曜の午後の昼下がり。
平日が忙しかっただけに、唯一のんびりできる日曜は貴重な休養日となります。
しかし、そんな日曜の午後ののんびりを打ち破ったのが、メールアラートでした。

拠点間通信のVPN接続を担当してるルータがリンクダウンしたという表示の「ActionEvent: Down」というアラートを受信しました。
試しに確認してみたところ、ping応答がない…。

うーん、なにか問題があったのかなぁ…、日曜だから休みたいなぁ、行きたくないなぁ、と思いつつ、それでも明日の月曜には業務が開始してしまいますし、通信ができないと何も知らないユーザの間で騒ぎになってしまうことは明白でした。
気持ちを奮い立たせて、現地に向かうことにしました。足取りは重い…。

到着、しかし…

現地に到着、さっそく通信機器を収めてるラックを開けてルータを確認。

ん?
LEDは正常動作を示しています。
監視システムの通信グラフはアラートの時間を持って消えているため、確実に通信はしていないのですが、実際の現地のルータは何事もなかったかのように正常動作をしていることが確認できました。

さっそくルータ配下の無線APやNASの動作なども確認してみますが、LAN内の通信は問題なさそう。
念のため、ルータを再起動してみるものの、状況に変化なし。

手詰まりだ…。日曜の夕方が近づいてきていました。

ふと気づいた表示

月曜日の始業時刻まであと18時間を切った、「ルータじゃないんじゃないか?」と思い始めていました。
ここでふと気づいたのがルータの向こう側、ONUの表示。
LEDを見ると、

f:id:treedown:20211026160225p:plain

ん?

f:id:treedown:20211026160252p:plain

「光回線」とある箇所のLEDが消灯しています。

ONUって全部LED緑点灯が正常状態じゃなかったっけ?

「認証」「UNI」「光回線」「電源」のうち「認証」と「光回線」が消灯していました。

「光回線」LEDの消灯ということは、ONUの向こう側のインターネット回線がリンクダウンしている、と言うことになります。(ちなみに橙は折り返し試験実行中、赤が回線異常を示しています。)

ここが消灯しているということは、NTT側かビルの共用部の設備の問題じゃないか?と考え始めました。

当日対処は無理

NTT側かビルの共用部で問題があったとすると、日曜日の夕方という現在に何かしら対処するのは無理という結論に達してしまいます。
試しにONUを再起動してみましたが、状況には全く変化はありませんでした。LEDは消灯したまま。

そうなると…、せめて混乱を招かないよう、社内でアナウンスしてもらい、復旧の手はずを進めるしかないように思えます。

さっそく管理側へ連絡し、通信およびひかり電話が使えない状況という旨、社内へのアナウンスを依頼しました。またNTTかビル管理に回線異常を伝えて貰い、回線の確認を含めて問合せをしてもらうよう重ねて依頼しておきました。

日曜日にできることは全て終わったので、この日は諦めて帰宅。

翌日、無事復旧へ

事前のアナウンス効果で特に混乱はなかった模様。
徐々に問題は明らかとなっていき、その地域一帯で光回線の不通があったようで、NTT地域へ問合せが何件も入っていたようです。
何件も光回線の不通による問合せが入ったことで、NTTも障害を認識し、月曜日に確認から対処を実施し、当日の午後には回線が復旧しました。

結論:NTT内の設備の不具合による光回線の不通

復旧の連絡が入ったあとで、ルータのアラートも「ActionEvent: Up」で無事開通したことが確認できました。

前日に雷がひどかったこともあって、雷の影響も考えたのですが、「雷は関係ない」というNTTの回答だったそうです。