treedown’s Report

システム管理者に巻き起こる様々な事象を読者の貴方へ報告するブログです。会社でも家庭でも"システム"に携わるすべての方の共感を目指しています。

※https化しました。その影響でしばらくリンク切れなどがあるかもしれませんが徐々に修正していきます。 リンク切れなどのお気づきの点がございましたらコメントなどでご指摘いただけますと助かります。

(1/2)番外編:WindowsUpdate2018年5月-ひっそり障害

世の中の大多数のユーザには全く関係ない情報なのですが、すごくニッチな障害がWindows Updateを起点に発生していた、というご報告です。

その障害はクライアントHyper-Vで起きていました。

動かないSoftether

Windows10のクライアントHyper-Vで、Debian 8 Jessieを動作させています。
そのDebian 8 Jessieの担っている役割は、Softether VPN Serverをホストしており、VPN接続の入り口となっています。
5月7日に最後に使ってからしばらく使ってなかったのですが、先週使おうとしたら、接続できなくなっていました。

なぜだ?
と、いうのも、設定変更やDebianのアップデートといった操作を何もやっていないので障害の起点となるはずのトリガが存在しないのです。しかし、確かにそのDebian Linuxでは問題が起きているようでした。

しかし、当方のSoftether、正系、副系と2種類用意しており、こういう状況に備えて片方はVPNAzure接続もカバーしているおかげで、とりあえず、VPN接続自体は何とか副系のVPN Azure経由で実行可能。やっててよかった冗長化。

とはいえ、正系が障害おきっぱなしで放置というのもよくない、ってことでいろいろ確認してみました。

問題の内容

とかくVPN Server Managerソフトで接続して状況を確認しようにもエラーで接続不能で確認できず。
OSにSSH接続しようにも接続拒否で接続できず。
直接Hyper-Vホストからゲストのコンソールを開いて操作しようとすれば、操作はできるのですが、画面上に謎のエラーメッセージが表示され、操作できず。

f:id:treedown:20180518014842p:plain
こんなの。

INFO: task <process>:<pid> blocked for more than 120 seconds.
"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.

が多数出力される、sudoなども上記でタイムアウト待ちとなりシステムが動作しない。
dmesgにも

kernel: INFO: task tnslsnr:2213 blocked for more than 120 seconds.
kernel: Not tainted 2.6.32-431.el6.x86_64 #1
kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.

とこのようなログがいくつか記録されていた。

suはできてもsudoはできない、shutdownコマンドも5分以上かかってエラーで停止。

うーん。どうしよう…。

試した対処

八方塞がりの状況で、試した対処をざっくりと。
1) Debianに導入されているHyper-Vドライバ関連で問題が起きた?と思って、いったんHyper-Vホスト側の設定でゲストサービスを一通り無効化してみるも効果なし。

f:id:treedown:20180518014916p:plain
2) それならばと、4月のバックアップからVHDをリストアしマウント⇒起動としてみるも、状況は同じ、画面上には謎のエラー

3) 4月でダメなら12月のバックアップがあったな…、と思い出し、さらに前の12月のバックアップのVHDを復元してみるも、状況は同じ、画面上に謎のエラーが継続。

ここまでで、「これハイパーバイザ側なんじゃないの?」って思い始めてきましたが、ひとまず試してみようと思ったのがOSの再インストール。

せっかくだからとDebian 9 Stretchのメディアを使って新しいOSをHyper-Vホスト上にインストール、gccが標準でバージョン6となった影響から、4.9を別途makeインストールするなど、かなり時間を浪費してしまったが、何とかインストールまでにこぎつけた。
で、肝心のSoftetherをインストールして、初期設定を完了させ、最初は無事起動できていたけど…、
設定を進めるうちに、いつのまにか例のエラーメッセージが画面に表示されるようになり、またしても操作不能に。

なんだ?こりゃ?

というところで、いったん時間切れとなりました。次回に続きます。