treedown’s Report

システム管理者に巻き起こる様々な事象を読者の貴方へ報告するブログです。会社でも家庭でも"システム"に携わるすべての方の共感を目指しています。

※https化しました。その影響でしばらくリンク切れなどがあるかもしれませんが徐々に修正していきます。 リンク切れなどのお気づきの点がございましたらコメントなどでご指摘いただけますと助かります。

玄箱Proの故障(たぶん)⇒諦める

玄箱Proのバージョンアップ後にビープ音が鳴る件、あれから何度か聞きながらもそのままにしていました。
しかし、そのビープ音は新たな障害の始まり。

いままではビープ音単発だったのが…

玄箱ProのDebianをバージョンアップ後にビープ音が鳴るようになりました。
詳しくは

blog.treedown.net

こんな感じ。
結論として温度検知でファンが回り出したことを示すようにビープ音が鳴っていたことから、多分ファンが回ったことを示すビープ音じゃないかってことで、片付けていました。

しかし、ある日のビープ音、今まで単発だったのがちょっと違っていました。

障害発生?ビープ音連発

あるとき、ビープ音は単発でなく、連発するようになりました。
ピー、ピー、ピー、ピー…とずっと一定間隔でずーっとビープ音が鳴り続けます。
いちおうこのときはSSH接続を受け付けます。
しかし、そのビープ音が一定時間継続して鳴ったあと、ビープ音の間隔が短く(ピーピーピーピー…と)なって、玄箱Proはダウン(電源OFF状態)してしまいます。

ただ、ビープ音が連続して鳴ってから、自動的に電源OFF状態に移行してしまい、再度起動したところでログを見てみるものの、どうもそれらしいログは発見できていませんでした。

なんとかログを取得

障害を示すログが見つからない、そこでもう少しリアルタイムに監視をしてみるようにしました。
ビープ音連発後、すぐにSSH接続してログイン後即「sudo tail -f /var/log/syslog」を実行です。正系と副系で二台あったため、どっちのビープ音か分からない、ということもあって、二台ともログインしtailコマンドでログの出力をみながら監視することにしました。

すると、正系の玄箱Proから以下のログが

--------------------------------------------------------------
kuro-box kernel: [41189.634756] ata1: exception Emask 0x10 SAct 0x0 SErr 0x180000 action 0x6 frozen
kuro-box kernel: [41189.642157] ata1: edma_err_cause=00000020 pp_flags=00000000, SError=00180000
kuro-box kernel: [41189.649282] ata1: SError: { 10B8B Dispar }
kuro-box kernel: [41189.653475] ata1: hard resetting link
--------------------------------------------------------------
一行目で
「exception Emask 0x10 SAct 0x0 SErr 0x180000 action 0x6 frozen」
例外ってエラー表示、フローズン(フリーズ?)という表記もあります。
電源関連で問題とかRAID(※今回はRAID関係ないけど)の問題とか、熱暴走とか、いくつか原因はありそうです。そもそも発端となっていたビープ音が熱に絡む動作でしたし。

二行目の
「edma_err_cause=00000020 pp_flags=00000000, SError=00180000」
ってのが、後ろの
「SError: { 10B8B Dispar }」
とか
「hard resetting link」
を含めて、ハードディスクの故障とかSATA関係…れいとしてSATAケーブル(※といっても玄箱ProはSATAケーブル使ってないけど)とかSATAコントローラが障害起こしているとか、そういうハードディスクとそれを接続するインターフェース(I/F)で問題が起きているらしい。

ま、その、なんといいますか、
故障だね、ってのは分かってきました。
(※最初は事実から目を背けたかったけど、やっぱり改めてログで示される情報は故障だと主張しているので、現実を受け入れなきゃな、という気になってきたわけです。)

一応念のため

故障の箇所は特定しておきたい、と思ったので、早速HDDを取り外して、別のPCに接続してディスクチェックを実行。
検査中。

HDD検査中に、ついでに中を見てみると、
なんかいやな感じがしました。コンデンサの頭から液漏れのような感じに見えます。しかも二つとも。

f:id:treedown:20190414033306p:plain
よくみると

f:id:treedown:20190414033330p:plainこれも

f:id:treedown:20190414033347p:plainこっちも
なんとなく、コンデンサの破裂に起因するシステムボードの異常ってやつかなと思いました。
と、なるとディスク自体は問題ない可能性が高い、つまりデータは無事だろうってことになります。データ損失がないのは助かります。(正系と副系の二台で冗長していたので、副系で持っているデータは残っていますが。

結局、別のPCで検査したハードディスクは健康そのもの、問題ありませんでした。

そうなると、故障した玄箱Proの代わりにNASの役目を担ってくれるサーバが必要になるなぁ、ってことで、以前に考えていた

blog.treedown.net

これかなぁ、ちょっとどれくらい実現できそうかを現実的なところで考え中です。