treedown’s Report

システム管理者に巻き起こる様々な事象を読者の貴方へ報告するブログです。会社でも家庭でも"システム"に携わるすべての方の共感を目指しています。

※https化しました。その影響でしばらくリンク切れなどがあるかもしれませんが徐々に修正していきます。 リンク切れなどのお気づきの点がございましたらコメントなどでご指摘いただけますと助かります。

サーバ室の空調を止めるとこうなる

サーバルームのエアコンを止めるとこうなりますよ、という内容を実際に遭った昔話の形でご報告します。

節電のためにサーバ室のエアコンを停止しようとする人にも読んでもらいたい体験談です。

最近、猛暑も収まり、過ごしやすい気温になってきました。
が、サーバ室のサーバ達は外気が何℃であれ、動作範囲内の稼働環境でなければボイコットを招くことになります。
あの日も今日と同じく土曜日でした。

むかーし昔、10年くらいちょっとした昔。
ある日の土曜日夕方、会社から携帯に入電。
「サーバが全停止しているそうです。すぐ来てください。」
えぇっ!どしたの?
「最初はサーバ室が火事だ、って騒ぎになっていたんですけど、それは誤報で、どうやらエアコンが止まったせいでサーバが全停止したらしいんです。」
うゎぁ…。
急いで電車に乗って最寄駅からダッシュすること15分、会社に到着すると緊急事態で駆けつけた部員と何人かの休日出勤の部員が入口ドア×2を全開にし、どこからか持ってきた扇風機を入り口前に置いてで廊下の空気を一生懸命にサーバ室に送り込んでいた。そんなにもだったのか。
温度が下がったとはいえまだ暑さの残るサーバ室から、ゆらりと人影が。
ぶ、部長…。後で聞いた話では事態を聞いて車で駆けつけたらしい。
「おお、来たか。あとは頼むよ。」
はい、電源入れて故障がないか確認しておきます。
で、何があったんですか?
「エアコンが止まったらしいんだけど原因が分からないんだよなぁ…。」
エアコン(の操作パネル)に目をやれば、いつもと同じ設定温度"冷房:20℃"の表記だが、正常時にLEDが緑点灯している電源ONを表示するLED表示はオレンジ色で点滅していた。2台とも。
電源OFFだとLED消灯なんだけどなぁ…、と思いつつ目をやると、部長から
「詳しくは彼らに聞いてみて。」
と、フリが入った。
さっそく聞き込み開始です。(RPGみたいだな。)
みんな興奮気味にその時の様子を教えてくれた。
「いや、サーバ室の前を通りかかった人が、すりガラス(この時のサーバ室の扉は一部すりガラス)の向こう側が真っ赤になっているのを見て「火事だ!」って言い出したんです。我々も火事だ!と言われて動転してしまって…。」
まあそうですよね。
「私と一緒にもう一人意を決して二人でサーバ室に入ったんですけど、すぐにもう一人が「ダメだ…」って言って出ちゃいましたねー。とにかく部屋がアツくて。」
自分の不名誉のような気がしたのか、逃げ出した(とされる)社員本人が
「いやあれはダメだよね?」
と、同意を求めるようなセルフフォローは皆スルー。
さらに状況の説明は続く。
「私が入ったときには実際、火は出てなかったです。でもサーバというサーバ全てのインジケータが赤く光ってて。ガラスの向こう側から見るとLEDの赤い光が火事の炎に見えたんでしょうね。とにかく異様な光景でしたよ。」
別の一人が続けて言う。
「異様なのはその温度ですよ。入った途端に夏の猛暑を倍にしたぐらいの暑さで部屋全体が熱風が体にまとわりついてきて。ほんとに火事だと思いました。でも火は見えなくて、それでも暑くて、部屋に居たら命の危険を感じたから、すぐに部屋を出ました。命大事ですよね?」
うゎぁ…。命、大事だよね。
とりあえず確認だけど、"火事じゃない"んだよね?
「火事かどうかで言えば…、火事じゃないです。温度は体験したことない温度ですけど火事じゃないです。でも火事だと勘違いしても仕方ない温度です。火事じゃないけど。」
まあそろそろちょっと落ち着いてくださいよ。火事じゃない、連呼してますから。
ほらサーバ室もエアコン付けてからちょっとづつ冷えてきたことですし。
結局エアコンが停止した、というのが主要因でサーバ全停止、ということ?
「そうですね。エアコンが停止して温度が上がったらサーバって自動的にシャットダウンするらしいですよ。さっきメーカサポートに確認しました。」
へえぇ知らなかった。じゃあサーバは内部で温度計持ってて、温度が閾値を超えると自動で電源OFFにすると。
「そうですね。温度が上がったから自動シャットダウンが動作してサーバが全停止した、というのが真相のようです。」
驚きの仕様、この時に初めて知った、温度によって自動シャットダウン機能。
これだけでもサーバ室の空調を止めれば全社的なトラブルになることは明白です。OSI7階層の物理層が重要であるように、ファシリティ(設備や物理的資源)って重要ですなぁ。

一通り聞き込みが終わったところで、(RPGみたいだな。)おもむろに部長から指示が下る。
「とにかく月曜の朝一には通常通り業務開始ができるよう、土日で復旧させないと。大丈夫だよね?」
(Y/N)
うーん。大丈夫か?と言われると、熱で故障がなければ大丈夫、故障があれば修理が必要、保守契約がある筐体はなんとかなるけど保守契約がない筐体は間に合うかどうかが現時点ではなんとも言えませんねぇ…。ひとまず全体を起動させてみて状況確認します。お時間ください。
部長は言葉少なに
「よろしく頼む。」
とだけ言うと(別フロアの)自席に向かって退出していった。

さぁて、電源を入れていきましょうか。
まずは通信機器。通信機器は自動シャットダウンしていないですね。
FW(他ONU)⇒コアスイッチ、ラックスイッチ、とここまでの確認で電源停止やリンクダウンは特になし。
特に不自然に電源OFFしている機器もないようだから通信関係は問題ないと思っていいかな。(あとでpingで確認しましょう。)
各サーバのNICでリンクアップしていないのは管理NICも含めてなし、と。
こういう特殊な状況なら物理層の確認からですよね。
通信LED問題なし、ということで次はサーバです。
毎年、法令停電の対処要因なのでこのあたりは手馴れたものです。
Active Directory環境なので認証サーバから起動確認します。
…。
はい、FSMO起動。(しばらく待って)DC起動。Active Directoryドメイン認識OK。
DCが一通り起動し終わったので、メンバーサーバを起動していきます。
起動していくと、1台アテンションランプが…。
さっそくIMM経由でブラウザからハードウェアインベントリを確認です。
ハードディスク不良です。状況が状況だけに仕方ない、保守契約内の筐体だっただけ運が良かったと思いましょう。
ちょっと気になったので、IMMが出力しているイベントログを確認してみた。
System Healthと記載されたページにサーバの温度が表示されるのだが、平常時では45度くらいで動作しているらしい。
で、これが問題発生時には最高で98.5℃を記録している、うーん温度が倍か…。とにかくサーバの発熱込でも98℃って異常だよね。そりゃメーカとしても自動シャットダウン仕掛けたくなるわ。
他のサーバでもHDD温度やサーバの内部温度がIMM/iLOで表示出来たのだが、80℃超えだったりあるものは70℃~80℃の間だったりと、60℃を下回る温度記録はどこにも見当たらない状況でした。
サーバの内部温度は気温より高くなるとはいえ、こんな温度ではそりゃあ火事と勘違いもしますよね。

メンバーサーバを起動している途中で、気になったことが起きた。
?これ、起動している。シャットダウンしていないってこと?
みれば安物筐体のメール・Proxyサーバ、OSはLinux。CPUはPentiumIII、内部パーツはパソコンと同じだがガワだけ19インチラックに収まるサーバのような形をしているサーバ。
もちろん他のサーバ筐体のような温度計なんぞ搭載していないから、自動シャットダウンなどと気の利いた機能も非搭載。
2台あるのですが2台とも、この暑さの中でこいつらは動いていたというのか?
さっそくコンソールからログインして確認してみます。
ログ:syslog/messages問題なし、カーネルパニックもないし、コンソールにもメッセージは出ていない、安物のくせにあの暑さの中稼働し続けてそれでも問題なしと、いうのか。
いや、結局問題なかったのです。その後再起動しましたがfsckすら動作しないくらい問題なし。PentiumIII時代のインテル製品がいかに偉大だったか、を回顧できる事象ですね。

で確認を進めると、またしてもハードディスク不良に出会う。ハードディスクはやっぱり繊細なパーツです。でもこれも保守契約内の筐体だから一安心。
今回は保守範囲内とはいえSASディスクは1本16万円くらいしますから、軽く100万円くらい損害が出ていた可能性があったわけですな。なるほどなるほど、これは恐ろしい。
保守契約外のサーバは幸い故障がなかったのですが、もし保守契約外のサーバで故障が発生していたらこれじゃ済まない大変なことに。まさに地獄絵図が頭にイメージされてくる。
データ損失、筐体買い直し、サーバ再構築、復旧作業の人件費…、ざっくり試算で数百万円のコスト上乗せ…たかが空調では済ませれない高いエアコン障害の代償ですがな。

結局故障はハードディスクのみで保守契約の範囲内にある筐体だけ、という奇跡的な結果で確認完了しました。
電話で故障筐体の情報とHDD不良を伝えてメーカー保守を待ちます。
待ち中に部長には報告をしておきました。
故障が数台ありますが、月曜と言わず今日中に全台起動で対処完了できそうであります。
「あぁご苦労。とりあえず温度計買っておきたいなぁ。サーバ室内の温度がどれくらいかすぐ見れるように。」
今回温度計があったら是非写真に撮っておきたかったですね。
数時間後メーカ保守作業員到着後、問題のHDDを交換、RAIDリビルドを経て、当日中に全台無事復旧が完了しました。

後日――。
総務部の同期の社員に休憩所で出会った。
「こないだビル管(ビル管理会社)が全館空調メンテナンスやってたらしいんだけどさ。サーバ室の空調も止めちゃったんだって。でもサーバ室に入れなくて空調をONにできないものだから、ほっといて帰宅しちゃったらしいよ。」
な、なんですと?
むむぅ…おのれ…無責任な…。

これはこちらが油断していた側面も否めない。
高い費用掛けて、サーバ室は室外機まで独立させて空調入れている(しかも2台で冗長化)という備えで、安心しきっていた、ということ。
でも室外機独立までしておいて、しかも2台で空調冗長化しているのに全館空調の操作で止められたらサーバ室は独立して空調を稼働させている意味ナイジャン。
しかも、ビル管よ、そういうことなら電話で連絡してくれ。
ビル管⇒総務⇒情シス、の経路でOKだから。頼むから電話してくれ。
どうにかしてエアコンの電源ONボタン押すためだけに会社に来るから。

この件、また発生したとしたらビル管から連絡もらうのは無理なの?
完全に他人事だからしょうがないんだけど笑い話にしたいらしい彼の返答は、
「無理だろう。だって帰っちゃうんだぜ?」
ワタシニハワラエナイヨ…。

この後無言でコツコツと何十台とある全サーバのIMM/iLOに漏れなく監視設定の追加とメールアラートをPCだけでなく携帯電話のメールアドレスに飛ぶように入れたのはいうまでもない。

サーバ室を冷房で冷やしているのは伊達ではない、というお話。

で、冒頭に戻りますが、
「節電(コスト削減)のためサーバ室の空調を止めろ」
と、、、
----------------------------------------------
もしあなたが指示を出しているのなら、その指示は取り下げることをお勧めします。だって実績で百万円、最悪数百万、の損害を会社がこうむることがあるんですから。そんなリスクを負う必要ないですよね?
----------------------------------------------
もしあなたがそんな指示を受けているのであれば、妥協案として温度をあげる(設定温度上昇)で納得してもらうよう働き掛けることをお勧めします。
この文章にあるように、最悪の復旧作業は誰だってやりたくないはずです。
----------------------------------------------
空調停止による温度上昇はサーバ稼働温度範囲5℃~40℃(くらい)を超える要因になることをどうにか説得できること、お互いにとって不幸な結果にならないこと、を祈っております。

「節電(コスト削減)のためサーバ室の空調を止めろ」

サーバを冷やす前に頭を冷やした方がいいのかもしれませんぞ。
サーバ室がアツくなる前にサーバ管理者がアツくなるんですから。

おあとがよろしいようで。