あ〜、このエントリにくっつけるのも久しぶりだな。
半年以上、それなりに安定して動いていたんだ。自分でもびっくり。
さて、1月10日は宿直でした。
会社の個人用マシンは、電源が入っている時は4時間に1回程度、自宅サーバの
死活チェックをかけるようになっています。
夕方、出社してきて、まず16:20ごろのチェックでは特に問題ありませんでした。
次は、通常であれば20:20ごろのはずなのに、何が起こったのかわかりませんが、
実際にチェックがかかったのは21:20ごろでした。この時のチェックで、既に何か
がおかしくなりつつあったようです。チェック結果は異常と出ました。だけど、
応答なし、ではなかったのですね。自分の使っているツールをよく把握していな
いのですが、応答なしではなかったという事は、何らかの結果を返していたとい
う事なのでしょう。割とすぐに気がついて、21:30ごろだったかな、ブラウザでア
クセスしようとしてみたのですが、今度は応答なし。
その後はチェックツールの方もきちんと4時間毎にチェックしていましたが、全
て応答なしという結果でした。
今日、11日は宿直明けです。
宿直明けの時は普通なら午前中に帰宅できるのですが、今日は所用があり、帰宅
できたのは17時過ぎ。マシンを見たところ、なんかHDDが盛んにカリカリ言
っている。サーバソフトのステータスはCGI実行中。
とりあえずリブートして、17:30過ぎにサービス回復。
ログをチェックしてみたところ、ソケットが足りない、何ぞというエラーメッセ
ージを大量に吐き出していた。大体、数秒に1回の頻度。最初に発生した時刻は
10日の21:50ごろ。最後に正常に応答を返しているのは21:40ごろ、東京大学か
らのアクセスに対して。む、なんか時間が合わないぞ。不安定ながらも動いてい
たという事かもしれないけれど、だとすると、いつごろから不安定になったかと
いうのが全く特定できない。
ソケットが足りない、というエラーメッセージの方から追いかけてみたところ、
考えられる主な原因は2つ。1つは、同時に大量のアクセスがあったというもの。
でも、この板塀の場合では非常に考えにくい。もう一つは、何らかのバグにより
ソケットが開放されず、長時間の連続運用によりだんだんと食い潰されていって
しまうというもの。でも、過去の運行履歴を調べてみたところ、12月29日に
リブートを実施したばかりだったのですね。つまり、半月経っていない。今まで
ももっと長い期間連続運行していてあんまり問題が起きていないわけで、こちら
も考えにくい。まぁ、こちらの方が可能性としては高いのかな。急に千客万来状
態になったりしたらありうるわけで。でも、サーバのログを見る限りは、そんな
事もないわけで、やっぱり原因は闇の中。
|