言ってるそばから、やってしまいました。
> 回線の通信途絶検出やバックアップサーバ(ニフティ)へログ転送を行わせてい
> るツールも動いていません。さらに、サーバのダウンを検知してバックアップに
> 切り替えるシステムも動作しないようになっています。今度のマシンは旧マシン
> に比べれば頑丈なOSなので落ちにくいというのはあると思いますが、意図せず
> ハイバネーションが効いてしまったりした場合に、現状では全く検知・切り替え
> ができないのは困りものです。
思いっきり、意図せずに落としてしまいました。
電源コンセントを間違えた、というのが原因。本来、常時通電のタップから給電
させなければならないものを、いわゆる、自動連動タップ、というものにしてし
まった、というのが失敗の原因。そして、これが何に連動しているかというと、
母艦に連動しているのです。
昨夜、寝る前には母艦が動いていたので正常に給電されていました。ところが、
就寝時に母艦を落としてしまったため、必然的に給電途絶。その後も1時間半程
は内蔵電源で動いていたのですがね。結局、起床するまで6時間ほど止まってし
まいました。
これはまずいということで、とりあえず、ダウン検知および切替システムを復旧
させました。ただ、まだ片肺というか、従来どおりの性能は発揮できていません。
復旧させた方法というのは、TIMEプロトコルで時刻が取得できればサーバは正常、
できなければ異常、というロジックでした。これは、HTTPサーバが落ちるときに
はTIMEサーバも道連れにするという、軟弱なOSだからこそできた方法です。
現在は、OS的にはそのようなことはないはずです。もちろん、昨夜のような、
物理的にサーバが止まってしまったときには有効なので、とりあえず従来通りの
方法で復旧させただけです。
のちほど、きちんとHTTPプロトコルでサーバの死活監視をするようにロジックを
変更します。TIMEプロトコルで監視していたもう一つの理由は、HTTPで監視する
とHTTPサーバのログが肥大化する、というのがあったのですが、かつて、ほとん
どアクセスがなかった時代ならともかく、最近のようにたくさんのアクセスがあ
る状況では、監視に伴うログ量の増大なんて全体から見たら微々たるもののはず、
というのもありまして。
もう一つ問題があって、現在はまだバックアップサーバに対するログの自動転送
が行われておりません。これは回線の死活監視ツールで行っていたのですが、こ
ちらがまだ再開されていないためです。当面は手動バックアップとなります。な
ので、切替が発生した場合、かつてはサーバダウン直前の発言まできちんとバッ
クアップ側で閲覧可能だったのですが、現在は古い発言までしか表示ません。
上記のように、難しい設定は後回しになっていますが、
> さらに、IPアドレスの変化を検出するツールも止まったままです。
これは、設定ごと救出できた自作のツール一発で何とかなったので、現在、正常
に稼動しています。
|