タイトル通り。
konata.net のサーバには HP の MicroServer NL36 を使っているのだけれど、
そのサーバの調子が今ひとつよろしくない。
具体的には、突然リブートがかかる。
リブートがかかる時間は決まって深夜3時頃ということしか判明していない。
症状が出始めてからの起動ログはこんな感じ。
少しずつ、感覚が短くなっているのが気にかかる。
Jun 10 03:10:14 konata syslogd: kernel boot file is /boot/kernel/kernel
Jul 25 03:08:36 konata syslogd: kernel boot file is /boot/kernel/kernel
Aug 8 03:05:01 konata syslogd: kernel boot file is /boot/kernel/kernel
Aug 15 03:05:00 konata syslogd: kernel boot file is /boot/kernel/kernel
Aug 18 03:05:03 konata syslogd: kernel boot file is /boot/kernel/kernel
Aug 28 03:05:04 konata syslogd: kernel boot file is /boot/kernel/kernel
Sep 3 03:07:06 konata syslogd: kernel boot file is /boot/kernel/kernel
ただ、中の人は寝てる時間だし、その後の再起動で失敗するということも無いので、
今のところ目立った実害が無いというのが正直な所。
臨時用2ch串やってた頃は、その時間帯でもアクセスが多少あったので影響があったけれど。
同じような時刻に発生していることから、cron起動してる何かに問題があるのかとも
思ったけれど、それらしいプロセスが動いている気配もない。
発生時刻があまりにも似通っているので、コンデンサがやられたとかそういう話も無いと思われる。
後は、考えたくないけれど、なにかしらのセキュリティの穴をやられて遠隔操作されているとか。
ただ、その場合だとリブートかけるような目立つ操作をやるとは考えにくい。
もう少し原因を考えてみるつもりではあるけれど、これといった手がかりがないので
正直八方塞がりではある、さて、どうしたものか……
9/5追記
postfixを再起動したら、「 /var/spool/postfix/corrupt に壊れたメールがあるよ~」と言われる。
中を見たら、上記のリブート時刻と前後した形で0バイトのファイルができていた。
「午前3:00」と「メール」ときてようやく思い当たる。
チャーリーさんからのメールだ。
となると、ソフトウェア上では同じ処理をしているのに、リブートしたりしなかったりする。
ということになるわけで、俄然HW障害の可能性が高くなってきた。
思い当たるフシもアリアリで、見ないふりしてたけど、ATAでなんかエラー吐いてたんだ。
そのエラーがこちら。
(aprobe0:ahcich5:0:0:0): SETFEATURES ENABLE SATA FEATURE. ACB: ef 10 00 00 00 40 00 00 00 00 02 00
(aprobe0:ahcich5:0:0:0): CAM status: ATA Status Error
(aprobe0:ahcich5:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 04 (ABRT )
(aprobe0:ahcich5:0:0:0): RES: 51 04 00 00 00 40 00 00 00 02 00
(aprobe0:ahcich5:0:0:0): Retrying command
(aprobe0:ahcich5:0:0:0): SETFEATURES ENABLE SATA FEATURE. ACB: ef 10 00 00 00 40 00 00 00 00 02 00
(aprobe0:ahcich5:0:0:0): CAM status: ATA Status Error
(aprobe0:ahcich5:0:0:0): ATA status: 51 (DRDY SERV ERR), error: 04 (ABRT )
(aprobe0:ahcich5:0:0:0): RES: 51 04 00 00 00 40 00 00 00 02 00
(aprobe0:ahcich5:0:0:0): Error 5, Retries exhausted
でもって、HDDのSmart値の一部。
Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always – 11
はい、代替処理済みセクタが出てました。
なんか、今年は出費がかさむなぁ……
コメントを残す