社内システムの統制管理とmunin

社内システム統制管理ほど簡単なものはない気がしたww
現実にあった社内SLAを定めて、システム監視体制を構築して、それにしたがって運用すればいいだけ。
んで、SLA達成を判断して達成判断して評価する。
達成できたら、停止時間を5分短くするなど、より上のSLAを定義し挑戦させる。
ダメだったら、なぜダメだったかを検討して、次は達成できるように努力する。
たったこれだけ。
目標を定めてそれに向かって努力するというごく当たり前で普通のことだ。
なぜかこの基本的なことすらできていない組織が多い。
(これ自体は私のアイディアでなかったりするんだけど。)

ダメなところを見ていると監視体制の構築ができていなかったり、
正しくシステムの現状を把握しきれていなかったりするよね。

なんでシステムの監視体制が必要なのかというと、目標を定めるには現実のシステムの稼動状況が必要だし、目標をクリアしているか動かをみるにもシステムの稼動状況が必要だからだ。

#その次にダメな例として社内SLAの達成の確認と見直しができていないところがあると思うけどね。

で、何でできてないの?やらないの?って質問に対する答えはたいてい時間がないなんだろうけど、
そこで楽に監視体制を構築できるソフトウェアが必要になるんだと思う。

そこで munin ですよ。

munin は初期の設定がほとんどいらないから超楽でいいです。
もう何も考えずにインストールするだけでたいてい事足ります。
まぁ、さすがにマニアックなことをやる場合はそれなりにかかりますけど。。。

#また、muninは、perl + rrdtool というシンプルな構成も素敵なところだと思います。

他の監視システムも muninぐらい簡単にインストールできて構築できるようになればいいよな。
結局はこだわればこんなこともあんなこともできますっていうけど、それをやるには深い知識が必要だったり、
複雑な作業が必要だったりする。それだったら、何でもできる bashC言語は最高の監視ソリューションだつーの。

確かにいろいろいじり倒していくと muninにもいろいろ不満点はあるけれど、
初期導入の楽さを見れば比類なきツールだと思うんで、
システムの安定化へ向けた最初の一歩で導入してみればいいと思うんよ。

muninの問題点
閾値の監視通知機能の設定が面倒
・メンテナンス時間帯の設定ができない。 定期メンテのときは munin-nodeを落とせ!!www
・webから値の閲覧しかできない
・画面のヘルプがないw