監視
2022-05-06 (金) 18:39:07
監視 とは †
- データ解析
- 「正常な状態」を定義する
- 「正常な状態」でなくなったときの対応を定義する
- 「正常な状態」であることを継続的に確認する
- 「正常な状態」でなくなった場合は復旧させる
- 監視の定義や手順は、最初から多くを望みすぎず、運用しながら育てる
監視の種類 †
- パフォーマンス監視
- キャパシティ監視
監視項目と閾値の定義 †
- アラート発報を極力減らす
- 念のためのアラートは不要
優先順位 †
- 復旧か再発防止か
- セキュリティインシデント発生時にどうるするか
- 運用フロー
- エスカレーション方法
- ユーザへのアナウンス方法
- 解析と復旧の関係
ツールを使った監視 †
- 監視間隔は1分くらい?
- 秒単位での監視の場合は復旧の自動化がセットになるもの
運用監視ツール †
- 「運用監視ツール」参照
モニタリングツール †
- 「モニタリング」参照
パケットキャプチャツール †
- 「パケットキャプチャ」参照
対応 †
- 一次対応(暫定対応)
- 二次対応(根本対応)
システム監視 †
- 外形監視
- 内部監視
- サービス稼働状況監視
- システムリソース監視
外形監視 †
- HTTPレスポンス
- POP,SMTP,FTP
内部監視 †
- CPU
- ディスク
- HTTPリクエスト
- プロセス監視
監視の実装 †
アクティブチェック †
- 監視サーバ自らがチェックする
- チェックするまでの間は異常が検知できない
パッシブチェック †
- 監視対象側で異常をチェックして監視サーバに報告する
- SNMP Trap
- 監視対象側が異常を検知できずにダウンすると検知できない
障害対応 †
- 「システム障害」参照
監視ツール †
- Ganglia
- Moloch
- Sentry
https://sentry.io/ - Hinemos
- Nagios
- Prometheus
- Cockpit
https://cockpit-project.org/
ログ収集ツール †
関連サイト †
- Downdetector
https://downdetector.jp/