監視

2022-05-06 (金) 18:39:07

監視 とは

  • データ解析
  • 「正常な状態」を定義する
  • 「正常な状態」でなくなったときの対応を定義する
  • 「正常な状態」であることを継続的に確認する
  • 「正常な状態」でなくなった場合は復旧させる
  • 監視の定義や手順は、最初から多くを望みすぎず、運用しながら育てる

監視の種類

  • パフォーマンス監視
  • キャパシティ監視

監視項目と閾値の定義

  • アラート発報を極力減らす
  • 念のためのアラートは不要

優先順位

  • 復旧か再発防止か
  • セキュリティインシデント発生時にどうるするか
  • 運用フロー
  • エスカレーション方法
  • ユーザへのアナウンス方法
  • 解析と復旧の関係

ツールを使った監視

  • 監視間隔は1分くらい?
  • 秒単位での監視の場合は復旧の自動化がセットになるもの

運用監視ツール

モニタリングツール

パケットキャプチャツール

対応

  • 一次対応(暫定対応)
  • 二次対応(根本対応)

システム監視

  • 外形監視
  • 内部監視
    • サービス稼働状況監視
    • システムリソース監視

外形監視

  • HTTPレスポンス
  • POP,SMTP,FTP

内部監視

  • CPU
  • ディスク
  • HTTPリクエスト
  • プロセス監視

監視の実装

アクティブチェック

  • 監視サーバ自らがチェックする
  • チェックするまでの間は異常が検知できない

パッシブチェック

  • 監視対象側で異常をチェックして監視サーバに報告する
  • SNMP Trap
  • 監視対象側が異常を検知できずにダウンすると検知できない

障害対応

監視ツール

ログ収集ツール

関連サイト

関連用語