運用保守ガイド | AI Agent 開発ガイド

1. 運用保守での活用方針

目的は「人をゼロにする」ではなく、人が判断すべき仕事に集中できる状態を作ることです。定型作業、証跡収集、初動整理、比較作業をAIとCLIへ移すことで、運用品質と速度を同時に上げます。

脱・人手依存のコア： 「手順書を先に標準化」→「CLIで再現可能にする」→「AIに判断材料を整形させる」の順で進めると、RPA依存より壊れにくい運用になります。

先に標準化

属人手順を runbook 化し、入力と出力を固定する。

次にCLI化

取得・比較・通知をPython CLIに置き換えて再現性を確保する。

最後にAI活用

AIは要約・優先度付け・未確定事項分離を担当する。

2. 利用ケース体系（可能な限り網羅）

運用現場で発生する主要ケースを、即時適用しやすい単位で整理しています。

領域	利用ケース	自動化対象	成果物	KPI
機器運用	サーバ死活・リソース監視	メトリクス収集/閾値判定	日次チェック結果	見逃し率/MTTD
機器運用	ネットワーク疎通異常検知	疎通確認/経路差分	異常速報	初動時間
機器運用	証明書期限監視	有効期限抽出/通知	更新予定表	期限切れ件数
監視	アラートノイズ抑制	重複集約/相関分析	抑制ルール	誤検知率
監視	ログ異常パターン抽出	頻度集計/パターン比較	異常候補一覧	検知精度
監視	ジョブ失敗監視	実行結果確認/再実行提案	再実行手順	復旧時間
障害対応	一次切り分け	証跡収集/影響範囲整理	初動報告	MTTR
障害対応	恒久対応案の比較	案の利点欠点整理	対策案比較表	再発率
障害対応	ポストモーテム作成	時系列整理/再発防止抽出	障害報告書	再発防止実施率
変更管理	影響分析	依存調査/差分抽出	変更影響票	想定外影響件数
変更管理	リリース判定	品質ゲート判定	Go/No-Go判定票	障害発生率
変更管理	切戻し判断	トリガー評価/手順提示	切戻し判断記録	切戻し成功率
データ運用	バックアップ検証	取得確認/復元テスト	検証レポート	復元成功率
データ運用	データ整合確認	件数/ハッシュ比較	差分一覧	整合性逸脱件数
セキュリティ運用	アカウント棚卸し	権限抽出/未使用検知	棚卸し台帳	過剰権限件数
セキュリティ運用	脆弱性追跡	対象抽出/優先度付け	対応計画	SLA達成率
キャパシティ	増設タイミング予測	使用率トレンド分析	容量計画	逼迫アラート件数
定常運用	日次週次月次報告	集計/要約/配布	定期レポート	作成工数
問い合わせ対応	FAQ候補生成	過去問合せ分類	FAQ草案	一次解決率
監査対応	証跡パッケージ生成	ログ抽出/証跡整形	監査提出パック	提出リードタイム

3. 脱RPA × Python CLI

画面操作型RPAは UI 変更で壊れやすく、デバッグも難しくなりがちです。 Python CLI 化すると、再実行性・可観測性・レビュー可能性が上がります。

比較	RPA中心	Python CLI中心
変更耐性	UI変更に弱い	API/CLIベースで変更耐性が高い
証跡	画面遷移ログ依存	構造化ログで追跡容易
テスト	再現が難しい	pytest + モックで自動化しやすい
再利用	シナリオ依存	関数/モジュールで再利用可能

置換の基本パターン

RPA手順を「入力」「処理」「出力」に分解する。
入力元を API/DB/CSV へ置換し、画面操作依存を外す。
処理を Python CLI に実装し、--dry-run と再実行IDを実装する。
出力を JSON/CSV/Markdown に固定し、監査可能にする。
ジョブスケジューラへ登録し、監視・通知と連携する。

注意： 「全部自動化」より「失敗時に安全停止できる」ことを優先してください。 CLIは必ず dry-run、冪等性、再実行手順をセットで設計します。

4. そのまま使える手順書テンプレート

運用テンプレートです。まずこの雛形を埋めるだけで運用標準化が始められます。

テンプレート	用途	使用タイミング
`operations_readme.md`	運用標準の全体方針	立ち上げ時
`operations_daily_checklist.md`	日次運用チェック	毎日
`operations_incident_runbook.md`	障害初動と報告	障害時
`operations_monitoring_alert_matrix.md`	監視閾値と通知先	監視設計時
`operations_change_release_standard.md`	変更・リリース標準	変更前
`operations_device_maintenance_runbook.md`	機器保守手順	定期保守時
`operations_python_cli_playbook.md`	脱RPA置換の実装方針	自動化着手時
`operations_rpa_retirement_backlog.md`	RPA廃止バックログ	改善計画時
`operations_capacity_patch_plan.md`	容量/パッチ計画	月次計画時
`operations_prompt_pack.md`	運用向け標準プロンプト	日常運用

5. 導入手順（そのまま実行）

現行運用タスクを棚卸しし、手動/半自動/自動化済みを分類する。
重要度と頻度で優先順位を付け、上位10タスクを自動化対象にする。
テンプレートを配布し、担当/入力/出力/承認者を明記する。
1タスクずつ Python CLI 化し、dry-run と再実行手順を実装する。
監視、通知、ログ出力を接続し、失敗時の自動エスカレーションを定義する。
運用レビューでKPIを確認し、次の自動化対象をバックログから選ぶ。

6. そのまま使えるプロンプト

コピーしてすぐ使える運用保守向けプロンプトです。

日次監視サマリ自動化

運用日次チェックを実施します。以下を実行してください。 1. サーバ/ネットワーク/DB/ジョブの状態を収集 2. 閾値超過を抽出し、重要度（高/中/低）を付与 3. 影響範囲と一次対応案を記載 4. 未確定事項は推測せず分離出力形式: - 正常項目 - 異常項目 - 要確認項目 - 次アクション結果は docs/operations/daily_checklist.md へ反映可能な形式で出力してください。

障害初動Runbook生成

障害が発生しました。初動Runbookを生成してください。入力: - 発生時刻 - 影響範囲 - 直近変更 - アラート内容出力: 1. 初動5分でやること 2. 15分でやること 3. 30分でやること 4. 連絡先と報告テンプレート 5. 切戻し判断条件結果は docs/operations/incident_runbook.md に反映してください。

監視閾値の最適化提案

直近30日の監視結果を分析し、閾値最適化を提案してください。要件: - 誤検知の削減 - 見逃しの防止 - 通知先の適正化出力: - 現行閾値 - 推奨閾値 - 変更理由 - 期待効果結果は docs/operations/monitoring_alert_matrix.md を更新可能な形式で出力してください。

Python CLIで脱RPA設計

次のRPA作業を Python CLI に置換したいです。入力: - RPA手順 - 入力元 - 出力先 - 実行頻度設計要件: - dry-run オプション - 冪等性 - 再実行ID - 構造化ログ - エラー時の通知出力: - CLIインターフェース設計 - 処理フロー - テスト方針 - リリース手順結果は docs/operations/python_cli_playbook.md に反映してください。

機器保守計画（サーバ/NW/DB）

機器保守計画を作成してください。対象: - サーバOSパッチ - ミドルウェア更新 - ネットワーク機器FW更新 - DBメンテナンス出力: - 実施順序 - 影響範囲 - 事前確認 - 切戻し手順 - 実施後確認結果は docs/operations/device_maintenance_runbook.md に反映してください。

7. 30-60-90日ロードマップ

期間	目標	主成果物	評価指標
0-30日	現状可視化と標準化	棚卸し、日次チェック、障害Runbook	標準化率
31-60日	定型作業のCLI化	Python CLI 3本以上、通知連携	手動作業削減時間
61-90日	運用高度化	閾値最適化、切替/切戻し訓練、監査証跡自動化	MTTD/MTTR改善

ヒント： まずは「毎日やっている面倒な作業」から着手してください。成功体験を1つ作ると、脱RPAと運用標準化が一気に加速します。

脱・人手依存を目指す総合運用ガイド

1. 運用保守での活用方針

2. 利用ケース体系（可能な限り網羅）

3. 脱RPA × Python CLI

置換の基本パターン

4. そのまま使える手順書テンプレート

5. 導入手順（そのまま実行）

6. そのまま使えるプロンプト

7. 30-60-90日ロードマップ