APM AI Assistant とインテリジェントトラブルシューティング
APM AI Assistant とは? #
APM AI Assistant は、コンテキストに基づいたガイダンスの提供、トレースの分析、調査中の次のステップの提案により、アプリケーションパフォーマンスの問題をトラブルシューティングするのに役立つインテリジェントな機能です。APM データを理解し、ソリューションに導くバーチャルエキスパートとして機能します。
Note
AI Assistant の機能は、Splunk Observability Cloud のバージョンとエンタイトルメントによって異なる場合があります。ここで説明する機能の一部はプレビュー段階であるか、特定のライセンスが必要な場合があります。
主な機能 #
1. トレース分析 #
- 自動スパン分析: 遅延または問題のあるスパンを特定します
- ボトルネック検出: 分散トレース内のパフォーマンスボトルネックをハイライトします
- エラーパターン認識: エラートレースをグループ化して分析します
- 依存関係インサイト: サービスの依存関係と呼び出しパターンを理解します
2. ガイド付きトラブルシューティング #
- 根本原因の提案: トレースデータに基づいて可能性の高い根本原因を提案します
- 調査パスウェイ: 次に何を調べるべきかを提案します
- 履歴比較: 現在の問題を過去のパターンと比較します
- 解決策の推奨: 類似の問題に基づいて潜在的な修正方法を提供します
3. コンテキストインサイト #
- 自然言語サマリー: 複雑なトレースを平易な言葉で説明します
- 影響評価: 問題の範囲と重大度を推定します
- サービスヘルスインサイト: サービスのパフォーマンストレンドを要約します
- 異常の説明: なぜ異常と見なされるかを説明します
AI Assistant がどのように役立つか #
シナリオ 1: 遅いトレースの調査 #
従来のアプローチ:
- トレースウォーターフォールを開く
- すべてのスパンを手動でスキャンする
- 所要時間を計算する
- 最も遅い操作を特定する
- 他のトレースと相互参照する
- 根本原因について仮説を立てる
AI Assistant を使用した場合:
- トレースを開く
- AI がハイライト: “Database query in checkout-service took 2.3s (95th percentile: 45ms)”
- 提案: “Check database index on orders table”
- 同じパターンを持つ類似のトレースにリンクする
- パターンがいつ始まったかを表示する
シナリオ 2: エラーパターンの理解 #
AI Assistant が提供する情報:
- 類似エラーのグループ化
- 頻度分析
- 最初の発生タイムスタンプ
- 影響を受けるエンドポイントとサービス
- エラートレース間の共通属性
- 推奨される調査手順
ハンズオン演習: AI を活用した APM 機能の使用 #
Exercise
ステップ 1: サービスインサイトの探索
- APM → Services に移動します
- パフォーマンスデータのあるサービスを選択します
- AI が生成したインサイトやサマリーを探します
- サービスヘルススコア
- パフォーマンストレンド
- 異常インジケーター
- 主要な問題またはボトルネック
ステップ 2: AI アシスタンスによるトレース分析
- APM → Traces に移動します
- 遅延またはエラーのトレースでフィルタリングします
- トレースウォーターフォールビューを開きます
- AI を活用した機能を探します
- ハイライトされた問題のあるスパン
- 自動クリティカルパス識別
- ベースライントレースとの比較
- 提案された根本原因
ステップ 3: 自動根本原因検出の活用
- トレースビューで Root Cause または Insights パネルを見つけます
- AI の提案を確認します
- どのスパンがボトルネックか?
- 通常の動作と比較して何が変わったか?
- どのタグまたは属性が問題と相関しているか?
- 提案された調査パスに従います
- 特定されたコンポーネントにドリルダウンします
ステップ 4: トレース比較の使用
- 問題のあるトレースを選択します
- Compare または Similar Traces 機能を探します
- AI が以下を表示します
- 類似の正常なトレース(ベースライン)
- 遅いトレースで何が異なるか
- 統計的比較
- 異常なコンポーネントを特定します
インテリジェントトレース機能 #
クリティカルパスハイライト #
AI は分散トレース内のクリティカルパスを自動的に特定します
- クリティカルスパン: 合計レイテンシーに直接寄与したスパン
- 並列化可能なスパン: 非同期処理で最適化できるスパン
- 待機時間: ダウンストリームサービスの待機に費やされた時間
スパン異常検出 #
AI は以下を考慮して異常なスパンを検出します
- 所要時間: 履歴ベースラインとの比較
- 頻度: このスパンが表示される頻度
- エラー率: このスパンのエラー vs. 通常
- コンテキスト: 通常と異なるタグと属性
サービス依存関係インテリジェンス #
AI はサービスアーキテクチャを理解します
- 依存関係マッピング: サービスの関係を自動的にマッピングします
- 影響分析: サービスの問題が依存先にどのように影響するかを予測します
- 循環依存の検出: 問題のある呼び出しパターンを特定します
- 最適化の提案: アーキテクチャの改善を推奨します
AI を活用した APM アラート #
スマートアラート優先順位付け #
AI は以下によりアラートの優先順位付けを支援します
- ビジネスインパクトスコアリング: ユーザー/収益への影響を推定します
- 履歴コンテキスト: 過去の類似アラートと比較します
- 相関分析: 関連するアラートをグループ化します
- ノイズリダクション: 誤検知の可能性が高いものを抑制します
適応型しきい値 #
APM ベースのディテクターの場合
- 動的ベースライン: トラフィックパターンに基づいてしきい値を調整します
- 季節性の認識: 時間帯/曜日のパターンを考慮します
- デプロイメントの認識: デプロイメントイベントを認識します
- トラフィック比例アラート: トラフィック量の変化に合わせて調整します
自然言語機能 #
質問する(利用可能な場合) #
一部の AI Assistant 実装では、自然言語クエリが可能です
質問の例:
- “Why is checkout-service slow?”
- “What changed in the last hour?”
- “Which endpoints are experiencing errors?”
- “Show me traces from customer tier enterprise”
- “Compare current performance with last week”
AI が提供する情報:
- 自然言語による回答
- 関連するトレースとメトリクス
- データの可視化
- 推奨される次のステップ
AI Assistant のベストプラクティス #
1. 豊富なコンテキストを提供する #
AI がより良い支援を行えるようにします
- 説明的なスパン名を使用する
- 関連するタグと属性を追加する
- スパンにエラーの詳細を含める
- デプロイメントイベントにタグを付ける
2. 信頼するが検証する #
- AI の提案を出発点として使用する
- 実際のデータで結果を検証する
- メトリクスとログと相互参照する
- ドメイン知識を適用する
3. AI パターンから学ぶ #
- AI が特定する一般的な根本原因に注目する
- どのタグが最も有用かを観察する
- AI が提案する調査パスを研究する
- 繰り返されるパターンに基づいて自動化を構築する
4. フィードバックを提供する #
AI Assistant がフィードバックをサポートしている場合
- 役立つ提案をマークする
- 不正確な分析を報告する
- システムはフィードバックから学習します
AI Assistant と他の AI 機能の組み合わせ #
統合ワークフロー #
- アラート発火(AutoDetect ML ディテクター)
- Tag Spotlight が問題を絞り込む
- APM AI Assistant が影響を受けるトレースを分析する
- Related Content が関連するダッシュボードを表示する
- Log Observer AI が相関するログパターンを表示する
- 解決 — 完全なコンテキストを伴う
調査フローの例 #
text
Alert: "Latency increased on payment-service"
↓
Tag Spotlight: "Region: us-west-1 (87% contribution)"
↓
APM AI: "Database span duration increased 450%"
↓
Trace Analysis: "Connection pool exhausted"
↓
Log Observer AI: Pattern "Connection pool timeout" increased
↓
Related Content: Dashboard "Database Connection Health"
↓
Root Cause: Recent traffic spike exceeded DB connection limits制限事項と考慮事項 #
- 学習期間: AI は比較のために履歴データが必要です
- データ品質: 精度はトレースの完全性とタグ付けに依存します
- コンテキストの境界: AI はビジネスロジックを把握していません
- プレビュー機能: 一部の機能は進化している可能性があります
- プライバシー: 機密データがトレース属性に含まれないようにしてください
Tip
APM AI Assistant は、アプリケーションが包括的なタグと属性で十分にインストルメントされている場合に最も効果的です。トレースデータが豊富であるほど、AI のインサイトが向上します。
次のステップ #
ワークショップのまとめと追加リソースで締めくくりましょう。
