シナリオレビュー

10 minutes Authors Chris Putnam, Sam Scudere-Weiss, & Tim Hard

シナリオ: 小売店舗でのネットワーク障害

このシナリオでは、キャンパス、ブランチ、および店舗拠点を持つ組織を想定しています。ネットワーク障害が発生した場合、運用チームはどのサイトが影響を受けているか、ネットワークのどのコンポーネントが異常であるかを迅速に把握する必要があります。このシナリオのウォークスルーでは、ITSI が Cisco Catalyst Center のデバイスヘルスデータを使用し、他のツール（この場合は Solarwinds）からのアラートと相関させることで、数分で問題の全体像を把握する方法を示します。

実際の環境では、組織は通常、同じシステムを監視する多くの異なるツールを使用しています。問題が発生すると、すべてのツールがアラートを発報し始めます。これによりアラートストームが発生し、トラブルシューティングをどこから始めるべきかを理解することが非常に困難になります。その結果、問題解決に大幅な遅延が生じ、運用チーム全体にアラート疲れが広がります。

ITSI は、サイトおよびネットワークレイヤーごとにネットワークの健全性を把握し、任意の数の異なる監視ソリューション間でアラートを相関させる高度にアクション可能なエピソードを提供することで、この課題に対処します。コンソール間を行き来する代わりに、チームは何が起きているか、どこで起きているか、どのツールのどのアラートが関連しているかを単一のビューで確認できます。

シナリオフロー: Catalyst Center を使用した根本原因分析

シナリオレビュー

1. ITSI で Service Analyzer を開きます。Access Points KPI のヘルスステータスが劣化していることに注目してください

Info

Service Analyzer は、インポートされたすべての Catalyst Center サイトサービスとその現在のヘルス状態の概要ビューを提供します

2. 右側の Tree を選択して Service Tree を表示します

3. Store-SJC12 サービスを選択して KPI を展開します。Access Points KPI が異常であることに注目してください。これはこの拠点でワイヤレスの問題が発生していることを示しています

4. Access Points KPI を選択してエンティティの詳細にドリルダウンします。この問題がこの拠点の Floor-1 に影響していることが確認できます

Info

サービスを選択すると、個別の KPI が表示されます。Access Points KPI のヘルススコアは劣化状態を示しています

ボーナス

Site Health Summary リンクを使用してエンティティにドリルダウンし、この店舗のワイヤレスアクセスポイントのヘルス状態をより詳細に確認します。このダッシュボードは、Catalyst Center から直接取得された個々のデバイスヘルススコアの詳細ビューを提供します。

Site Health Summary ダッシュボードは、選択した拠点の個々のアクセスポイントのヘルススコアを表示します

5. KPI ヘルス詳細の下にある Episode Review セクションを確認します。このサイトに対して現在オープンされている High または Critical のエピソードがある場合、ここに表示されます。

Info

このシナリオは Medium の重大度から始まり、追加のアラートが生成されるにつれて High にエスカレーションします。30分の休憩サイクルのどの時点にいるかによって、このリストにまだエピソードが表示されない場合があります。表示されない場合は、次のステップに進み、Alerts and Episodes の完全なビューを確認してください。

現在 High または Critical のエピソードがない場合は、Alerts and Episodes に移動してエピソードの完全なリストを確認します。シナリオがどのくらい実行されているかによって、このサイトの以前に解決されたエピソードが表示される場合があります。これは、基盤となる問題が解消されたときに ITSI がオープンなエピソードを自動的にクローズし、ステータスを Resolved に設定できることを示しています

6. 進行中のエピソードがある場合は、それを選択します。ない場合は、最近解決されたエピソードの1つを選択してレビューします

7. エピソード詳細で 影響を受けたサービスと KPI を確認します。このビューは、このエピソード中にどのサービスと KPI が影響を受けたかを正確に示します。

Info

エピソード詳細は、アラートを影響を受けたサービスと KPI に紐付け、ビジネスへの影響の全体像を提供します

8. Events Timeline タブを選択して、イベントが発生した順序を確認します

9. Sort ドロップダウンから Root cause analysis を選択して、イベントを時系列で並べ替えます

Info

Root Cause Analysis でソートされた Events Timeline は、アラートが発報された順序を明らかにし、最初の障害から連鎖的な影響への進行を示します

10. リストから個々のアラートを選択して確認します。このエピソードには Solarwinds と Catalyst Center の両方からのアラートが含まれていることに注目してください。これは、エピソードが前のセクションで作成した Network Events by Location NEAP を使用しているためで、ソースに関係なく特定のサイトのすべてのアラートをグループ化します

Info

単一のエピソードでのクロスベンダーアラート相関。Catalyst Center と Solarwinds の両方のアラートがロケーション別にグループ化されています

これで、アラートをコンテキスト内で確認し、いつ発生したかを理解し、状況の進展に応じて重大度の変化を追跡できるようになりました。Catalyst Center または Solarwinds のいずれかからクリアリングイベントが受信されると、アラートの重大度は自動的に Normal に変わります。NEAP で設定したアクションルールは、すべての関連アラートが正常に戻った後、手動介入なしにエピソードを自動的に解決し、ループをクローズします。

ワークショップ完了！

なぜこれが重要なのか

このワークショップを通じて、Catalyst Center のトポロジーデータを使用してロケーションベースのネットワーク可視性を提供するように ITSI を設定し、2つの独立した監視ツールからアラートを取り込んで正規化し、それらのアラートをサイトごとの単一のアクション可能なエピソードに相関させるカスタム集約ポリシーを構築しました。

その結果、ツール間の切り替えを排除し、アラートノイズを削減し、運用チームに3つの重要な質問への即座の回答を提供するシステムが実現しました: 問題はどこにあるか？何が影響を受けているか？状況は改善しているか、悪化しているか？

エピソードの作成と解決を自動化することで、ITSI は平均修復時間を短縮し、チームが切断されたコンソール間で重複するアラートを追いかける代わりに、実際の問題の調査に時間を費やせるようにします。

Happy Splunking

シナリオレビュー

シナリオ: 小売店舗でのネットワーク障害 #

シナリオフロー: Catalyst Center を使用した根本原因分析 #

Happy Splunking #

シナリオ: 小売店舗でのネットワーク障害

シナリオフロー: Catalyst Center を使用した根本原因分析

Happy Splunking