ワークショップ環境の概要
5 minutesCisco の AI 対応 POD は、最先端のハードウェアとソフトウェアを組み合わせて、堅牢でスケーラブルかつ効率的な AI インフラストラクチャを提供します。 Splunk Observability Cloud は、インフラストラクチャからアプリケーションコンポーネントまで、このスタック全体に対する包括的な可視性を提供します。
このハンズオンワークショップでは、OpenTelemetry と Prometheus を使用して AI インフラストラクチャをモニタリングする方法を学びます。実際の Cisco AI POD へのアクセスは不要です。現実的な環境でモニタリング技術のデプロイと設定に関する実践的な経験を得ることができます。
ラボ環境
このワークショップでは、AWS 上で動作する共有の OpenShift クラスター を使用します。このクラスターには NVIDIA GPU と NVIDIA AI Enterprise ソフトウェアが搭載されています。
デプロイ済みのインフラストラクチャ
ワークショップの講師が、以下の共有コンポーネントをワークショップ環境にデプロイ済みです。
- NVIDIA NIM モデル:
meta/llama-3.2-1b-instruct- ユーザーのプロンプトを処理nvidia/llama-3.2-nv-embedqa-1b-v2- エンベディングを生成
- Weaviate - セマンティック検索と検索取得のためのベクトルデータベース
- Prometheus exporter - 本番環境の AI POD で一般的な Pure Storage メトリクスをシミュレート
ワークスペース
各参加者は共有クラスター内の専用 Namespace を割り当てられ、独立した作業のための隔離された環境が確保されます。
ワークショップの内容
ワークショップ中、各参加者は以下のタスクを実行します。
- 自分の Namespace に OpenTelemetry Collector をデプロイおよび設定する
- クラスターインフラストラクチャとのオブザーバビリティデータ収集を統合する
- NVIDIA NIM モデルを活用する Python アプリケーション をデプロイする
- Splunk Observability Cloud を使用してアプリケーションのパフォーマンスとインフラストラクチャメトリクスをモニタリングする
Prometheus とは
Prometheus は通常、ストレージとアラートに使用されるフルスタックモニタリングシステムを指しますが、このワークショップでは Prometheus エコシステムのデータ標準に焦点を当てます。
このワークショップでは Prometheus Exporter を活用します。これは、コンポーネントの内部ヘルスを標準化されたメトリクスエンドポイント(例: http://localhost:9100/metrics)に変換する小さなユーティリティです。
フル構成の Prometheus サーバーを使用してこのデータを収集する代わりに、OpenTelemetry Collector を使用します。Prometheus receiver を使用することで、Collector はこれらのエンドポイントを スクレイプ でき、広くサポートされている業界フォーマットを使用してリッチなテレメトリデータを収集できます。