ワークショップのセットアップ
NVIDIA NIM Operator のデプロイ
NVIDIA GPU Operator は、Kubernetes クラスター内で GPU をプロビジョニングするために必要なすべての NVIDIA ソフトウェアコンポーネントのデプロイ、設定、管理を自動化する Kubernetes Operator です。
NVIDIA NIM Operator は、このワークショップで先ほど作成した OpenShift クラスターなどの Kubernetes 環境に LLM をデプロイするために使用されます。
このワークショップのセクションでは、OpenShift クラスターに NVIDIA GPU Operator と NIM Operator の両方をデプロイするために必要な手順を説明します。
NVIDIA NGC アカウントの作成 #
LLM をダウンロードして NVIDIA NIM Operator を使用してデプロイするには、NVIDIA GPU CLOUD (NGC) アカウントが必要です。こちら からアカウントを作成できます。
NVIDIA Developer Program への登録 #
NVIDIA Developer Program に登録すると、NVIDIA NIM にアクセスできるようになります。これはワークショップの後半で LLM をデプロイする際に使用します。
NGC の NVIDIA サブスクリプション一覧に NVIDIA Developer Program が表示されていることを確認してください

NGC API キーの生成 #
NGC ウェブサイトにログインしたら、画面右上のユーザーアカウントアイコンをクリックし、Setup を選択します。
次に Generate API Key をクリックし、指示に従ってください。キーが NGC Catalog および Secrets Manager サービスに関連付けられていることを確認してください。
生成されたキーはワークショップの後半で使用するため、安全な場所に保存してください。
NGC API キーの生成に関する詳細は、NVIDIA Documentation を参照してください。
Node Feature Discovery Operator のインストール #
このセクションの手順は、Installing the NFD Operator using the CLI に基づいています。
以下のスクリプトを実行して Node Feature Discovery Operator をインストールします
cd nvidia
./install-nfd-operator.shOperator のデプロイが成功したことを確認するには、以下を実行します
oc get podsNAME READY STATUS RESTARTS AGE
nfd-controller-manager-7f86ccfb58-vgr4x 2/2 Running 0 10mNodeFeatureDiscovery CR の作成 #
このセクションの手順は、Creating a NodeFeatureDiscovery CR by using the CLI に基づいています。
以下のスクリプトを実行して Node Feature Discovery CR を作成します
./create-nfd-cr.shNVIDIA GPU Operator のインストール #
このセクションの手順は、Installing the NVIDIA GPU Operator on OpenShift に基づいています。
以下のスクリプトを実行して NVIDIA GPU Operator をインストールします
./install-nvidia-gpu-operator.shインストールプランが作成されるまで待ちます
oc get installplan -n nvidia-gpu-operatorNAME CSV APPROVAL APPROVED
install-mmlxq gpu-operator-certified.v25.3.4 Manual false以下のコマンドでインストールプランを承認します
INSTALL_PLAN=$(oc get installplan -n nvidia-gpu-operator -oname)
oc patch $INSTALL_PLAN -n nvidia-gpu-operator --type merge --patch '{"spec":{"approved":true }}'installplan.operators.coreos.com/install-rc9xq patchedCluster Policy の作成 #
このセクションの手順は、Create the cluster policy using the CLI に基づいています。
./create-cluster-policy.shNVIDIA GPU Operator インストールの確認 #
以下のコマンドを使用して、NVIDIA GPU Operator が正常にインストールされたことを確認します
oc get pods,daemonset -n nvidia-gpu-operatorNAME READY STATUS RESTARTS AGE
pod/gpu-feature-discovery-sblkn 1/1 Running 0 5m5s
pod/gpu-feature-discovery-zpt94 1/1 Running 0 4m58s
pod/gpu-operator-6579bc6fdc-cp28l 1/1 Running 0 23m
pod/nvidia-container-toolkit-daemonset-qfcl9 1/1 Running 0 5m5s
pod/nvidia-container-toolkit-daemonset-zbwb6 1/1 Running 0 4m59s
pod/nvidia-cuda-validator-f7tl2 0/1 Completed 0 78s
pod/nvidia-cuda-validator-t7n9g 0/1 Completed 0 71s
pod/nvidia-dcgm-exporter-gk66x 1/1 Running 0 4m59s
pod/nvidia-dcgm-exporter-w8kr8 1/1 Running 2 (52s ago) 5m5s
pod/nvidia-dcgm-lrnzr 1/1 Running 0 4m58s
pod/nvidia-dcgm-tvrdm 1/1 Running 0 5m5s
pod/nvidia-device-plugin-daemonset-d62nk 1/1 Running 0 5m5s
pod/nvidia-device-plugin-daemonset-fnv4j 1/1 Running 0 4m59s
pod/nvidia-driver-daemonset-418.94.202509100653-0-5xbvq 2/2 Running 0 5m48s
pod/nvidia-driver-daemonset-418.94.202509100653-0-hmkdl 2/2 Running 0 5m48s
pod/nvidia-node-status-exporter-2kqwr 1/1 Running 0 5m44s
pod/nvidia-node-status-exporter-n8d9s 1/1 Running 0 5m44s
pod/nvidia-operator-validator-r2nm2 1/1 Running 0 5m5s
pod/nvidia-operator-validator-w2fpn 1/1 Running 0 4m59s
NAME DESIRED CURRENT READY UP-TO-DATE AVAILABLE NODE SELECTOR AGE
daemonset.apps/gpu-feature-discovery 2 2 2 2 2 nvidia.com/gpu.deploy.gpu-feature-discovery=true 5m45s
daemonset.apps/nvidia-container-toolkit-daemonset 2 2 2 2 2 nvidia.com/gpu.deploy.container-toolkit=true 5m48s
daemonset.apps/nvidia-dcgm 2 2 2 2 2 nvidia.com/gpu.deploy.dcgm=true 5m46s
daemonset.apps/nvidia-dcgm-exporter 2 2 2 2 2 nvidia.com/gpu.deploy.dcgm-exporter=true 5m46s
daemonset.apps/nvidia-device-plugin-daemonset 2 2 2 2 2 nvidia.com/gpu.deploy.device-plugin=true 5m47s
daemonset.apps/nvidia-device-plugin-mps-control-daemon 0 0 0 0 0 nvidia.com/gpu.deploy.device-plugin=true,nvidia.com/mps.capable=true 5m47s
daemonset.apps/nvidia-driver-daemonset-418.94.202509100653-0 2 2 2 2 2 feature.node.kubernetes.io/system-os_release.OSTREE_VERSION=418.94.202509100653-0,nvidia.com/gpu.deploy.driver=true 5m48s
daemonset.apps/nvidia-mig-manager 0 0 0 0 0 nvidia.com/gpu.deploy.mig-manager=true 5m45s
daemonset.apps/nvidia-node-status-exporter 2 2 2 2 2 nvidia.com/gpu.deploy.node-status-exporter=true 5m44s
daemonset.apps/nvidia-operator-validator 2 2 2 2 2 nvidia.com/gpu.deploy.operator-validator=true 5m48sOperator SDK のインストール #
このセクションの手順は、Install from GitHub release に基づいています。
リリースバイナリのダウンロード #
プラットフォーム情報を設定します
export ARCH=$(case $(uname -m) in x86_64) echo -n amd64 ;; aarch64) echo -n arm64 ;; *) echo -n $(uname -m) ;; esac)
export OS=$(uname | awk '{print tolower($0)}')プラットフォーム用のバイナリをダウンロードします
export OPERATOR_SDK_DL_URL=https://github.com/operator-framework/operator-sdk/releases/download/v1.41.1
curl -LO ${OPERATOR_SDK_DL_URL}/operator-sdk_${OS}_${ARCH}ダウンロードしたバイナリの検証 #
keyserver.ubuntu.com から operator-sdk リリースの GPG キーをインポートします
gpg --keyserver keyserver.ubuntu.com --recv-keys 052996E2A20B5C7Eチェックサムファイルとその署名をダウンロードし、署名を検証します
curl -LO ${OPERATOR_SDK_DL_URL}/checksums.txt
curl -LO ${OPERATOR_SDK_DL_URL}/checksums.txt.asc
gpg -u "Operator SDK (release) <cncf-operator-sdk@cncf.io>" --verify checksums.txt.asc以下のような出力が表示されます
gpg: assuming signed data in 'checksums.txt'
gpg: Signature made Fri 30 Oct 2020 12:15:15 PM PDT
gpg: using RSA key ADE83605E945FA5A1BD8639C59E5B47624962185
gpg: Good signature from "Operator SDK (release) <cncf-operator-sdk@cncf.io>" [ultimate]チェックサムが一致することを確認します
grep operator-sdk_${OS}_${ARCH} checksums.txt | sha256sum -c -以下のような出力が表示されます
operator-sdk_linux_amd64: OKリリースバイナリを PATH にインストール #
chmod +x operator-sdk_${OS}_${ARCH} && sudo mv operator-sdk_${OS}_${ARCH} /usr/local/bin/operator-sdkNGC CLI のインストール #
このセクションの手順は、NGC CLI Install に基づいています。
Download CLI をクリックしてバイナリを含む zip ファイルをダウンロードし、権限のあるディレクトリに zip ファイルを転送してから解凍してバイナリを実行します。また、実行権限のあるディレクトリに移動してから以下のコマンドを実行することで、コマンドラインからダウンロード、解凍、インストールを行うこともできます
wget --content-disposition https://api.ngc.nvidia.com/v2/resources/nvidia/ngc-apps/ngc_cli/versions/4.3.0/files/ngccli_linux.zip -O ngccli_linux.zip && unzip ngccli_linux.zipバイナリの md5 ハッシュを確認して、ダウンロード中にファイルが破損していないことを確認します
find ngc-cli/ -type f -exec md5sum {} + | LC_ALL=C sort | md5sum -c ngc-cli.md5バイナリの SHA256 ハッシュを確認して、ダウンロード中にファイルが破損していないことを確認します。以下のコマンドを実行してください
sha256sum ngccli_linux.zip以下の値と比較してください。この値はリソースのリリースノートにも記載されています
5f01eff85a66c895002f3c87db2933c462f3b86e461e60d515370f647b4ffc21値を検証した後、NGC CLI バイナリを実行可能にし、現在のディレクトリをパスに追加します
chmod u+x ngc-cli/ngc
echo "export PATH=\"\$PATH:$(pwd)/ngc-cli\"" >> ~/.bash_profile && source ~/.bash_profileコマンドを実行できるように NGC CLI を設定する必要があります。
プロンプトが表示されたら API キーを入力して、以下のコマンドを実行します
ngc config setNGC API キーを環境変数として定義します
export NGC_API_KEY=<your NGC API key>NVIDIA NIM Operator のインストール #
このセクションの手順は、Installing NIM Operator on Red Hat OpenShift Using operator-sdk (for Development-Only) に基づいています。
以下のスクリプトを実行して NIM Operator をインストールします
./install-nim-operator.shコントローラー Pod が実行中であることを確認します
oc get pods -n nvidia-nim-operatorNAME READY STATUS RESTARTS AGE
ec60a4439c710b89fc2582f5384382b4241f9aee62bb3182b8d128e69dx54dc 0/1 Completed 0 61s
ghcr-io-nvidia-k8s-nim-operator-bundle-latest-main 1/1 Running 0 71s
k8s-nim-operator-86d478b55c-w5cf5 1/1 Running 0 50s
