claude-skills/

Anthropic公式スキル・プラグインの日本語ディレクトリ

last sync 22h ago
スキルOfficialdevelopment

🔍hyperpod-version-checker

プラグイン
sagemaker-ai

説明

SageMaker HyperPod クラスターノード上のソフトウェアコンポーネントバージョンを確認・比較します。 対象コンポーネントは、NVIDIAドライバー、CUDAツールキット、cuDNN、NCCL、EFA、AWS OFI NCCL、GDRCopy、MPI、Neuron SDK(Trainium/Inferentia)、Python、PyTorchです。 次のような場合に使用: - コンポーネントのバージョン確認 - CUDA/ドライバーの互換性検証 - ノード間のバージョン不一致の検出 - アップグレード計画の立案 - クラスター構成のドキュメント化 - HyperPod上のバージョン関連問題のトラブルシューティング HyperPod クラスターのバージョン情報、互換性、コンポーネント確認、またはアップグレード計画に関するリクエストに対して起動します。

原文を表示

Check and compare software component versions on SageMaker HyperPod cluster nodes - NVIDIA drivers, CUDA toolkit, cuDNN, NCCL, EFA, AWS OFI NCCL, GDRCopy, MPI, Neuron SDK (Trainium/Inferentia), Python, and PyTorch. Use when checking component versions, verifying CUDA/driver compatibility, detecting version mismatches across nodes, planning upgrades, documenting cluster configuration, or troubleshooting version-related issues on HyperPod. Triggers on requests about versions, compatibility, component checks, or upgrade planning for HyperPod clusters.

ユースケース

  • コンポーネントのバージョン確認
  • CUDA/ドライバーの互換性検証
  • ノード間のバージョン不一致検出
  • アップグレード計画立案
  • バージョン関連問題のトラブルシューティング

本文(日本語訳)

HyperPod バージョンチェッカー

hyperpod-ssm スキル経由でクラスターノードにアップロードし、実行してください。

使い方

# テキストレポートをコンソールとファイルに出力
bash hyperpod_check_versions.sh

# JSON のみを stdout に出力(テキストレポートはファイルに保存)— パイプ/パースに最適
bash hyperpod_check_versions.sh --json

# 出力ファイルを指定
bash hyperpod_check_versions.sh --output /tmp/versions.txt

# カラーなし(ログ記録用)
bash hyperpod_check_versions.sh --no-color

出力ファイル: component_versions_<ホスト名>_<タイムスタンプ>.txt(デフォルト)

チェック対象コンポーネント

コンポーネント 検出方法 適用条件
NVIDIA ドライバー nvidia-smi GPU インスタンス(p3/p4/p5/g5)
CUDA Toolkit nvcc/usr/local/cuda シンボリックリンク GPU インスタンス
cuDNN ヘッダーファイル、パッケージ ディープラーニングを行う GPU インスタンス
NCCL ライブラリファイル名、ヘッダー、パッケージ 分散 GPU トレーニング
EFA /opt/amazon/efa_installed_packagesfi_info EFA 対応インスタンス(p4d/p4de/p5/trn1/trn2)
AWS OFI NCCL efa_installed_packages、ライブラリ検索 EFA + NCCL ワークロード
GDRCopy rpm/dpkg、カーネルモジュール RDMA 搭載 GPU インスタンス(p4d 以降/p5)
MPI mpirun/opt/amazon/openmpi 分散トレーニング
Neuron SDK neuronx-ccneuron-ls、パッケージ Trainium/Inferentia(trn1/trn2/inf1/inf2)
Python/PyTorch python3torch インポート ML ワークロード
コンテナランタイム dockercontainerdkubectlnvidia-ctk EKS クラスター

マルチノード比較

hyperpod-ssm スキルを使用して、各ノードで個別に実行してください。
--json オプションを指定すると、stdout にクリーンな JSON が出力されるため、差分比較が容易になります。

互換性リファレンス

スクリプトは CUDA とドライバーの互換性を自動的に解析します。参考として以下を参照してください。

ドライバーシリーズ サポートされる CUDA
580 以降 13.x、12.x、11.x
570 以降 12.8 以降(Blackwell)、12.x、11.x
545 以降 12.3〜12.7、11.x
525〜535 12.0〜12.2、11.x
450 以降 11.x のみ

NCCL: CUDA 12.x には 2.18 以降、CUDA 11.x には 2.12 以降を使用してください。
全ノードで統一されている必要があります。

EFA インストーラー AWS OFI NCCL
1.29 以降 v1.7.3 以降(推奨)
1.26〜1.28 v1.7.0〜v1.7.2
1.20〜1.25 v1.6.0 以降
原文(English)を表示

HyperPod Version Checker

Upload to cluster nodes via hyperpod-ssm skill, then execute.

Usage

# Text report to console + file
bash hyperpod_check_versions.sh

# JSON only to stdout (text report still saved to file) — best for piping/parsing
bash hyperpod_check_versions.sh --json

# Custom output file
bash hyperpod_check_versions.sh --output /tmp/versions.txt

# No color (for logging)
bash hyperpod_check_versions.sh --no-color

Output file: component_versions_<hostname>_<timestamp>.txt (default)

What It Checks

Component Detection Method Applicable When
NVIDIA Driver nvidia-smi GPU instances (p3/p4/p5/g5)
CUDA Toolkit nvcc, /usr/local/cuda symlink GPU instances
cuDNN Header file, packages GPU instances doing deep learning
NCCL Library filename, header, packages Distributed GPU training
EFA /opt/amazon/efa_installed_packages, fi_info EFA-capable instances (p4d/p4de/p5/trn1/trn2)
AWS OFI NCCL efa_installed_packages, library search EFA + NCCL workloads
GDRCopy rpm/dpkg, kernel module GPU instances with RDMA (p4d+/p5)
MPI mpirun, /opt/amazon/openmpi Distributed training
Neuron SDK neuronx-cc, neuron-ls, packages Trainium/Inferentia (trn1/trn2/inf1/inf2)
Python/PyTorch python3, torch import ML workloads
Container runtime docker, containerd, kubectl, nvidia-ctk EKS clusters

Multi-Node Comparison

Run on each node individually via the hyperpod-ssm skill. With --json, stdout is clean JSON for easy diffing.

Compatibility Reference

The script automatically analyzes CUDA/driver compatibility. For reference:

Driver Series Supported CUDA
580+ 13.x, 12.x, 11.x
570+ 12.8+ (Blackwell), 12.x, 11.x
545+ 12.3-12.7, 11.x
525-535 12.0-12.2, 11.x
450+ 11.x only

NCCL: Use 2.18+ for CUDA 12.x, 2.12+ for CUDA 11.x. Must be consistent across all nodes.

EFA Installer AWS OFI NCCL
1.29+ v1.7.3+ (recommended)
1.26-1.28 v1.7.0-v1.7.2
1.20-1.25 v1.6.0+

原文・著作権は Anthropic および各プラグイン作者に帰属します。日本語訳は Claude API による自動翻訳です。