🔍hyperpod-version-checker
- プラグイン
- sagemaker-ai
- ソース
- GitHub で見る ↗
説明
SageMaker HyperPod クラスターノード上のソフトウェアコンポーネントバージョンを確認・比較します。 対象コンポーネントは、NVIDIAドライバー、CUDAツールキット、cuDNN、NCCL、EFA、AWS OFI NCCL、GDRCopy、MPI、Neuron SDK(Trainium/Inferentia)、Python、PyTorchです。 次のような場合に使用: - コンポーネントのバージョン確認 - CUDA/ドライバーの互換性検証 - ノード間のバージョン不一致の検出 - アップグレード計画の立案 - クラスター構成のドキュメント化 - HyperPod上のバージョン関連問題のトラブルシューティング HyperPod クラスターのバージョン情報、互換性、コンポーネント確認、またはアップグレード計画に関するリクエストに対して起動します。
原文を表示
Check and compare software component versions on SageMaker HyperPod cluster nodes - NVIDIA drivers, CUDA toolkit, cuDNN, NCCL, EFA, AWS OFI NCCL, GDRCopy, MPI, Neuron SDK (Trainium/Inferentia), Python, and PyTorch. Use when checking component versions, verifying CUDA/driver compatibility, detecting version mismatches across nodes, planning upgrades, documenting cluster configuration, or troubleshooting version-related issues on HyperPod. Triggers on requests about versions, compatibility, component checks, or upgrade planning for HyperPod clusters.
ユースケース
- ✓コンポーネントのバージョン確認
- ✓CUDA/ドライバーの互換性検証
- ✓ノード間のバージョン不一致検出
- ✓アップグレード計画立案
- ✓バージョン関連問題のトラブルシューティング
本文(日本語訳)
HyperPod バージョンチェッカー
hyperpod-ssm スキル経由でクラスターノードにアップロードし、実行してください。
使い方
# テキストレポートをコンソールとファイルに出力
bash hyperpod_check_versions.sh
# JSON のみを stdout に出力(テキストレポートはファイルに保存)— パイプ/パースに最適
bash hyperpod_check_versions.sh --json
# 出力ファイルを指定
bash hyperpod_check_versions.sh --output /tmp/versions.txt
# カラーなし(ログ記録用)
bash hyperpod_check_versions.sh --no-color
出力ファイル: component_versions_<ホスト名>_<タイムスタンプ>.txt(デフォルト)
チェック対象コンポーネント
| コンポーネント | 検出方法 | 適用条件 |
|---|---|---|
| NVIDIA ドライバー | nvidia-smi |
GPU インスタンス(p3/p4/p5/g5) |
| CUDA Toolkit | nvcc、/usr/local/cuda シンボリックリンク |
GPU インスタンス |
| cuDNN | ヘッダーファイル、パッケージ | ディープラーニングを行う GPU インスタンス |
| NCCL | ライブラリファイル名、ヘッダー、パッケージ | 分散 GPU トレーニング |
| EFA | /opt/amazon/efa_installed_packages、fi_info |
EFA 対応インスタンス(p4d/p4de/p5/trn1/trn2) |
| AWS OFI NCCL | efa_installed_packages、ライブラリ検索 |
EFA + NCCL ワークロード |
| GDRCopy | rpm/dpkg、カーネルモジュール | RDMA 搭載 GPU インスタンス(p4d 以降/p5) |
| MPI | mpirun、/opt/amazon/openmpi |
分散トレーニング |
| Neuron SDK | neuronx-cc、neuron-ls、パッケージ |
Trainium/Inferentia(trn1/trn2/inf1/inf2) |
| Python/PyTorch | python3、torch インポート |
ML ワークロード |
| コンテナランタイム | docker、containerd、kubectl、nvidia-ctk |
EKS クラスター |
マルチノード比較
hyperpod-ssm スキルを使用して、各ノードで個別に実行してください。
--json オプションを指定すると、stdout にクリーンな JSON が出力されるため、差分比較が容易になります。
互換性リファレンス
スクリプトは CUDA とドライバーの互換性を自動的に解析します。参考として以下を参照してください。
| ドライバーシリーズ | サポートされる CUDA |
|---|---|
| 580 以降 | 13.x、12.x、11.x |
| 570 以降 | 12.8 以降(Blackwell)、12.x、11.x |
| 545 以降 | 12.3〜12.7、11.x |
| 525〜535 | 12.0〜12.2、11.x |
| 450 以降 | 11.x のみ |
NCCL: CUDA 12.x には 2.18 以降、CUDA 11.x には 2.12 以降を使用してください。
全ノードで統一されている必要があります。
| EFA インストーラー | AWS OFI NCCL |
|---|---|
| 1.29 以降 | v1.7.3 以降(推奨) |
| 1.26〜1.28 | v1.7.0〜v1.7.2 |
| 1.20〜1.25 | v1.6.0 以降 |
原文(English)を表示
HyperPod Version Checker
Upload to cluster nodes via hyperpod-ssm skill, then execute.
Usage
# Text report to console + file
bash hyperpod_check_versions.sh
# JSON only to stdout (text report still saved to file) — best for piping/parsing
bash hyperpod_check_versions.sh --json
# Custom output file
bash hyperpod_check_versions.sh --output /tmp/versions.txt
# No color (for logging)
bash hyperpod_check_versions.sh --no-color
Output file: component_versions_<hostname>_<timestamp>.txt (default)
What It Checks
| Component | Detection Method | Applicable When |
|---|---|---|
| NVIDIA Driver | nvidia-smi |
GPU instances (p3/p4/p5/g5) |
| CUDA Toolkit | nvcc, /usr/local/cuda symlink |
GPU instances |
| cuDNN | Header file, packages | GPU instances doing deep learning |
| NCCL | Library filename, header, packages | Distributed GPU training |
| EFA | /opt/amazon/efa_installed_packages, fi_info |
EFA-capable instances (p4d/p4de/p5/trn1/trn2) |
| AWS OFI NCCL | efa_installed_packages, library search |
EFA + NCCL workloads |
| GDRCopy | rpm/dpkg, kernel module | GPU instances with RDMA (p4d+/p5) |
| MPI | mpirun, /opt/amazon/openmpi |
Distributed training |
| Neuron SDK | neuronx-cc, neuron-ls, packages |
Trainium/Inferentia (trn1/trn2/inf1/inf2) |
| Python/PyTorch | python3, torch import |
ML workloads |
| Container runtime | docker, containerd, kubectl, nvidia-ctk |
EKS clusters |
Multi-Node Comparison
Run on each node individually via the hyperpod-ssm skill. With --json, stdout is clean JSON for easy diffing.
Compatibility Reference
The script automatically analyzes CUDA/driver compatibility. For reference:
| Driver Series | Supported CUDA |
|---|---|
| 580+ | 13.x, 12.x, 11.x |
| 570+ | 12.8+ (Blackwell), 12.x, 11.x |
| 545+ | 12.3-12.7, 11.x |
| 525-535 | 12.0-12.2, 11.x |
| 450+ | 11.x only |
NCCL: Use 2.18+ for CUDA 12.x, 2.12+ for CUDA 11.x. Must be consistent across all nodes.
| EFA Installer | AWS OFI NCCL |
|---|---|
| 1.29+ | v1.7.3+ (recommended) |
| 1.26-1.28 | v1.7.0-v1.7.2 |
| 1.20-1.25 | v1.6.0+ |
原文・著作権は Anthropic および各プラグイン作者に帰属します。日本語訳は Claude API による自動翻訳です。