[!TIP] 注意 总共有两台主机,两台都是ubuntu24.04
两台主机的名称分别是SDFMU, SDFMU2。 主要看清楚
主机(SDFMU)
[!IMPORTANT] 用户
root用户, 密码:zhangyu
bear用户, 密码:bear@2025
[!IMPORTANT]
NVIDIA驱动:
NVIDIA-SMI 550.120CUDA版本:
cuda 12.1anaconda位置:
/opt/anaconda3/<---- 注意这里使用的是anaconda,下面一台主机使用的是miniconda
主机(SDFMU2)
[!IMPORTANT] 用户
root用户, 密码:
zhangyubera用户, 密码:
bear@2025<----- !!! 注意用户名是bera不是bear
[!IMPORTANT]
NVIDIA驱动:
NVIDIA-SMI 578.51.03CUDA版本:
cuda12.1和cuda12.9(默认), 双版本miniconda位置:
/opt/miniconda3/
主机(SDFMU3)
[!IMPORTANT] 用户
root用户, 密码:zhangyu
bear用户, 密码:bear@2025
xiongquanqig用户
yanchang用户
[!IMPORTANT]
NVIDIA驱动:
NVIDIA-SMI 550.120CUDA版本:
cuda 12.1anaconda位置:
/opt/anaconda3/<---- 注意这里使用的是anaconda,下面一台主机使用的是miniconda
SDFMU3添加赋予用户conda权限
# 将用户添加到anaconda组
sudo usermod -aG anaconda <username>
# 切换到指定用户
su <username)
# 执行init环境
/opt/anaconda3/bin/conda init
两台主机的通用配置
用户管理
非必要不要给root权限 !!!
创建用户
sudo useradd -u <uid> -m -s /bin/bash <user_name>-u:指定用户的uid,建议uid>1000,不要和其它用户冲突-m:给用户在/home目录下创建属于自己的家目录-s:指定自己喜欢的默认脚本,默认使用/bin/bash也可以修改为/bin/zsh
权限管理
conda命令的使用
检查是否可以运行
conda如果运行失败,或没有找到
conda命令/opt/miniconda3/bin/conda init命令会自动为你的文件进行初始化
CUDA管理
将下面内容放到你的
~/.bashrc文件中# 定义一个切换 CUDA 版本的函数 switch_cuda() { local desired_version=$1 # 假设你的 CUDA 版本都安装在 /usr/local/cuda-X.Y 格式的路径下 local cuda_path="/usr/local/cuda-${desired_version}" # 检查目标版本的 CUDA 目录是否存在 if [ -d "${cuda_path}" ]; then export CUDA_HOME="${cuda_path}" export CUDA_PATH="${CUDA_HOME}" # 有些应用可能也看这个变量 # 从 PATH 和 LD_LIBRARY_PATH 中移除旧的 CUDA 路径 (避免冲突) # (注意: 这个移除逻辑可能需要根据你的具体 PATH/LD_LIBRARY_PATH 结构调整) export PATH=$(echo "$PATH" | awk -v RS=':' -v ORS=':' '!/\/usr\/local\/cuda-[0-9.]+\/bin/' | sed 's/:$//') export LD_LIBRARY_PATH=$(echo "$LD_LIBRARY_PATH" | awk -v RS=':' -v ORS=':' '!/\/usr\/local\/cuda-[0-9.]+\/lib64/' | sed 's/:$//') # 添加新版本的 CUDA 路径 export PATH="${CUDA_HOME}/bin:${PATH}" # 确保 LD_LIBRARY_PATH 非空再加冒号 if [ -z "$LD_LIBRARY_PATH" ]; then export LD_LIBRARY_PATH="${CUDA_HOME}/lib64" else export LD_LIBRARY_PATH="${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}" fi echo "Switched to CUDA ${desired_version}" echo "CUDA_HOME is now: ${CUDA_HOME}" echo "Verifying nvcc version:" nvcc --version else echo "Error: CUDA version ${desired_version} not found at ${cuda_path}" fi } # (可选) 在启动时设置一个默认的 CUDA 版本 # switch_cuda 12.1 # (可选) 创建别名方便切换 alias cuda12.1="switch_cuda 12.1" # 假设你的 "12.9" 版本在 /usr/local/cuda-12.9 (请根据实际情况修改) alias cuda12.9="switch_cuda 12.9"