TensorFlow学习框架¶
简介¶
TensorFlow 是一个端到端开源机器学习平台。它拥有一个包含各种工具、库和社区资源的全面灵活生态系统,可以让研究人员推动机器学习领域的先进技术的发展,并让开发者轻松地构建和部署由机器学习提供支持的应用。
测试数据位置
飞马一号:
/dssg/share/sample/tensorflow/tf_test.py
飞马一号上的TensorFlow
版本 | 平台 | 构建方式 | 导入方式 |
---|---|---|---|
2.8.2 | GPU | 容器 | module load tensorflow/2.8.2 |
TensorFlow使用教程¶
1.预编译版本的使用方式
拷贝数据到本地
cd
mkdir tensorflow
cd tensorflow
cp /dssg/share/sample/tensorflow/tf_test.py ./
集群上TensorFlow提交作业脚本
#!/bin/bash
#SBATCH -J test
#SBATCH -p a100
#SBATCH -o %j.out
#SBATCH -e %j.err
#SBATCH -N 1
#SBATCH --ntasks-per-node=32
#SBATCH --gres=gpu:2
module load tensorflow/2.8.2
python tf_test.py
2.集群上自定义构建TensorFlow 2.x环境
使用 miniconda 安装 TensorFlow
创建名为 tf-env 的虚拟环境,激活虚拟环境,然后安装 TensorFlow
cd
mkdir tensorflow
cd tensorflow
cp /dssg/share/sample/tensorflow/tf_test.py ./
module load miniconda3
conda create -n tf-env python=3.8.5
source activate tf-env
conda install tensorflow=2.8.2=gpu_py38h75b8afa_0
#上述命令会自动安装如下依赖
.cudatoolkit=11.3.1=h2bc3f7f_2
.cudnn=8.2.1=cuda11.3_0
.numpy=1.23.4=py38h14f4228_0
conda install matplotlib=3.5.0=py38h06a4308_0
conda install -c conda-forge sklearn-quantile=0.0.18=py38h3ec907f_0
作业提交脚本如下所示
在 A100 上使用 TensorFlow。作业使用单节点,分配 2 块 GPU,GPU:CPU 配比 1:16
#!/bin/bash
#SBATCH -J test
#SBATCH -p a100
#SBATCH -o %j.out
#SBATCH -e %j.err
#SBATCH -N 1
#SBATCH --ntasks-per-node=32
#SBATCH --gres=gpu:2
module load miniconda3
source activate tf-env
python tf_test.py
3.集群上自定义构建TensorFlow 1.x环境
使用 pip 安装NVIDIA A100 GPU上优化的TensorFlow 1.x
cd
mkdir tensorflow
cd tensorflow
cp /dssg/share/sample/tensorflow/tf_test.py ./
module load miniconda3
conda create -n tf-env python=3.8.5
source activate tf-env
pip install --user nvidia-pyindex
pip install --user nvidia-tensorflow[horovod]
TensorFlow的运行结果
预编译版本的运行结果
Accuracy: mean=98.653 std=0.083, n=5
自定义编译版本的运行结果
Accuracy: mean=98.645 std=0.134, n=5
参考资料
本文阅读量 次 本站总访问量 次