CUDA101 - 02 性能模型与逐元素优化
2026/03/18
- 对于Roofline model,斜率\beta是理论最大带宽,单位是Bytes/s,拐点的纵坐标\pi是理论最大算力,单位是FLOP/s,横坐标是计算强度,单位是FLOP/Bytes

- ncu 使用命令:
ncu --print-details all --nvtx --call-stack --set full <binary> --export <name>.ncu-rep- 对于eva环境,需要用下面的命令:
/share/public-local/opt/cuda-11.1/bin/ncu --set full -o <output_file_name> <binary>
- 对于eva环境,需要用下面的命令:
- 通过这个命令来生成ptx文件:
nvcc -ccbin /usr/bin/g++-10 -ptx add3.cu - 这节课后面讲了半精度的操作,包括数值半精度化,half2,和__hadd2这样的向量化计算;