CUDA101 - 02 性能模型与逐元素优化

2026/03/18

  • 对于Roofline model,斜率\beta是理论最大带宽,单位是Bytes/s,拐点的纵坐标\pi是理论最大算力,单位是FLOP/s,横坐标是计算强度,单位是FLOP/Bytes
  • ncu 使用命令:
      ncu --print-details all --nvtx --call-stack --set full <binary> --export <name>.ncu-rep
    
    • 对于eva环境,需要用下面的命令:
        /share/public-local/opt/cuda-11.1/bin/ncu --set full -o <output_file_name> <binary>
      
  • 通过这个命令来生成ptx文件:
      nvcc -ccbin /usr/bin/g++-10 -ptx add3.cu
    
  • 这节课后面讲了半精度的操作,包括数值半精度化,half2,和__hadd2这样的向量化计算;