CUDA101 - 04 分块与不规则访存

2026/03/30

  • 关于P24的gemm_naive的实现方式,rowcol怎么从(threadIdx.x, threadIdx.y)映射出来,没有唯一标准;关键在于你想让 warp 内线程沿矩阵的哪个方向展开,以及这会造成什么访存模式。