CUDA101 - 04 分块与不规则访存

2026/03/30

  • 关于P24的gemm_naive的实现方式,rowcol怎么从(threadIdx.x, threadIdx.y)映射出来,没有唯一标准;关键在于你想让 warp 内线程沿矩阵的哪个方向展开,以及这会造成什么访存模式。
  • P70的Generic XOR Swizzling没有完全看明白!虽然它在做什么事情我理解了,但是实现上还是好难!!