CUDA101 - 04 分块与不规则访存
2026/03/30
- 关于P24的
gemm_naive的实现方式,row和col怎么从(threadIdx.x, threadIdx.y)映射出来,没有唯一标准;关键在于你想让 warp 内线程沿矩阵的哪个方向展开,以及这会造成什么访存模式。 - P70的
Generic XOR Swizzling没有完全看明白!虽然它在做什么事情我理解了,但是实现上还是好难!!
2026/03/30
gemm_naive的实现方式,row和col怎么从(threadIdx.x, threadIdx.y)映射出来,没有唯一标准;关键在于你想让 warp 内线程沿矩阵的哪个方向展开,以及这会造成什么访存模式。Generic XOR Swizzling没有完全看明白!虽然它在做什么事情我理解了,但是实现上还是好难!!