CUDA101 - 03 内存模型与规约优化
2026/03/22
- TODO:
- Q1:没太听懂warp那里,warp内部是不用原子累加的吗,warp之间是atomadd?
- A1:明白了,之前是完全串行,现在是warp内部并行(但是这样为什么warp内部不会竞争呢?),warp之间串行,所以速度变成原来的32x了;
- A2:并非明白,warp内部是只有一个线程在干活,它模拟了另外32个线程也在干活的情况,但是之前的atomicADD的数量是thread的数量(全串行),但现在每一个warp才会有一个atomicADD,它的数量变成了原来的1 / #(warp),每个warp的计算长度是32(串行),但比原来的要强。
- Q2:intra-block怎么就利用率更低了?
- A2:哦,我好像明白了,他之前是一个warp内并行,现在变成一个block内部并行了(是吗?)
- Q1:没太听懂warp那里,warp内部是不用原子累加的吗,warp之间是atomadd?