resource:github上备份的包括ipad标注的pdf版本。
作者是Amir Gholami, Sehoon Kim, Zhen Dong, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer,都是不认识/不熟悉的名字呢…不过有资格写综述的大概都是行业大佬?以后请多指教(?)
Summary:关于量化的纯知识性的文章,不过关注点似乎放在了inference阶段(大概和训练量化并列吗),有点可惜,而且里面的分类感觉和非神经网络的量化没什么大区别?真就移植呗?
Rating: 4.0/5.0
Comprehension: 5.0/5.0
首先是经典的模型压缩方法分类,包括设计高效的NN结构、协同设计NN结构和硬件、剪枝、知识蒸馏、量化、量化和神经科学(玄学范畴)。
第II部分的历史介绍基本上没用,一些琐碎的点:
但是II.A部分神经网络量化的历史还有点意思:
NN量化问题的一些新特性:
大概意思是按照不同分组选量化区间/量化方法:
两种重要的分类:Quantization-Aware Training(QAT) & Post-Training Quantization(PTQ).
比较重要的图:
QAT里(倒不如说也有pretrained model)pretrained model先被量化然后再和训练数据一起调优。PTQ里用部分训练数据去算截断区间和缩放因子,接着量化。
可以参考的随机量化形式:
量化的模型还可以分成simulated quantization(fake quantization,模拟量化)和integer-only quantization(fixed-point quantization,整型量化/定点量化)。模拟量化中的参数用低精度存储,但是在计算之前需要去量化,计算还是用浮点算(感觉只是节约存储空间,不能减少运算/甚至会增加运算)。
...all the scaling is performed with dyadic numbers, which are rational numbers with integer values in their numerator and
a power of 2 in the denominator
聚类的感觉,大概是找几个向量当聚类中心这样。
Don't Care.
感觉总有些牵强: