2021/4/9 会议记录
2021/4/9
Mr.Chen's 只言片语:
-
BinaryDuo: 1.数值梯度 无穷多时间/样本要比STE好。
2.appendix H & 4.1weight空间是离散的(所以需要平滑):
看一下这个问题是否存在(做一遍binaryduo的实验验证一下)-> 类NES方法search ->
- NES
e_i是方向,相减是下降的大小:
- 验证benchmark estimator (可行的方向)
- 低维的toy,看看STE为什么不行
妃哥:
- clean code base(摘出来) / NonAWNAS
- 实现一下gradient functions /工程上完善
- 为什么要smoothed loss?需要问一下陈老师
天辰:
- 数值梯度方法的库?(自己搭一下)
- reference 4 code base:https://github.com/A-suozhang/meanteacher-pytorch/blob/master/utils.py
To-Do
- 1. 对齐配置跑一下BMXNet XNOR实现(早期epoch对齐,eva7)
- 2. 搭toy model(类BinaryDuo,两三层CONV,FP weights & Binary activation, priority ++)
- 3. 搭code base
- 4. 扩大width看一下accuracy。
- 5. 看一下陈老师给的NES的文章,和他新给的另一篇文章。
Questions
Q1:为什么要做smooth -> gradient 方向更丰富(而不是0/1)? Q2:BMXNet的weight initialization?(我们似乎是norm,忘记BMXNet的initialization方法了。