2022/8/27 LLCV talk总结

2022/8/27

Summary

Talk分成五个议题，分别是：
- Transformer是LLCV未来发展的趋势吗？
- 实验室技术在实际生产中效果并不好，该怎么解决？
  - 进一步的，这个问题主要是讨论合成数据和真实case不匹配的情形
- 如何看待LLCV研究目前进入定式化状态，还有什么高价值的研究内容？
  - 就是指LLCV发展陷入刷榜打点的陷阱
- LLCV有什么区别于其他任务的特点、难点？
- LLCV发文技巧；趣事分享。
议题讨论与结论
1. （与我们的研究兴趣无关）Transformer议题请到了LLCV第一个A+B文章SwinIR的作者，除了他以外的嘉宾都暗示transformer只是一个新的A+B方式，难堪大用（除了一些minor的改进，似乎不能支撑领域进一步发展）；细节可看讨论记录。
2. （与我们的研究方向无关）实验室结果和实际结果不能匹配的原因来自①合成数据和真实数据特性背离严重；②模型overfitting到特定数据集；
  - 有三条解决思路（完全含于我们目前的认知）：
    - 做unsupervision；（效果不好，前两年火过现已式微，或者改做semi-supervision）
    - 采集paired数据（成本太高；工业界最主流的做法）；
    - 真实degradation过程建模 + 合成数据（sxs：困难，目前已有很多尝试，似可继续做）；
  - 工业界最主流的LLCV解决方案还是暴力采数据；数据相比模型是LLCV领域更核心的要素；
3. LLCV领域确实饱和了（所以会有很多定式化的工作）；
  - 可做基于数学物理prior + DL研究的工作，寻找LLCV领域的first principle（sxs：一直有人在做，但是不温不火；和传统方法的结合确实是继续发展的方向）；
  - DL-LLCV领域的进步基本靠搬运high-level的工作，应该从LLCV任务特性出发；（sxs：正确但无用）
  - 近期发文密码是diffusion；
4. 最重要的议题，因为时间跳过了，进入发文经验分享环节了
5. 分享了一些AI领域发文共性问题。
结论：没有收获；讨论的预设问题与我们的关心的不重合，比如高效性问题没有纳入讨论，弹幕里多次申请互动未果；感觉LLCV领域taste可能不怎么好；嘉宾似乎有所保留；

一、LLCV里transformer是未来发展的趋势吗

jinyun liang：
- transformer是一种新的backbone；动态感受野（感受野大，LLCV里感受野大对性能好）；
- transformer理论计算量小，但是测试/训练速度慢；（因为实现的问题？小op和投影等）；
- Conv的进展停滞很久了；18年的RCNN已经很好了；transformer比RCNN明显要好；
- transformer可以提供一个数据集上的upperbound（我反对）；
- 需要进一步研究怎么变小、部署；
- transformer可以提供可解释性的窗口（不同意）；
jinjin liang：
- 不同意transformer是未来方向；
ruicheng feng：
- local-attention 和 transformer的区别是什么？是设计成熟（传统non-local）吗？还是有本质区别？
jinyun liang：
- transformer的思想和non-local很像（算patch和周围background的相似度等），可能只是实现上有些区别；
jinjin liang：
- SwinIR里每个token是像素，在LLCV里很成熟，在high-level task里不行；
- 像素token计算量大，但是更准（不丢失信息）；
- denoise和deblur可以用U-Net类的架构降采样降低计算量（但是SR不行） -> 一个新知识；
yihao liu：
- （LLCV里CNN+Transformer很重要，没法剔除CNN）LLCV里在transformer前后都要插入Conv（似乎和提取处理输入输出有关），没有这种Conv层性能下降很严重；
- transformer对不同任务有倾向性；dehaze上效果不行；transformer的结构设计对任务也有倾向性（不就是说不同结构效果不一样吗。。）；
- LLCV transformer的pretrain可以研究（目前已经有文章了）；
jinjin liang：
- transformer废卡，提高门槛；
yihao liu：
- 要加速，去除冗余；
jinyun liang：
- （一个有效信息）小模型有效那么大模型也会更强；
- 可用小模型做surrogate；
- yihao liu：
  - 有一些case不行；模型增大后小模型上有效的module大模型上可能就不好了（。。。）；
ruicheng feng：
- 讲了mobile的故事（transformer的高效性）；
jinjin liang：
- 大的CNN都不容易在mobile上跑，更不必说transformer；
- 高通6系soc上没优化的CNN跑LLCV任务跑个几十秒没问题（LLCV模型高效性很差）；

二、实验室技术在真实场景下效果并不好，怎么能解决落地问题？
问题细化：仿真数据上性能好的方法可迁移性不好。

jinyun liang：
- unsupervised；
  - jinjin gu：
    - unsupervised最近研究变少了；效果也不行；
  - ruicheng feng：
    - degradation -> restoration的循环，artifacts多，不符合LLCV的要求，但是可以做style transfer；
- 收集配对LR-HR图像（和相机有关，也很不好对齐）；
  - jinjin gu：
    - huawei 计算光学；建模模组（每个元件的畸变都不一样，且每个个体都不一样），开销很大； -> 工业界喜欢暴力出奇迹？
    - 数据采集的方法很boring，流水线；各个公司比性能还都是在比数据收集；数据才是核心，壁垒；
    - 过于依赖数据反而说明学术界不行（同意，做了个寂寞）；
- 真实退化模型（从头到尾的噪声建模）；
yihao liu：
- 原因：domain迁移特征不匹配；overfitting；
- 成本问题（为各个组件建模等）；
  - 解决方法1：合成数据需要了解退化特征（精确噪声建模）；
    - 问题：没法精准建模，因素太多；
  - 解决方法2：采集paired数据集；
    - 问题：采集代价也很大，时间成本也很高；老电影复原等任务没法采用这种方法（特殊任务下label不好收集）
- unsupervised：
  - （类似半监督）可与采集的方法结合，扩展数据；减少收集成本；
ruicheng feng：
- 有些问题没法用数学建模；（iphone上的鬼影 -> flare？）多次折射等（随机性、入射角度等）； -> 只能数据驱动；

三、如何看待底层视觉研究进入定式化状态，还有什么高研究价值的问题？
问题分析：现在的工作都是在任务上打点，很无聊。

jingyun liang：
- 有好有坏，很无聊，但是比较起来规范。
yihao liu：
- LLCV里一般都是把high-level的东西拿过来用；-> 数学方法建模+DL；
- 目前饱和了。
ruihao liu：
- 下一波论文密码是diffusion。
haitao mao：
- 找物理中的first principle，做DL+physical modeling。

四、LLCV独特于其他领域的难点是什么？时间不够了，跳到第五个问题了。？？？这么关键的问题能跳过的？直接跳到发文章是吧？

五、怎么发LLCV论文？

yihao liu：
- 换着benchmark刷点（A不行了去刷B）；
- 做LLCV可解释性；
- 做IQA；
jinjin gu：
- 论文不能露怯；
- 拒稿常用理由：
  - novelty；
  - 多来点数学包装（不能太简单，也不能太复杂）；
ruicheng feng：
- 多编些故事，来点knowledge。