resource:github上备份的包括ipad标注的pdf版本。
作者是TU Darmstadt的Tobias Plotz和Stefan Roth,挺有价值,但是难懂。
Summary:知识密度很高的一篇文献,从里面接触了图像噪声的一些信息。本篇文献提供了一个新的Raw Real Image数据集(方法是将低ISO长曝光时间的图片当做准纯净图像,对应高ISO短曝光时间的图片当做噪声图像,保证二者乘积相同),并且认为之前的数据集获取纯净图像的方式有问题,提出了制作纯净图像的pipeline,包括Linear intensity changes(对齐感光度、曝光时间误差)、Lucas-Kanade Approach(Spatial misalignment)、Low-frequency residual correction(避免光照随时间变化)。后面有对pipeline有效性的证明实验,但是没有相关背景知识,没看懂,暂时也不需要懂。
Key words:
Rating: 4.0/5.0 还是比较有价值的,感觉对理解噪声很有帮助。
Comprehension: 2.0/5.0 但是后面方案有效性的证明缺少太多preliminary所以没有看懂(目前对我而言不重要)。
We capture pairs of images with different ISO values and appropriately adjusted exposure times, where the nearly
noise-free low-ISO image serves as reference. To derive the ground truth, careful post-processing is needed.
We correct spatial misalignment, cope with inaccuracies in the exposure parameters through a linear intensity
transform based on a novel heteroscedastic Tobit regression model, and remove residual low-frequency bias that
stems, e.g., from minor illumination changes.
有对噪声原理的精彩解释。
似曾相识(FFDNet还是RIDNet)的噪声模型:
x_n是拍出来的含噪图片,\epsilon_n是近似为heteroscedastic Gaussian分布的噪声,clip是account for the saturation of pixels on the sensor(给我的感觉不是clip成整数,而是不超出maximum?这可能和raw数据的实际取值有关)。\sigma_n(y_n)称为noise level function
。\beta主要取决于camera sensor和ISO值。由于clip,简单地noise level function平均噪声观测会产生误差,即\(\mathbb{E}[x_n \mid y_n]\neq y_n\),似乎可以根据y_n和\sigma_n(y_n)来表示\(\mathbb{E}[x_n \mid y_n]\)(给了个参考文献),将这种表示记为:
由于gt y_n不存在,所以用低ISO长曝光时间(保证两者乘积与x_n一致)的x_r作为gt。
用来缩小y_r和y_n之间的差距。
定义了残差图片,比如R(x_r)感觉就是x_r的均值和x_n的差:
R(x_r)不是0均值的,这是因为:
下面的具体细节目前不理解,也不打算去深入了解:
好难,现在应该不需要理解…第一部分证明Post-processing有用,第二部分证明ground truth质量不错,第三部分讲noise parameters(\beta)的校正。
在三个set下做测试,分别是raw track、raw + VST track、sRGB track,有意思的结论: