首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

德黑兰大学提出BlockCNN,用深度学习实现伪像去除和图像压缩

原文来源:arXiv

作者:Danial Maleki、Soheila Nadalian、Mohammad Mahdi Derakhshani、Mohammad Amin Sadeghi

「雷克世界」编译:嗯~是阿童木呀、EVA

导语:在图像处理中,伪像的去除和图像的压缩是很重要的处理过程。最近,伊朗德黑兰大学(University of Tehran)提出了一种能够执行伪像去除和图像压缩的深度学习网络,实验表明,该技术简单且高效,能够极大地提高伪像去除和图像压缩的性能。

我们提出了一种执行伪像去除和图像压缩的通用技术。对于伪像去除,我们输入一个JPEG图像并尝试去除其压缩伪像。对于压缩,我们输入一个图像并在一个序列中处理其8×8块(block)。对于每个块,我们首先尝试根据之前的块来预测其强度;然后,我们存储关于输入图像的残差。我们的技术重新使用了JPEG的传统压缩和解压缩例程。我们的伪像去除和图像压缩技术都使用相同的深度网络,但它们的训练权重有所不同。我们的技术简单快速,极大地提高了伪像去除和图像压缩的性能。

图1:BlockCNN:该体系结构可用于执行伪像去除和图像压缩。BlockCNN在8×8的图像块上运行。顶部:为了从每个块中去除伪像,我们将该块与其八个相邻块一起输入,并尝试从中心块中去除伪像。底部:在给定一个块的四个相邻区域(三个顶部和一个左边)的情况下,这个架构可以预测出该块。我们使用这个图像预测来压缩图像。我们首先尝试预测一个块,然后存储占用较少空间的残差。

深度学习的出现引起了图像表征方面的多重突破,包括:超分辨率、图像压缩、图像增强和图像生成。我们提出了一个统一模型(unified model),它可以执行两项任务:1.JPEG图像的伪像去除;2.新图像的图像压缩。

我们的模型使用深度学习和传统的JPEG压缩例程。JPEG将图像分成8×8块并独立压缩每个块。这会导致块状压缩伪像(图2)。我们发现,像素伪像的统计数据取决于它在块中的位置(图2)。因此,具有关于像素位置先验的伪像去除技术是有优势的。我们的模型在8×8块上运行,以便从先验中获益。此外,这让我们重新使用了JPEG压缩。

图2:左图:JPEG独立压缩每个8×8的块。因此,每个块都有独立的伪像特征。我们的伪像去除技术分别作用于每个块。右图:像素的压缩伪像的统计数据取决于它在8×8块内的位置。右图显示了压缩后的像素强度(块内)的均方差(Mean Square Error)。我们使用了600万张质量因数为20的图像块来生成此图。

对于图像压缩,我们在一个序列中检查图像块。当每个块被压缩时,我们首先尝试根据该块的相邻块来预测该块的图像(图1)。我们的预测有一个关于原始块的残差。我们存储这个残差,该残差比原始块占用的空间更少。我们使用传统的JPEG技术来压缩这个残差。我们可以使用JPEG压缩比对质量和空间进行折中权衡。我们的图像预测是一个确定性过程(deterministic process)。因此,在解压过程中,我们首先尝试预测块的内容,然后将所存储的残差进行累加。在解压缩后,我们执行伪像去除,以进一步提高修复图像的质量。通过这项技术,我们获得了质量和空间之间卓越的折中权衡。

图3:我们的网络架构。顶部:我们输入一张24×24的彩色图像并输出一张8×8的彩色图像。我们的网络有一系列的卷积和残差块。底部:我们的残差块包含多个操作,包括卷积、批量归一化和leaky ReLU激活函数。

相关研究

JPEG使用量化的余弦系数对8×8块进行压缩。JPEG压缩可能会导致不需要的压缩伪像。为此,科学家们开发了若干种技术以减少伪像并对压缩加以改进:

?深度学习:Jain等人和Zhang等人训练了一个网络来降低高斯噪声(Gaussian noise)。而这个网络不需要知道噪声等级。Dong等人训练了一个网络来减少JPEG压缩伪像。Ball等人采用了非线性分析变换、统一量化器和非线性综合变换。Mao等人开发了一个用于去噪的编码器——解码器网络(encoder-decoder network)。该网络使用跳跃连接和解卷积层。Theis等人提出了一种基于自动编码器的压缩技术。

图4:我们的压缩管道。我们在一个序列中对图像块进行处理。对于每个块(用问号突出显示),我们首先尝试使用前面的块对其强度做出预测。然后计算出我们的预测与原始块之间的残差。我们将这个残差进行存储并继续处理下一个块。在解压缩过程中,我们会经历类似的顺序过程。我们首先使用其先前的块对图像块进行预测,然后对残差进行累加。

?基于残差的技术:Svoboda等人应用残差表征学习来定义一个更容易的网络任务。Baig等人在压缩之前使用图像修补。Dong等人重用预训练模型来加速学习。

?生成式技术:Santurkar等人使用深度生成式模型来重现图像和视频并去除伪像。在图像生成方面一个较为引人注意的成果是Oord等人提出的PixelCNN。Dahl等人引入了基于PixelCNN的超分辨率技术。而我们的BlockCNN架构也受到了PixelCNN的启发。

?循环神经网络:Toderici等人使用基于循环神经网络的编码器和解码器,二值化器和一个用于熵编码的神经网络,提出了一种压缩技术。他们还使用门控循环单元(Gated Recurrent Unit)的新变体。Toderici等人的另一项研究提出了一种使用卷积和去卷积长短期记忆网络的变速率压缩技术。

图6:左图:被送入到BlockCNN进行压缩的原始图像。中心:BlockCNN预测。此图像中的每个块都显示了使用先前看到的块做出的最佳预测。右图:原始图像和我们的预测(残差)之间的差异。我们存储的是残差而不是原始图像。

BlockCNN

与JPEG类似,我们将图像分割成8×8块,并对每个块进行分别处理。我们使用卷积神经网络,将一个块以及其相邻块(一张24×24图像)一起输入,并输出中心位置的已处理后的块。我们把这个架构称为BlockCNN。我们使用BlockCNN来去除伪像和进行图像压缩。

总而言之,我们展示了BlockCNN,这是一种可以执行伪像去除和图像压缩的深度架构。我们的技术遵循JPEG压缩规范,并在8×8块上运行。我们的图像压缩技术背后的思想是,在对每个块进行压缩之前,我们试图尽可能多地从先前看到的块中预测出更多的东西。然后,我们只存储占用较少空间的残差。我们的技术重用JPEG压缩例程来对残差进行压缩。我们的技术简单而有效,并且它要比高压缩比的基线更胜一筹。

原文链接:https://arxiv.org/pdf/1805.11091.pdf

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180530A1CK5H00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com