视觉信号保真度(VIF)是一种评估影像品质的方法,为基于自然场景统计和由人类视觉系统提取影像信号的概念的图像质量评估参数。它由Hamid R Sheikh和Alan Bovik于2006年在德克萨斯大学奥斯汀分校图像和视频工程实验室(LIVE)开发,结果显示它与人类对影像质量的判断非常相近。VIF部署在Netflix VMAF的视频质量监控系统中,该系统控制Netflix传输的所有编码视频的影像质量。这占美国所有带宽消耗的35%,并且在全球视频流量中也不断增加。
概述
三维视觉环境的图像和视频都来自于自然场景(natural scene)。自然场景在所有可能的信号空间形成一个微小的子空间,科学家发明了复杂的模型来描述这些统计数据。但是大多数真实世界都会造成这些统计数据的失真,并使图像或视频信号不自然。VIF假设测试和参考图像之间的共享讯息与视觉品质高度相关,并采用自然场景统计(NSS)模型结合失真(通道)模型来量化这种共享讯息。与基于人类视觉系统(HVS)错误敏感度和结构测量的先前方法相比,VIF在消息理论中被使用,且不需要任何HVS或其他观察几何参数,就能产生完全参考(FR)质量评估(QA)方法;VIF也不需要任何需要优化的常数,就能与现有的QA方法相竞争。
具体来说,参考图像被建模后通过HVS通道,接着由大脑处理的随机“自然”源输出。参考图像的资讯被量化为HVS频道的输入和输出之间的相互资讯(mutual information),这是大脑可以从HVS输出中提取的最理想资讯。然后让相同的参考图像通过失真通道,并对测量进行量化。将这两个讯息组合,形成视觉质量与相对图像信息相关联的视觉信息保真度。
模型
来源模型(source model)
图像的的小波系数可用高斯尺度混和(Gaussain Scale Mixture, GSM)建模,以下针对特定子带进行多尺度多方位分解的模型,其他子带可以进行相似的模型。设给定子带中的小波系数为,表示整个子带和每个子带的空间索引集合,子带被分割成M块不重叠的区域,每块对应到一个M维的向量。
根据GSM模型
其中是一个正数,是一个平均为0且协方差为的高斯向量。我们假设这M块区域彼此独立,且随机场和相互独立。
失真模型(distortion model)
我们利用小波域中的信号衰减和加性噪声来对失真过程进行建模。以数学式表示,如果表示来自失真图像的特定子带的随机场,是一个确定的常量场且,是一个平均为0且协方差为的高斯向量,其中,那么
此外,独立于 和。
人类视觉系统模型(HVS model)
基于视觉信号感知中的不确定性,限制了可以从来源和失真图像中提取的讯息量,HVS对此进行了额外的建模。这种不确定性的来源可以模拟为HVS模型中的视觉噪声,小波分解特定子带中的HVS噪声更进一步被建模为加性高斯白噪声。假设和是随机场,和是平均为0且协方差为和的高斯向量。和表示HVS输出端的视觉信号。在数学上,E=C+N且F=D+N’。其中N和N’是随机的且独立于,和。
定义
将定义为特定子带中所有区块的向量,同理定义,,和。为给定和的中几率最大的数。从参考图像中获取的资讯量为
而从测试图像中获取的资讯量为
VIF定义为
性能
评估LIVE图像质量评估数据库中,失真图像的VIF得分,与相应的人类意见得分之间的斯皮尔曼等级排序相关系数(SROCC)为0.96[1]。这显示该指数与人类对图像质量的感知非常相近,与最佳的FR IQA[1]算法一致。
参考文献