視覺信號保真度

視覺信號保真度（VIF）是一種評估影像品質的方法，為基於自然場景統計和由人類視覺系統（英語：Human_visual_system_model）提取影像信號的概念的圖像質量評估參數。它由Hamid R Sheikh和Alan Bovik於2006年在德克薩斯大學奧斯汀分校圖像和視頻工程實驗室（LIVE）開發，結果顯示它與人類對影像質量的判斷非常相近。VIF部署在Netflix VMAF的視頻質量監控系統中，該系統控制Netflix傳輸的所有編碼視頻的影像質量。這佔美國所有頻寬消耗的35％，並且在全球視頻流量中也不斷增加。

概述

三維視覺環境的圖像和視頻都來自於自然場景（natural scene）。自然場景在所有可能的信號空間形成一個微小的子空間，科學家發明了複雜的模型來描述這些統計數據。但是大多數真實世界都會造成這些統計數據的失真，並使圖像或視頻信號不自然。VIF假設測試和參考圖像之間的共享訊息與視覺品質高度相關，並採用自然場景統計（NSS）模型結合失真（通道）模型來量化這種共享訊息。與基於人類視覺系統（HVS）錯誤敏感度和結構測量的先前方法相比，VIF在消息理論中被使用，且不需要任何HVS或其他觀察幾何參數，就能產生完全參考（FR）質量評估（QA）方法；VIF也不需要任何需要優化的常數，就能與現有的QA方法相競爭。

具體來說，參考圖像被建模後通過HVS通道，接着由大腦處理的隨機「自然」源輸出。參考圖像的資訊被量化為HVS頻道的輸入和輸出之間的相互資訊（mutual information），這是大腦可以從HVS輸出中提取的最理想資訊。然後讓相同的參考圖像通過失真通道，並對測量進行量化。將這兩個訊息組合，形成視覺質量與相對圖像信息相關聯的視覺信息保真度。

模型

來源模型(source model)

圖像的的小波系數可用高斯尺度混和(Gaussain Scale Mixture, GSM)建模，以下針對特定子帶進行多尺度多方位分解的模型，其他子帶可以進行相似的模型。設給定子帶中的小波系數為 ${\mathcal {C}}=\{{\bar {\mathit {C_{i}}}}:{\mathit {i}}\in {\mathcal {I}}\}$ ， ${\mathcal {I}}$ 表示整個子帶和每個子帶的空間索引集合，子帶被分割成M塊不重疊的區域，每塊對應到一個M維的向量 ${\bar {\mathit {C_{i}}}}$ 。

根據GSM模型

${\mathcal {C}}={\mathcal {S}}\cdot {\mathcal {U}}=\{{\mathit {S_{i}}}{\mathit {\bar {U_{i}}}}:{\mathit {i}}\in {\mathcal {I}}\}$

其中 ${\mathit {S_{i}}}$ 是一個正數， ${\mathit {\bar {U_{i}}}}$ 是一個平均為0且協方差為 $\mathrm {C_{U}}$ 的高斯向量。我們假設這M塊區域彼此獨立，且隨機場 ${\mathcal {S}}$ 和 ${\mathcal {U}}$ 相互獨立。

失真模型(distortion model)

我們利用小波域中的信號衰減和加性噪聲來對失真過程進行建模。以數學式表示，如果 ${\mathcal {D}}=\{{\bar {D_{i}}}:i\in {\mathcal {I}}\}$ 表示來自失真圖像的特定子帶的隨機場， ${\mathcal {G}}=\{{\bar {g_{i}}}:i\in {\mathcal {I}}\}$ 是一個確定的常量場且 ${\mathcal {V}}=\{{\bar {v_{i}}}:i\in {\mathcal {I}}\}$ ， ${\bar {V_{i}}}$ 是一個平均為0且協方差為 $\mathrm {C_{V}}$ 的高斯向量，其中 $\mathrm {C_{V}} =\sigma _{v}^{2}\mathrm {I}$ ，那麼

${\mathcal {D}}={\mathcal {GC}}+{\mathcal {V}}$

此外， ${\mathcal {V}}$ 獨立於 ${\mathcal {S}}$ 和 ${\mathcal {U}}$ 。

人類視覺系統模型(HVS model)

基於視覺信號感知中的不確定性，限制了可以從來源和失真圖像中提取的訊息量，HVS對此進行了額外的建模。這種不確定性的來源可以模擬為HVS模型中的視覺噪聲，小波分解特定子帶中的HVS噪聲更進一步被建模為加性高斯白噪聲。假設 ${\mathcal {N}}=\{{\bar {N_{i}}}:i\in {\mathcal {I}}\}$ 和 ${\mathcal {N^{'}}}=\{{\bar {N_{i}^{'}}}:i\in {\mathcal {I}}\}$ 是隨機場， ${\bar {N_{i}}}$ 和 ${\bar {N_{i}^{'}}}$ 是平均為0且協方差為 $\mathrm {C_{N}}$ 和 $\mathrm {C_{N}^{'}}$ 的高斯向量。 ${\mathcal {\varepsilon }}={\mathcal {C}}+{\mathcal {N}}$ 和 ${\mathcal {F}}={\mathcal {D}}+{\mathcal {N^{'}}}$ 表示HVS輸出端的視覺信號。在數學上，E=C+N且F=D+N』。其中N和N』是隨機的且獨立於 ${\mathcal {S}}$ ， ${\mathcal {U}}$ 和 ${\mathcal {V}}$ 。

定義

將 ${\bar {C}}^{N}=({\bar {C_{1}}},{\bar {C_{1}}},...,{\bar {C_{N}}})$ 定義為特定子帶中所有區塊的向量，同理定義 ${S}^{N}$ , ${\bar {D}}^{N}$ , ${\bar {E}}^{N}$ 和 ${\bar {F}}^{N}$ 。 $s^{N}$ 為給定 ${C}^{N}$ 和 $\mathrm {C_{U}}$ 的 $S^{N}$ 中概率最大的數。從參考圖像中獲取的資訊量為

$I({\bar {C}}^{N};{\bar {E}}^{N}|{\bar {S}}^{N}=s^{N})={\frac {1}{2}}\sum _{i=1}^{N}\log _{2}{\Bigl (}{\frac {|s_{i}^{2}{\mathsf {C_{U}}}+\sigma _{n}^{2}{\text{I}}|}{|\sigma _{n}^{2}{\text{I}}|}}{\Bigr )}$

而從測試圖像中獲取的資訊量為

$I({\bar {C}}^{N};{\bar {F}}^{N}|{\bar {S}}^{N}=s^{N})={\frac {1}{2}}\sum _{i=1}^{N}\log _{2}{\Bigl (}{\frac {|g_{i}^{2}s_{i}^{2}{\mathsf {C_{U}}}+(\sigma _{v}^{2}+\sigma _{n}^{2}){\text{I}}|}{|(\sigma _{v}^{2}+\sigma _{n}^{2}){\text{I}}|}}{\Bigr )}$

VIF定義為

$VIF={\frac {\textstyle \sum _{j\in {subbands}}^{}I({\bar {C}}^{N,j};{\bar {F}}^{N,j}|S^{N,j}=s^{N,j})\displaystyle }{\textstyle \sum _{j\in {subbands}}^{}I({\bar {C}}^{N,j};{\bar {E}}^{N,j}|S^{N,j}=s^{N,j})\displaystyle }}$

性能

評估LIVE圖像質量評估數據庫中，失真圖像的VIF得分，與相應的人類意見得分之間的斯皮爾曼等級排序相關系數（SROCC）為0.96^[1]。這顯示該指數與人類對圖像質量的感知非常相近，與最佳的FR IQA^[1]算法一致。

參考文獻

^ ^1.0 ^1.1 (PDF) http://videoclarity.com/wp-content/uploads/2013/05/Statistic-of-Full-Reference-UT.pdf. （原始內容存檔 (PDF)於2018-06-12）. 缺少或|title=為空 (幫助)

[auto-1] 1.0 ^1.1 (PDF) http://videoclarity.com/wp-content/uploads/2013/05/Statistic-of-Full-Reference-UT.pdf. （原始內容存檔 (PDF)於2018-06-12）. 缺少或|title=為空 (幫助)

[1]