視覺信號保真度(VIF)是一種評估影像品質的方法,為基於自然場景統計和由人類視覺系統提取影像信號的概念的圖像質量評估參數。它由Hamid R Sheikh和Alan Bovik於2006年在德克薩斯大學奧斯汀分校圖像和視頻工程實驗室(LIVE)開發,結果顯示它與人類對影像質量的判斷非常相近。VIF部署在Netflix VMAF的視頻質量監控系統中,該系統控制Netflix傳輸的所有編碼視頻的影像質量。這佔美國所有頻寬消耗的35%,並且在全球視頻流量中也不斷增加。
概述
三維視覺環境的圖像和視頻都來自於自然場景(natural scene)。自然場景在所有可能的信號空間形成一個微小的子空間,科學家發明了複雜的模型來描述這些統計數據。但是大多數真實世界都會造成這些統計數據的失真,並使圖像或視頻信號不自然。VIF假設測試和參考圖像之間的共享訊息與視覺品質高度相關,並採用自然場景統計(NSS)模型結合失真(通道)模型來量化這種共享訊息。與基於人類視覺系統(HVS)錯誤敏感度和結構測量的先前方法相比,VIF在消息理論中被使用,且不需要任何HVS或其他觀察幾何參數,就能產生完全參考(FR)質量評估(QA)方法;VIF也不需要任何需要優化的常數,就能與現有的QA方法相競爭。
具體來說,參考圖像被建模後通過HVS通道,接着由大腦處理的隨機「自然」源輸出。參考圖像的資訊被量化為HVS頻道的輸入和輸出之間的相互資訊(mutual information),這是大腦可以從HVS輸出中提取的最理想資訊。然後讓相同的參考圖像通過失真通道,並對測量進行量化。將這兩個訊息組合,形成視覺質量與相對圖像信息相關聯的視覺信息保真度。
模型
來源模型(source model)
圖像的的小波系數可用高斯尺度混和(Gaussain Scale Mixture, GSM)建模,以下針對特定子帶進行多尺度多方位分解的模型,其他子帶可以進行相似的模型。設給定子帶中的小波系數為,表示整個子帶和每個子帶的空間索引集合,子帶被分割成M塊不重疊的區域,每塊對應到一個M維的向量。
根據GSM模型
其中是一個正數,是一個平均為0且協方差為的高斯向量。我們假設這M塊區域彼此獨立,且隨機場和相互獨立。
失真模型(distortion model)
我們利用小波域中的信號衰減和加性噪聲來對失真過程進行建模。以數學式表示,如果表示來自失真圖像的特定子帶的隨機場,是一個確定的常量場且,是一個平均為0且協方差為的高斯向量,其中,那麼
此外,獨立於 和。
人類視覺系統模型(HVS model)
基於視覺信號感知中的不確定性,限制了可以從來源和失真圖像中提取的訊息量,HVS對此進行了額外的建模。這種不確定性的來源可以模擬為HVS模型中的視覺噪聲,小波分解特定子帶中的HVS噪聲更進一步被建模為加性高斯白噪聲。假設和是隨機場,和是平均為0且協方差為和的高斯向量。和表示HVS輸出端的視覺信號。在數學上,E=C+N且F=D+N』。其中N和N』是隨機的且獨立於,和。
定義
將定義為特定子帶中所有區塊的向量,同理定義,,和。為給定和的中概率最大的數。從參考圖像中獲取的資訊量為
而從測試圖像中獲取的資訊量為
VIF定義為
性能
評估LIVE圖像質量評估數據庫中,失真圖像的VIF得分,與相應的人類意見得分之間的斯皮爾曼等級排序相關系數(SROCC)為0.96[1]。這顯示該指數與人類對圖像質量的感知非常相近,與最佳的FR IQA[1]算法一致。
參考文獻