匹配追踪(matching pursuit, MP)最早是时频分析的分析工具,目的是要将一已知讯号拆解成由许多被称作为原子讯号的加权总和,而且企图找到与原来讯号最接近的解。其中原子讯号为一极大的原子库中的元素。以数学式子表示可以得到:
其中,是权重,是由字典中获得的原子讯号。
如同傅立叶级数将一讯号拆解成一系列的正弦波的相加,其中每个成分拥有不同的系数作为权重,其数学式子如下:
而匹配追踪也具有将讯号拆解成一系列原子相加的意涵,甚至可以使用匹配追踪去描述傅立叶级数,也就是原子库对应到的所有正弦函数的集合。
演算法
为了找到最符合原讯号的一组原子加权总合,如果对原子库进行所有组合的尝试过于耗费时间。在1993年由Mallat S和Zhang Z的论文[1]中,提出了一个贪婪演算法(Greedy Algorithm),并大幅降低找出近似解的时间。其作法首先在原子库中寻找与原讯号内积结果最大的原子,找到此讯号以及其内积结果之后再将原讯号减掉作为下一次重复运算的原始讯号,如此反复做下去即可得到一系列的以及原子,直到达到停止条件为止,其详细的演算法如下:
- 输入:Signal: , dictionary .
- 输出:List of coefficients: .
- 初始化:
- ;
- ;
- 重复:
- 寻找 具有最大内积 ;
- ;
- ;
- ;
- 直到达到停止条件(例如:)
时频原子分解(time-frequency atom decomposition)
在信号处理的许多应用中,需要将信号分解为一群在时域和频域都具有良好局部性(集中在某一范围)的函数,这些函数称为时频原子(time-frequency atom)。
选择不同的时频原子时,分解方式的特性会有很大的差异。窗函数傅立叶转换(window Fourier transform)和小波转换(wavelet transform)都是时频信号分解的方法。
通常一个时频原子群可以由单一的窗函数经过scale、translation和modulation产生,令为一个实数的连续可微函数,且限制、的积分不为零、。
以表示scale参数、translation参数和modulation参数,定义为
其中是集合中的元素,使得。
事实上,函数群含有许多冗馀的元素,对于任何函数,更有效率的表示方法是,在原子中,只选取适当数量的子集合,其中,则可以表示为
在窗函数傅立叶转换中,所有原子具有相同的scale参数,因此主要分布在一个大小为倍数的区间内,由于上述特性,窗函数傅立叶转换无法准确地描述比大许多或小许多的函数结构。
小波转换将信号分解为不同尺度的时频原子,称为小波(wavelet),小波群的建构方法是令 ,其中是一个常数。小波转换可以分析不同尺寸的信号成分,然而,受限于参数和必须成反比的条件,小波转换的系数无法精准估计傅立叶转换后具有良好局部性的频率成分。
希尔伯特空间(Hilbert space)的匹配追踪
自适应时频分解(adaptive time-frequency decomposition)的目的是将信号展开到一组波形(waveform)上,这些波形选自一个数量庞大的冗馀字典,而匹配追踪是能达到自适应分解的一种方法。
一个希尔伯特空间可表示为,其组成的复数函数必须满足
令代表一个希尔伯特空间,则将“字典”定义为中的一个向量群,满足,其中是集合中的元素。代表字典向量的封闭线性生成空间(closed linear span),在空间中,集合之向量的有限线性展开(finite linear expansion)是稠密(dense)的,如果,则称此字典具有完备性(completeness)。对于“时频原子分解”段落所描述的字典,,在空间中,时频分子的有限线性展开是稠密的,因此该字典具有完备性。
假设有一信号,欲将其线性展开到由集合中选出的一组向量上,使得结果最匹配原来的信号结构。匹配追踪的方法是连续地将以其在集合中元素的正交投影(orthogonal projection)近似。
令,向量可以被分解为
其中是将以的方向近似后的剩馀向量(residual vector),由于和正交,可得下式
为了最小化,必须选取使得最大化。在某些情况下,只能找到近似最佳的向量,符合
其中,在选择向量时,并非随机选择,而是由一个选择函数决定。
重复上述步骤,叠代地将剩馀向量投影到集合中最匹配的向量,并将分解。
匹配追踪的步骤可以由数学归纳法来表示
- 令
- 假设已经计算第次的剩馀向量,
- 根据选择函数,选取一个最匹配的元素
剩馀向量被分解为
由于和正交,可得下式
当分解到第次时,被分解为
被分解为
此公式具有能量守恒的意义,原来的向量被分解为许多字典中元素的总和。
有限空间的匹配追踪
当信号存在的空间具有有限的维度时,匹配追踪方法会有特殊的特性。在字典中,可能含有无限多的元素,假设此字典具有完备性,此时可以用一种有效率的匹配追踪方法,剩馀向量的范数(norm)会以指数方式下降。
当字典含有非常多冗馀的元素时,要寻找和剩馀向量最匹配的向量,通常可以只限制在一个子字典中寻找,假设是一个包含于的有限索引集,使得对于所有信号,满足
依据的大小和字典的冗馀程度,集合可以比小许多。
以数学归纳法表示此处的匹配追踪方法
- 计算内积
- 假设已经计算,
- 从子字典中找出一个元素,使得
为了从字典中找到一个比更匹配的元素,可以利用牛顿法(Newton’s method),在中寻找的邻近索引,使得内积达到局部最大值,在此情况下,可以得出下式
在此处,选择函数与希尔伯特空间中的匹配追踪不同,必须进行二次搜寻。
在选出一个后,必须计算新的剩馀向量和任何的内积,更新公式如下
由于先前的计算已经得到和,因此上式的更新只需要计算。
对于一个给定的信号,要对其剩馀向量分解多少次,决定于要求的精准度,重复的次数为能够满足下式的最小值
根据能量守恒,此公式等价于
由于在此方法中,每一次重复计算时,并没有计算剩馀向量,因此只根据上式来判断是否达到停止分解的条件。
重复次数决定于的下降速率,依据信号的不同,可以有很大的变化,但在一般情况下,会比空间的维度小很多。
性质
- 任何讯号都会在由原子库所张的空间中找到收敛的解。
- 稀疏性:当原子库很大的时候,MP演算法找出来的最佳吻合解,其中的大部分原子讯号的系数可能都是0,只有少部分的系数不为0,此性质称为稀疏代表性,而此特性对于影像或视讯编码和压缩很有帮助。
应用
匹配追踪演算法的灵活性和效率在讯号处理领域中越来越重要,尤其在以下几种领域中更有其重要的应用:
在视讯编码和影像压缩上,对于运动的影像估计和补偿,在提出新的原子库或是扩展的演算法之后,有相当的改良。在影像辨识和形状辨认上,匹配追踪演算法的稀疏性对于同样具有稀疏性的图像提供新的研究方向。另外在音乐、语音方面,最早即在时频分析上作为MP演算法研究对象。
参见
压缩感知
参考文献
[1] S. G. Mallat and Z. Zhang, "Matching pursuits with time-frequency dictionaries," in IEEE Transactions on Signal Processing, vol. 41, no. 12, pp. 3397-3415, Dec 1993.
[2] Jian-Jiun Ding, Time frequency analysis and wavelet transform class note,the Department of Electrical Engineering, National Taiwan University (NTU), Taipei, Taiwan, 2012.
[3] B. Torresani, "Wavelets associated with representations of the affine Weyl-Heisenberg group," 1. Math. Physics, vol. 32, pp. 1273-1279, May 1991.