后缀数组

在计算机科学里, 后缀数组（英语：suffix array）是一个通过对字符串的所有后缀经过排序后得到的数组。此数据结构被运用于全文索引、数据压缩算法、以及生物信息学。

后缀数组被乌迪·曼伯尔（英语：Udi Manber）与尤金·迈尔斯（英语：Eugene Myers）于1990年提出，作为对后缀树的一种替代，更简单以及节省空间。它们也被Gaston Gonnet 于1987年独立发现，并命名为“PAT数组”。

在2016年，李志泽，李建和霍红卫（页面存档备份，存于互联网档案馆）提出了第一个时间复杂度（线性时间）和空间复杂度（常数空间）都是最优的后缀数组构造算法，解决了该领域长达10年的open problem。

定义

令字符串 $S=S[1]S[2]...S[n]$ ， $S[i,j]$ 表示 $S$ 的子字符串，下标从 $i$ 到 $j$ 。

$S$ 的后缀数组 $A$ 被定义为一个数组，内容是 $S$ 的所有后缀经过字典排序后的起始下标。

对于所有的有： $1<i\leq n$ : $S[A[i-1],n]<S[A[i],n]$ 。

考虑字符串 $S$ =banana$:

i	1	2	3	4	5	6	7
$S[i]$	b	a	n	a	n	a	$

字符串的结尾是特殊字符$，用作特殊标志。该字符串有以下后缀：

后缀经过升序排序后：

后缀数组 $A$ 包含这些后缀的起始位置：

i	1	2	3	4	5	6	7
$A[i]$	7	6	4	2	1	5	3

查论编字符串
String metric（英语：String metric）	字符串近似匹配 Bitap算法 Damerau–Levenshtein距离编辑距离汉明距离 Jaro–Winkler距离李距离莱文斯坦自动机莱文斯坦距离 Wagner–Fischer算法
字符串搜索算法	Apostolico–Giancarlo算法博耶-穆尔字符串搜索算法 Boyer–Moore–Horspool算法 KMP算法拉宾-卡普算法
多字符串搜索	AC自动机 Commentz-Walter算法拉宾-卡普算法
正则表达式	正则表达式引擎比较 Regular tree grammar（英语：Regular tree grammar）汤普森构造法非确定有限状态自动机
序列比对	Hirschberg's algorithm（英语：Hirschberg's algorithm）尼德曼-翁施算法史密斯-沃特曼算法
数据结构	DAFSA（英语：Deterministic acyclic finite state automaton）后缀数组后缀自动机（英语：Suffix automaton）后缀树 Generalized suffix tree（英语：Generalized suffix tree） Rope（英语：Rope (data structure)）三元搜索树
其它	语法分析模式匹配 Compressed pattern matching（英语：Compressed pattern matching）最长公共子序列最长公共子串 Sequential pattern mining（英语：Sequential pattern mining）字符串排序算法（英语：:Category:String sorting algorithms）