字尾陣列

在電腦科學里, 字尾陣列（英語：suffix array）是一個通過對字串的所有字尾經過排序後得到的陣列。此數據結構被運用於全文索引、數據壓縮演算法、以及生物資訊科學。

字尾陣列被烏迪·曼伯爾（英語：Udi Manber）與尤金·邁爾斯（英語：Eugene Myers）於1990年提出，作為對字尾樹的一種替代，更簡單以及節省空間。它們也被Gaston Gonnet 於1987年獨立發現，並命名為「PAT陣列」。

在2016年，李志澤，李建和霍紅衛（頁面存檔備份，存於互聯網檔案館）提出了第一個時間複雜度（線性時間）和空間複雜度（常數空間）都是最佳的字尾陣列構造演算法，解決了該領域長達10年的open problem。

定義

令字串 $S=S[1]S[2]...S[n]$ ， $S[i,j]$ 表示 $S$ 的子字串，下標從 $i$ 到 $j$ 。

$S$ 的字尾陣列 $A$ 被定義為一個陣列，內容是 $S$ 的所有字尾經過字典排序後的起始下標。

對於所有的有： $1<i\leq n$ : $S[A[i-1],n]<S[A[i],n]$ 。

考慮字串 $S$ =banana$:

i	1	2	3	4	5	6	7
$S[i]$	b	a	n	a	n	a	$

字串的結尾是特殊字元$，用作特殊標誌。該字串有以下字尾：

字尾經過升序排序後：

字尾陣列 $A$ 包含這些字尾的起始位置：

i	1	2	3	4	5	6	7
$A[i]$	7	6	4	2	1	5	3

閱論編字串
String metric（英語：String metric）	字串近似匹配 Bitap演算法 Damerau–Levenshtein距離編輯距離漢明距離 Jaro–Winkler距離李距離萊文斯坦自動機萊文斯坦距離 Wagner–Fischer演算法
字串搜尋演算法	Apostolico–Giancarlo演算法博耶-穆爾字串搜尋演算法 Boyer–Moore–Horspool演算法 KMP演算法拉賓-卡普演算法
多字串搜尋	AC自動機 Commentz-Walter演算法拉賓-卡普演算法
正則表達式	正則表達式引擎比較 Regular tree grammar（英語：Regular tree grammar）湯普森構造法非確定有限狀態自動機
序列比對	Hirschberg's algorithm（英語：Hirschberg's algorithm）尼德曼-翁施演算法史密斯-沃特曼演算法
數據結構	DAFSA（英語：Deterministic acyclic finite state automaton）字尾陣列字尾自動機（英語：Suffix automaton）字尾樹 Generalized suffix tree（英語：Generalized suffix tree） Rope（英語：Rope (data structure)）三元搜尋樹
其它	語法分析模式匹配 Compressed pattern matching（英語：Compressed pattern matching）最長公共子序列最長公共子串 Sequential pattern mining（英語：Sequential pattern mining）字串排序演算法（英語：:Category:String sorting algorithms）