字符串近似匹配

在计算机科学中， 字符串近似匹配（通常俗称为字符串模糊查询)，是一种字符串查找技术，用来近似匹配一个模式，而不是完全匹配。

概览

匹配的近似度用如下方法来度量：把字符串转换成完全匹配的字符串所需要的基本操作步数。这个数量被称为编辑距离。通常基本操作有：^[1]

插入: cot → coat
删除: coat → cot
替换: coat → cost

这三个操作可以泛化为使用NULL字符来替换原来的字符（这里使用*来表示）：

插入: co*t → coat
删除: coat → co*t
替换: coat → cost

某些近似匹配算法还将转置（字符串中的2个字母交换位置）作为一次基本操作来对待。一个例子是cost → cots。^[2]

问题表述和算法

一个可能的字符串近似匹配问题定义如下：给定模式 $P=p_{1}p_{2}...p_{m}$ 和字符串 $T=t_{1}t_{2}\dots t_{n}$ ，查找 $T$ 的一个子字符串 $T_{j',j}=t_{j'}\dots t_{j}$ ，使得在所有的子字符串中，这个子字符串和 $P$ 的编辑距离最小。

一种暴力的算法是，计算T的所有子字符串和P的编辑距离，然后选择距离最小的那个。然而，这个算法的运行时间为 O(n³ m)。

一个更好的解决办法，是由Sellers提出的动态规划方法。

在线和离线

传统上，字符串近似匹配算法被分为两类：在线和离线。

在线算法模式可以被预处理，但是文本没有预处理。换言之，在线技术搜索不需要索引。早期的在线算法是由Wagner和Fisher、Sellers提出的。Sellers算法用来近似搜索文本的子字符串。而Wagner-Fisher算法计算莱文斯坦距离, 只能适合作字典模糊查询。

在线搜索技术已经被持续改善。也许最著名改善是Bitap算法（又称shift-or算法、shift-and算法)，对于较短的模式搜索效率非常高。Bitap算法是Unix操作系统中agrep工具的核心算法。G.Navarro对在线搜索算法做了一个回顾。^[3]

在线算法对于大量数据是不可接受的。文本预处理、索引使得搜索大幅度加速。如今，有各种各样的索引算法，如后缀树，度量树（英语：Metric tree）和n元语法。

应用

最常见的应用如拼写检查，在大量的DNA数据中匹配核苷酸，还有垃圾邮件过滤。

字符串近似匹配不能应用于大多数二进制数据如图像和声音，它们需要不同的算法，例如声学指纹。

链接

Flamingo工程
（页面存档备份，存于互联网档案馆）
Efficient Similarity Query Processing Project
StringMetric （页面存档备份，存于互联网档案馆） Scala工程，字符串度量和语音学算法。
Natural（页面存档备份，存于互联网档案馆） JavaScript工程，自然语言处理库

参考文献

^ Cormen, Thomas; Leiserson, Rivest. Introduction to Algorithms 2nd. MIT Press. 2001: 364–7. ISBN 0-262-03293-7.
^ Navarro, Gonzalo. A guided tour to approximate string matching. ACM Computing Surveys. 2001, 33 (1): 31–88. doi:10.1145/375360.375365. CiteSeerX: 10.1.1.96.7225.

查论编字符串
String metric（英语：String metric）	字符串近似匹配 Bitap算法 Damerau–Levenshtein距离编辑距离汉明距离 Jaro–Winkler距离李距离莱文斯坦自动机莱文斯坦距离 Wagner–Fischer算法
字符串搜索算法	Apostolico–Giancarlo算法博耶-穆尔字符串搜索算法 Boyer–Moore–Horspool算法 KMP算法拉宾-卡普算法
多字符串搜索	AC自动机 Commentz-Walter算法拉宾-卡普算法
正则表达式	正则表达式引擎比较 Regular tree grammar（英语：Regular tree grammar）汤普森构造法非确定有限状态自动机
序列比对	Hirschberg's algorithm（英语：Hirschberg's algorithm）尼德曼-翁施算法史密斯-沃特曼算法
数据结构	DAFSA（英语：Deterministic acyclic finite state automaton）后缀数组后缀自动机（英语：Suffix automaton）后缀树 Generalized suffix tree（英语：Generalized suffix tree） Rope（英语：Rope (data structure)）三元搜索树
其它	语法分析模式匹配 Compressed pattern matching（英语：Compressed pattern matching）最长公共子序列最长公共子串 Sequential pattern mining（英语：Sequential pattern mining）字符串排序算法（英语：:Category:String sorting algorithms）