为了提高检索效率,大概有两种思路:
对文本做预处理,比如:BWT
对字符串做预处理,比如:KMP、Boyer-Moore
BWT
[IR] BWT+MTF+AC 中已经介绍了BWT (Burrows–Wheeler_transform)数据转换算法,
这种变换方式不仅方便压缩,同时对pattern search也带来了意想不到的好处。
事实上,BWT形式的数据,可以仅还原局部数据,而非必须还原完整的文件。
这个完整的搜索过程叫做:FM-index,包括三部分,①BWT(T),②checkpoint data,③一个简化了的SA[]数组。
延伸阅读
- ssh框架 2016-09-30
- 阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁 2017-07-26
- 消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 论文笔记【图片目标分割】 2017-07-26
- 词向量-LRWE模型-更好地识别反义词同义词 2017-07-26
- 从栈不平衡问题 理解 calling convention 2017-07-26
- php imagemagick 处理 图片剪切、压缩、合并、插入文本、背景色透明 2017-07-26
- Swift实现JSON转Model - HandyJSON使用讲解 2017-07-26
- 阿里移动安全 Android端恶意锁屏勒索应用分析 2017-07-26
- 集合结合数据结构来看看(二) 2017-07-26