您当前的位置: > 详细浏览

一种面向PDF文本内容审查的高效多模式匹配算法

请选择邀稿期刊:
摘要: 多模式匹配算法是网络入侵检测和内容过滤的核心算法。针对Wu-Manber多模式匹配算法所存在的匹配效率低、跳转距离较小的问题,结合PDF文本内容的编码规则,提出了一种适用于中文PDF文本内容审查的Wu-Manber改进算法。该算法使用布隆过滤器提取模式串关键信息,同时结合双重哈希和PDF文本编码规则,减少了无谓的匹配次数,加大了跳转幅度,从而提升了PDF文本的匹配性能。实验结果表明,这种改进算法在PDF文本审查中的匹配速率有较大提升,尤其当最短模式串较长且模式串规模较大时速度可以提升一倍以上。

版本历史

[V1] 2019-05-10 10:28:40 ChinaXiv:201905.00037V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量1817
  •  下载量683
评论
分享