• 基于关键词挖掘的热线文本数据犯罪线索筛查方法研究

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》

    摘要: [目的/意义]针对公安业务中对热线文本数据犯罪线索关键信息识别与筛查时存在的信息化分析能力不足问题,提出一种基于关键词挖掘的热线文本数据犯罪线索筛查方法,帮助业务部门提高相关情报研判效率,使得犯罪线索筛查工作更加信息化和科学化。[方法/过程]考虑到直接采用文本类等算法方法或因有效信息样本量占比过小使得模型训练不充分,本文首先对已知犯罪线索进行基于文本相似度的种子词集抽取,然后采用Word2Vec对种子词汇从同类词、替代词两个角度扩展构成专业词库,最后使用基于语义的积分筛查模型实现对热线文本数据中犯罪线索筛查。[结果/结论]对济南市1 050条先验热线文本数据作犯罪线索筛查实验,并进行实际比对与结果指标分析,得到结果召回率86%,可以认为本文所述基于语义的积分筛查方法对济南市热线文本数据内犯罪信息具体性识别达到预期效果并实现犯罪线索有效筛查。