分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-04-01 合作期刊: 《计算机应用研究》
摘要: 随着移动互联网的普及,网络信息指数增长,如何有效地提取和利用这些信息面临巨大挑战。首先介绍了主题爬虫的工作原理、分类;然后回顾了近年来国内外关于主题爬虫的研究状况,分析了各种主题相似度的方法以及搜索策略,得出相比于普通的爬虫系统基于网页内容和基于链接分析的爬虫系统,查准率、查全率都大幅度的提升;最后分析比较了主题网络爬虫两种动态搜索策略及未来研究方向。