分类: 图书馆学、情报学 >> 情报检索 提交时间: 2023-03-17
摘要: 目的/意义 受高校间信息交流方式和频率的限制,加之疫情的影响,高校图书馆之间无法全面快捷的了解到同行间的新闻资讯及资源动态等信息(以下简称资讯动态)。 方法/过程 分析统计了国内C9高校的图书馆门户网站页面结构,编写热插拔式的网络爬虫抓取资讯动态相关页面内容,同时避免对对方网络设备和流量造成压力和影响,并对抓取到的文本内容进行信息提取,取出关键词并绘制词云图。 结果/结论 以禅道开源框架为基础,构建信息查询和展示平台,供馆领导及采访馆员关注同行资讯动态。并对此应用场景扩展到国内外更多的高校进行了总结与展望。
分类: 图书馆学、情报学 >> 情报检索 提交时间: 2023-02-09
【背景及目的】作者识别正在向多层次特征的使用发展,而相较于文体风格特征,主题特征在历来作者识别研究应用中仍是少数,特别是针对中文社交媒体文本的作者识别。同时针对主题特征的利用研究,更多的是对主题特征的抽取技术和方法的创新,而未对识别出的主题以及主题特征的应用方法进行进一步研究。所以,本研究以主题特征在中文社交媒体文本作者识别中的使用研究为基本目的,同时进一步制定策略对主题特征中的核心主题进行识别和筛选,优化主题特征的使用方法,从而提高主题特征在作者识别中的使用效果。【方法】研究首先利用LDA主题模型抽取候选作者的学术主题和社交主题,然后利用word2vec制定合并筛选策略进行核心主题的识别和表示,最后结合N-gram特征和相似度计算的办法实现作者识别。【结果】实验结果显示主题特征在本研究语料上对作者识别有一定的积极作用,同时本研究提出的核心主题特征相关策略和应用也能优化主题特征的使用效果。