分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》
摘要: [目的/意义] 在基于社会网络的用户画像研究中,针对传统用户建模难以处理复杂网络关系,群体构建多基于内容,以及群体相似度低或紧密性差的问题,提出基于网络结构和文本内容的群体画像构建方法。[方法/过程] 首先,采用卷积神经网络方法,融合网络结构和文本内容两方面特征将网络用户表示成空间向量,其次,在k-means算法基础上结合模块度计算方法,对空间向量进行聚类,然后,在爬取的中英文数据集上分别进行对比研究,最后,从中文数据集中选取1 000名重要性用户进行实例分析。[结果/结论] 实验结果表明,该方法的密度值比基于内容的方法平均增加0.105,熵值比基于结构(含基于结构和内容)的方法平均减少0.955,实例分析进一步说明文中方法的可行性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-28 合作期刊: 《计算机应用研究》
摘要: 针对现有基于监督学习模型的评价对象提取方法中,多评价对象和复合词评价对象提取精度不高的问题,提出基于句法结构和依存关系的评价对象提取方法。首先,根据评价对象、情感词在句法结构中充当的不同成分,分析评价对象和情感词之间的依存关系;然后,根据不同的依存关系定义特征;最后,在条件随机场模型中,通过贪婪式特征选择方法选取最优的特征组合,进而完成评价对象提取。在COAE2011 任务三的评测数据中进行实验,结果显示,与现有的评价对象提取方法相比,F1值高出3%~6%,能够有效地识别评价对象。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-18 合作期刊: 《计算机应用研究》
摘要: 现有子空间聚类算法不能很好地平衡子空间数据的稠密性和不同子空间数据稀疏性的关系,且无法处理数据的重叠问题。针对上述问题,提出一种稀疏条件下的重叠子空间聚类(OSCSC)算法。算法利用L1范数和Frobenius范数的混合范数表示方法建立子空间表示模型,并对L1范数正则项进行加权处理,提高不同子空间的稀疏性和同一子空间的稠密性;然后对划分好的子空间使用一种服从指数族分布的重叠概率模型进行二次校验,判断不同子空间数据的重叠情况,进一步提高聚类的准确率。在人造数据集和真实数据集上分别进行测试,实验结果表明,OSCSC算法能够获得良好的聚类结果。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 针对传统聚类算法对流数据进行聚类时面临时间复杂度高,存储空间需求大以及准确度较低的问题,提出一种基于差异性采样的流数据聚类算法。首先利用差异性采样法对流数据进行采样并用样本点构造核矩阵,然后利用核模糊C均值聚类算法对核矩阵中的点进行聚类得到一个带有标记的样本核矩阵,最后利用带有标记的样本核矩阵对流数据中的点进行划分。同时利用衰退聚类机制,实时更新样本核矩阵。实验结果表明,相比于传统聚类算法,该算法实现了更低的时间复杂度,同时实时聚类,得到较为理想的聚类结果。