分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 针对Word2Vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与Word2Vec模型相结合,提出Word2Vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical Softmax的Word2Vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(Global ACV)和局部平均上下文词向量(Local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵。将Word2Vec-ACV模型和Word2Vec模型分别进行类比任务实验和命名实体识别任务实验,实验结果表明,Word2Vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-20 合作期刊: 《计算机应用研究》
摘要: 词向量使用低维稠密向量表示词,通过向量运算能够反映词间关系,被广泛应用于自然语言处理任务。对基于矩阵分解的词向量方法进行了研究,发现降维前相似度矩阵质量与词向量质量存在线性相关性,提出了一种基于中心化相似度矩阵的方法。该方法使得相似(不相似或弱相似)词间的相似程度相对增强(减弱)。在WS-353和RW数据集的词语相似性实验中验证了所提出方法的有效性,两个数据集下词向量质量最高提升0.2896和0.1801。中心化能够提升降维前相似度矩阵质量,进而提升词向量质量。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》
摘要: [ 目的 / 意义 ] 网络谣言严重影响网络正常信息的传播,对网络谣言进行识别有着重要的现 实意义。笔者构建一个基于微博的网络谣言敏感词库,以提高网络谣言的识别精度。[ 方法 / 过程 ] 针 对微博类社交平台短文本的特点,首先舍弃传统的分词算法,设计 LBCP 抽词算法,并结合位置信息和 改进的 TF-IDF 权重来提取敏感词库的种子词集,然后通过聚类算法将种子词的近义词补充到词库中, 再将常用的替代词也加入到词库中,从而得到最终的敏感词库。[ 结果 / 结论 ] 利用敏感词特征对谣言 进行判断,在提取微博的内容特征、用户特征、传播特征以及情感分析特征的基础上,新增敏感词特征 以后谣言识别率有明显提升,得到较好的识别效果。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》
摘要: 现有的中文自动文本摘要方法主要是利用文本自身的信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库的信息用词向量的形式融入到TextRank算法,通过TextRank与word2vec的结合,把句子中每个词语映射到高维词库形成句向量。充分考虑句子之间的相似度、关键词的覆盖率和句子与标题的相似度等因素,以此计算句子之间的影响权重,并选取排序最靠前的句子重新排序作为文本的摘要。在本文的数据集中取得了较好的效果。实验结果表明,此方法自动提取中文摘要的效果比原方法好。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank 模型, 改进单文档关键词抽取效果。【方法】利用Word2Vec 模型基于维基百科中文数据, 生成词向量模型, 对TextRank 词图节点的词向量进行聚类以调整簇内节点的投票重要性, 结合节点的覆盖和位置因素, 计算节点之间的随机跳转概率, 生成转移矩阵, 最终通过迭代计算获得节点的重要性得分, 选取前TopN 个词语生成关键词。【结果】当TopN≤7 时, 词向量聚类加权方法均优于对比方法; TopN=3 时, F 值取得最大值, 比先前最优结果增量提升了3.374%; TopN>7 时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank 模型, 改进单文档关键词抽取效果。【方法】利用Word2Vec 模型基于维基百科中文数据, 生成词向量模型, 对TextRank 词图节点的词向量进行聚类以调整簇内节点的投票重要性, 结合节点的覆盖和位置因素, 计算节点之间的随机跳转概率, 生成转移矩阵, 最终通过迭代计算获得节点的重要性得分, 选取前TopN 个词语生成关键词。【结果】当TopN≤7 时, 词向量聚类加权方法均优于对比方法; TopN=3 时, F 值取得最大值, 比先前最优结果增量提升了3.374%; TopN>7 时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 针对目前自动问答系统在语义扩展方面存在的缺陷,提出一种基于词向量的语义扩展技术,设计并实现一个图书馆的智能咨询系统。[方法/过程] 使用基于Word2vec词向量语义扩展技术结合中文分词、共现词匹配技术设计智能问答引擎,结合协同办公的管理理念,实现图书馆智能咨询系统的构建,并对系统的运行数据进行统计分析。[结果/结论] 该系统在工作时间、咨询效果和后台管理上较好地满足设计需求,为图书馆智能化信息咨询系统建设提供参考。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-03-13 合作期刊: 《计算机应用研究》
摘要: 为了解决传统抽象式摘要模型生成的中文摘要难以保存原文本语义信息的问题,提出了一种融合语言特征的抽象式中文摘要模型。模型中添加了拼接层,将词性、命名实体、词汇位置、TF-IDF等特征拼接到词向量上,使输入模型的词向量包含更多的维度的语义信息来确定关键实体。结合指针机制有选择地复制原文中的关键词到摘要中,从而提高生成的摘要的语义相关性。使用LCSTS新闻数据集进行实验,取得了高于基线模型的ROUGE得分。分析表明本模型能够生成语义相关度较高的中文摘要。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 在传统的文本分类中,文本向量空间矩阵存在“维数灾难”和极度稀疏等问题,而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究,提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型;然后通过TextRank获得每一类文本的关键词,在关键词集合中进行去重操作作为特征集合。对于任意特征,通过词向量模型计算短文本中每个词与该特征的相似度,选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机SVM作为分类器训练算法。实验基于中文新闻标题数据集,与传统的短文本分类方法相比,分类效果平均提升约6%,从而验证了该框架的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 旅游在线评论情感分析的基础是情感词典的构建。在领域情感词典构建过程中,通常仅使用词频作为筛选种子词集的标准,而并未考虑其内部词语的关联程度,这会导致种子词集聚类效果不明显,进而影响情感词语归类精度。因此,基于词向量模型,提出一种情感词典种子词集筛选方法。该方法将情感词语以向量形式表征并计算词向量间距离,形成种子词集的筛选标准和分类依据,再通过类别判断形成在线评论的情感词典。最后,构建了山岳型旅游景区在线评论情感词典,并通过对比实验验证了方法的有效性,对提高情感词语归类精度和旅游在线评论情感词典的构建起到了积极的作用。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征, 并且通过词向量计算词汇之间的相似度, 进而对TextRank 算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配, 并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec 与TextRank 的有效融合, 且当训练文档集词汇分布合理时, 关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练, 获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系, 提升单文档的关键词抽取准确性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 针对词汇语义的差异性对TextRank算法的影响进行了研究,提出一种基于词向量与TextRank的关键词抽取方法。首先,利用FastText将文档集进行词向量表征;其次,基于隐含主题分布思想和利用词汇间语义性的差异,构建TextRank的转移概率矩阵;最后,进行词图的迭代计算和关键词抽取。实验结果表明,该方法的抽取效果相比于传统方法有明显提升,同时证明利用词向量能简单而有效的改善TextRank算法的性能。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》
摘要: [ 目的 / 意义 ] 对已有的文本表示、分类算法进行组合,遴选一种复杂度低、训练时间少的组合 方式,构建商品评论情感文本分类的优化模型。[ 方法 / 过程 ] 以 Keras API 为应用环境,将 Word2vec 词 向量输入 Embedding 嵌入层,依据句子词索引序列,通过控制 trainable 参数实现 3 种商品评论的文本表示; 将不同的文本表示分别与不同分类算法进行匹配,分析分类效果差异,确立较优算法组合。[ 结果 / 结论 ] Word2vec词向量输入Embedding嵌入层继续训练的文本表示方法,结合TextCNN算法训练获得的分类模型, 在商品评论测试集上分类效果表现较好,准确率和ROC曲线面积AUC值分别为94.02%、0.982 7。应用表明, 分类模型能较好实现商品评论的情感分类,有较好的分类泛化能力。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】针对短文本主题聚焦性差以及严重的特征稀疏问题, 设计一种基于词向量与LDA 主题模型相融合的短文本分类方法。【方法】从“词”粒度及“文本”粒度层面同时对短文本进行精细语义建模, 首先基于Word2Vec 训练词向量并通过相加平均法合成“词”粒度层面的短文本向量, 基于吉布斯采样法训练LDA 主题模型并根据主题概率最大原则对短文本进行特征扩展, 然后基于词向量相似度计算扩展特征权重得到“文本”粒度层面的短文本向量, 最后通过向量拼接构建词向量与LDA 相融合的短文本表示模型, 在此基础上通过最近邻分类算法完成短文本分类。【结果】相比传统的基于向量空间模型、基于词向量、基于LDA 主题模型这三种基于单一模型的分类方法, 词向量与LDA 相融合的分类方法准确率、召回率、F1 值均有提升, 分别至少提升3.7%,4.1%和3.9%。【局限】仅应用于最近邻分类器, 尚未推广应用到朴素贝叶斯和支持向量机等多种不同的分类器。【结论】基于词向量与LDA 相融合的短文本表示模型进行分类, 能有效克服短文本的主题聚焦性差及特征稀疏性问题, 提高短文本分类性能。
分类: 心理学 >> 社会心理学 提交时间: 2023-03-28 合作期刊: 《心理科学进展》
摘要: 词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系, 使用神经网络等机器学习算法自动提取有限维度的语义特征, 将每个词表示为一个低维稠密的数值向量(词向量), 以用于后续分析。心理学研究中, 词向量及其衍生的各种语义联系指标可用于探究人类的语义加工、认知判断、发散思维、社会偏见与刻板印象、社会与文化心理变迁等各类问题。未来, 基于词嵌入技术的心理学研究需要区分心理的内隐和外显成分, 深化拓展动态词向量和大型预训练语言模型(如GPT、BERT)的应用, 并在时间和空间维度建立细粒度词向量数据库, 更多开展基于词嵌入的社会变迁和跨文化研究。我们为心理学专门开发的R语言工具包PsychWordVec可以帮助研究者利用词嵌入技术开展心理学研究。
提交时间: 2023-03-25 合作期刊: 《心理科学进展》
摘要: 词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系, 使用神经网络等机器学习算法自动提取有限维度的语义特征, 将每个词表示为一个低维稠密的数值向量(词向量), 以用于后续分析。心理学研究中, 词向量及其衍生的各种语义联系指标可用于探究人类的语义加工、认知判断、发散思维、社会偏见与刻板印象、社会与文化心理变迁等各类问题。未来, 基于词嵌入技术的心理学研究需要区分心理的内隐和外显成分, 深化拓展动态词向量和大型预训练语言模型(如GPT、BERT)的应用, 并在时间和空间维度建立细粒度词向量数据库, 更多开展基于词嵌入的社会变迁和跨文化研究。我们为心理学专门开发的R语言工具包PsychWordVec可以帮助研究者利用词嵌入技术开展心理学研究。
分类: 心理学 >> 社会心理学 分类: 心理学 >> 认知心理学 分类: 心理学 >> 心理测量 分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2023-01-30
摘要: 词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系,使用神经网络等机器学习算法自动提取有限维度的语义特征,将每个词表示为一个低维稠密的数值向量(词向量),以用于后续分析。心理学研究中,词向量及其衍生的各种语义联系指标可用于探究人类的语义加工、认知判断、发散思维、社会偏见与刻板印象、社会与文化心理变迁等各类问题。未来,基于词嵌入技术的心理学研究需要区分心理的内隐和外显成分,深化拓展动态词向量和大型预训练语言模型(如GPT、BERT)的应用,并在时间和空间维度建立细粒度词向量数据库,更多开展基于词嵌入的社会变迁和跨文化研究。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-24 合作期刊: 《计算机应用研究》
摘要: 为充分利用文本内容的上下文信息,结合图模型及查询向量的构建方法,提出一种融合查询内容信息的个性化引文推荐方法。通过三种论文信息构建三层图模型,并在不同层上设置不同参数,调整节点向不同层次的跳转概率;利用word2vec技术构建的查询向量,可以有效利用文本上下文内容信息,使相似的文章在距离上更加接近,进而对候选文章进行评分预测与论文推荐。在Association of Computational Linguistics Anthology Network数据集上进行计算分析,相同查询下与原有的方法相比在recall@N上平均提高约7%,在NDCG@N上平均提高约11%。实验结果表明该方法可以使引文推荐的质量得到有效的提升,能够获得较好的推荐效果。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》
摘要: [目的/意义]微博评论情感分类模型可以为相关舆情监管部门正确管控话题事件的发展状况和舆情提供一定的指导作用。[方法/过程]基于字词向量的多尺度卷积神经网络,运用多尺度卷积核改善微博评论中上下文信息有限的条件制约,构建基于字词向量的多尺度卷积神经网络微博评论情感分类模型;通过爬取微博热搜整改数据,对模型的可行性和优越性进行验证。[结果/结论]验证结果表明基于字词向量的多尺度卷积神经网络在微博舆情等上下文信息有限的短文本分类任务中表现良好。本文在理论层面为微博舆情情感分类提供了更为准确的情感分类理论模型及分类方法,在实践层面可以更好地指导舆情监管部门对舆情的情感倾向进行更好的引导和监管。