分类: 心理学 >> 社会心理学 提交时间: 2023-03-28 合作期刊: 《心理科学进展》
摘要: 词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系, 使用神经网络等机器学习算法自动提取有限维度的语义特征, 将每个词表示为一个低维稠密的数值向量(词向量), 以用于后续分析。心理学研究中, 词向量及其衍生的各种语义联系指标可用于探究人类的语义加工、认知判断、发散思维、社会偏见与刻板印象、社会与文化心理变迁等各类问题。未来, 基于词嵌入技术的心理学研究需要区分心理的内隐和外显成分, 深化拓展动态词向量和大型预训练语言模型(如GPT、BERT)的应用, 并在时间和空间维度建立细粒度词向量数据库, 更多开展基于词嵌入的社会变迁和跨文化研究。我们为心理学专门开发的R语言工具包PsychWordVec可以帮助研究者利用词嵌入技术开展心理学研究。
提交时间: 2023-03-25 合作期刊: 《心理科学进展》
摘要: 词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系, 使用神经网络等机器学习算法自动提取有限维度的语义特征, 将每个词表示为一个低维稠密的数值向量(词向量), 以用于后续分析。心理学研究中, 词向量及其衍生的各种语义联系指标可用于探究人类的语义加工、认知判断、发散思维、社会偏见与刻板印象、社会与文化心理变迁等各类问题。未来, 基于词嵌入技术的心理学研究需要区分心理的内隐和外显成分, 深化拓展动态词向量和大型预训练语言模型(如GPT、BERT)的应用, 并在时间和空间维度建立细粒度词向量数据库, 更多开展基于词嵌入的社会变迁和跨文化研究。我们为心理学专门开发的R语言工具包PsychWordVec可以帮助研究者利用词嵌入技术开展心理学研究。
分类: 心理学 >> 社会心理学 分类: 心理学 >> 认知心理学 分类: 心理学 >> 心理测量 分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2023-01-30
摘要: 词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系,使用神经网络等机器学习算法自动提取有限维度的语义特征,将每个词表示为一个低维稠密的数值向量(词向量),以用于后续分析。心理学研究中,词向量及其衍生的各种语义联系指标可用于探究人类的语义加工、认知判断、发散思维、社会偏见与刻板印象、社会与文化心理变迁等各类问题。未来,基于词嵌入技术的心理学研究需要区分心理的内隐和外显成分,深化拓展动态词向量和大型预训练语言模型(如GPT、BERT)的应用,并在时间和空间维度建立细粒度词向量数据库,更多开展基于词嵌入的社会变迁和跨文化研究。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】为解决已有方法中单词特征表示不具有语义信息这一问题, 对词嵌入表示特征在关系抽取中的作 用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征, 利用朴素贝叶斯模型、决策树 模型和随机森林模型进行对比实验, 并选出代表全部特征的有效特征子集。【结果】使用全部特征时, 决策树算 法的准确率达到0.48, 关系抽取效果最佳, Member-Collection( E2 , E1 )类型关系的 F1 值达到0.70, 特征排序结果表 明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高, 以及词向量训练及 方法的相关参数需要进一步优化。【结论】实验证明选取的三种类型特征的有效性, 词嵌入表示级别特征在实体 关系抽取问题中可以发挥重要作用。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程] 针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的部作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论] 实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-05-10 合作期刊: 《计算机应用研究》
摘要: 针对自然语言处理中的文本匹配问题,提出一种基于自学习文本近邻图框架的深度学习模型,以处理短文本匹配问题。文本近邻图可使用词嵌入将文本转换为向量形式,再通过构建文本相似度关系矩阵获得,可表达文本样本的近邻关系。现有方法通常构造静态的近邻图,这些方法一方面依赖先验知识,另一方面难以获得句子对的最优表示。因此,提出了利用孪生卷积神经网络学习更优的动态更新的近邻图。该模型在Quora数据集上的准确率和F1值分别是84.15%和79.88%,在MSRP数据集上的准确率和F1值分别是74.55%和81.63%。实验表明,提出的模型能有效地提高文本识别和匹配的准确率。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-17 合作期刊: 《计算机应用研究》
摘要: 在社交网络上,用户常创造一些变体词来替代部分实体名词,将这些变体词还原为原目标词是自然语言处理中的一项重要工作。针对现有变体词还原方法准确率不够高的问题,提出了基于有效上下文信息的变体词还原方法。该方法利用点互信息抽取出变体词和候选目标词的有效上下文信息,并将其融合进自编码器模型中,获得变体词和候选目标词更准确的编码,并依据此计算相似度进行候选目标词排序,更准确的实现了变体词还原任务。实验表明,该方法较当前主流的几种方法相比效果有显著提升,提高了变体词还原的准确率。