分类: 心理学 >> 应用心理学 分类: 计算机科学 >> 计算机应用技术 提交时间: 2019-12-20
摘要: [背景]LIWC(基于语词计量的文本分析)以关键词的词频统计为基础,可对个体和群体的表达语句的心理学意义等方面进行量化分析。由于文言文的表达方式与现代汉语存在明显的差异,为了分析文言文文本的心理学意义,我们在简体中文LIWC词典(Simplified Chinese LIWC 2015年版本, 简称SC-LIWC)的基础上,构建了古文LIWC(Classical Chinese LIWC,以下简称CC-LIWC)词典。[目的]本研究的目的是探究如何构建CC-LIWC词典并介绍如何使用该词典对古文文本进行分析。[方法]获取在线汉语词典的全部词汇及其对应解释,保留文言文词及其现代文译文,并从译文中寻找SC-LIWC词,将SC-LIWC词与文言文词进行匹配。对匹配结果进行人工标注,确保结果的一致性与准确性。[结果]最终生成的CC-LIWC包含了81个词类与49136个文言文词条。[局限]古文中一词多义、一词多性的情况较为普遍,对词典中词汇的分类存在一定影响。[结论]使用CC-LIWC对《论语(节选)》、《孤愤》进行词频分析,分析结果体现了儒家的中庸与法家的注重逻辑辩证的区别,说明CC-LIWC词典能够有效区分文本的表达倾向。
分类: 心理学 >> 心理测量 提交时间: 2019-11-03
摘要: 本研究基于道德基础理论,对Graham等人(2009)编制的道德词典进行了中文修订。按照“德行”和“罪行”两个方面,将道德的五个基础(关爱、公平、忠诚、权威、圣洁)分为10个纬度,并探讨了各纬度之间的相关性。研究结果表明,修订过的中文版道德词典具有良好的信度,且10个道德纬度之间呈中等程度相关。本研究为道德领域的相关研究提供了本土研究工具,但未来还要对道德词典10个纬度的因子结构和效标效度进行检验。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】提出一种基于情感分析技术自动识别特定领域谣言的方法。【方法】界定高、低质量信息源, 在 假设高质量信息源信息更可靠的情况下, 通过基于情感词典的情感分析方法, 量化高质量信息源与低质量信息 源对特定对象的情感差异, 判定低质量信息源提供的信息是否属于谣言。【结果】将该方法应用于“食品养生”、 “医学健康”两个领域进行谣言识别。在 30 个疑似谣言案例中准确识别出 23 个谣言案例, 准确率为 76.67%。 本文提出的谣言识别方法在谣言预测方面的 F 值为 83.34%, 查全率为 71.42%, 查准率为 100%; 在非谣言文本预测 上的 F 值为 72.73%, 查全率为 100%, 查准率为 57.14%。【局限】未实现不同信息源数据自动抽取, 每个谣言案例 下的人工收集的谣言数量有限。【结论】本文基于情感分析的谣言识别方法对特定类型的谣言是有效的。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》
摘要: 【目的】提出一种基于情感分析技术自动识别特定领域谣言的方法。【方法】界定高、低质量信息源, 在 假设高质量信息源信息更可靠的情况下, 通过基于情感词典的情感分析方法, 量化高质量信息源与低质量信息 源对特定对象的情感差异, 判定低质量信息源提供的信息是否属于谣言。【结果】将该方法应用于“食品养生”、 “医学健康”两个领域进行谣言识别。在 30 个疑似谣言案例中准确识别出 23 个谣言案例, 准确率为 76.67%。 本文提出的谣言识别方法在谣言预测方面的 F 值为 83.34%, 查全率为 71.42%, 查准率为 100%; 在非谣言文本预测 上的 F 值为 72.73%, 查全率为 100%, 查准率为 57.14%。【局限】未实现不同信息源数据自动抽取, 每个谣言案例 下的人工收集的谣言数量有限。【结论】本文基于情感分析的谣言识别方法对特定类型的谣言是有效的。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】通过对网络游记进行情感分析, 发现游客对旅游地情感倾向的时间分布规律。【应用背景】越来越多人通过浏览大量网络游记来收集信息, 制定旅游计划。网络游记成为旅游者搭配旅游地及出游时间的重要参考内容, 也为商家提供了商机。【方法】提出面向网络游记时间特征的情感分析模型, 分析游客情感的时间变化规律。该模型包括5 个模块: 网络游记文本内容及旅游时间数据的采集、游记文本预处理、情感标注、按时间段统计游记情感特征分值、游记情感时间特征分析。并从网络抓取4 种类型旅游地游记对模型进行实验。【结果】在7类情感中, [好]的情感均值在各旅游地的各月份中总是远高于其他情感, 较为稳定; [好]、[乐]和[恶]在不同月份的波动程度较大; 情感随时间的波动与相应游记数量并不相关, 即传统的旅游地旺季和淡季的划分与游客的实际情感体验并不相关。【结论】该模型能够有效地反映旅游地的游客情感随时间变化的波动, 进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】通过对网络游记进行情感分析, 发现游客对旅游地情感倾向的时间分布规律。【应用背景】越来越多人通过浏览大量网络游记来收集信息, 制定旅游计划。网络游记成为旅游者搭配旅游地及出游时间的重要参考内容, 也为商家提供了商机。【方法】提出面向网络游记时间特征的情感分析模型, 分析游客情感的时间变化规律。该模型包括5 个模块: 网络游记文本内容及旅游时间数据的采集、游记文本预处理、情感标注、按时间段统计游记情感特征分值、游记情感时间特征分析。并从网络抓取4 种类型旅游地游记对模型进行实验。【结果】在7类情感中, [好]的情感均值在各旅游地的各月份中总是远高于其他情感, 较为稳定; [好]、[乐]和[恶]在不同月份的波动程度较大; 情感随时间的波动与相应游记数量并不相关, 即传统的旅游地旺季和淡季的划分与游客的实际情感体验并不相关。【结论】该模型能够有效地反映旅游地的游客情感随时间变化的波动, 进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。
分类: 计算机科学 >> 计算机应用技术 提交时间: 2017-03-09
摘要: 如何对大规模富含情感信息的文本进行倾向性分析是当前web应用一个亟待解决的问题。本文在分析目前国内外情感倾向性分析研究现状的基础上,介绍了我们为进行中文情感倾向性分析所构建的语料集及开发的实验平台,然后重点介绍我们的工作,包括整篇文本的倾向性分析、领域情感词典构建、跨领域情感倾向性分析等方面的关键技术,从而通过不同角度提高文本倾向性分析精度。最后总结了我们已有的工作,并展望下一步我们将深入开展的研究工作。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 论文摘要是信息组织的重要标引对象,将论文摘要按一定结构进行标引有利于科学传播、知识发现和情报分析。如何对现有非结构式摘要进行精准快速的自动标引是亟待解决的现实问题。[方法/过程] 假定不同类别的摘要具有内在一致性,即对结构式摘要的研究可为非结构式摘要自动标引提供方法和技术参考。据此,基于美国国家医学图书馆结构要素标签术语集和标签分类映射关系,提出结构要素BOMRC体系和结构式摘要的识别与规范化标引方法。其次选取研究样本并采用文本挖掘方法对样本语料中的单词、动词、三词词块、四词词块等词汇进行词频、TFIDF值等多个指标的定量统计分析,构建能够进行结构要素识别的语义特征词典。最后利用非结构式摘要测试集进行语义特征词典有效性检验。[结果/结论] 结果显示,利用语义特征词典方法能够有效识别非结构式摘要的各类要素,并可用于优化以机器学习方法为核心的自动识别模型。
分类: 心理学 >> 社会心理学 提交时间: 2023-03-27 合作期刊: 《心理学报》
摘要: 收集在线教学平台上1306名小学生的作文、日记及评论, 采用自然语言处理技术进行文本分析, 并应用机器学习模型实现对羞怯特质的自动预测, 构建小学生羞怯行为、认知和情绪的语言风格模型。研究发现:(1)扩充的心理词典适合分析小学生文本; (2)分别存在羞怯行为、认知和情绪问题的学生其日常用语既有共性也有特性, 且与普通学生存在差异; (3)羞怯各维度在不同分类器上达到较好的预测效果, 其中随机森林模型的整体表现相对最好。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 旅游在线评论情感分析的基础是情感词典的构建。在领域情感词典构建过程中,通常仅使用词频作为筛选种子词集的标准,而并未考虑其内部词语的关联程度,这会导致种子词集聚类效果不明显,进而影响情感词语归类精度。因此,基于词向量模型,提出一种情感词典种子词集筛选方法。该方法将情感词语以向量形式表征并计算词向量间距离,形成种子词集的筛选标准和分类依据,再通过类别判断形成在线评论的情感词典。最后,构建了山岳型旅游景区在线评论情感词典,并通过对比实验验证了方法的有效性,对提高情感词语归类精度和旅游在线评论情感词典的构建起到了积极的作用。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】解决现有的票房预测模型由于数据受限等因素导致的无法实现在影片上映前进行票房预测这一问题。【方法】在获取微博评论的基础上, 使用SVM 识别出消费者的显式消费意图, 即强正面评论; 对传统的分类准则进行修正, 构建基于HowNet 的中文微博情感词典, 进而定义一个新的用户影响力特征; 使用BP 神经网络进行票房预测。【结果】实验结果表明, 本文建立的模型能够较为准确地对电影首映周票房进行预测。【局限】由于语料不充分, 本文构建的中文微博情感词典, 可能会无法在所有的电影微博评论中表现出较好的分类效果;此外也没有建立一个能够在电影上映周期内动态预测票房的票房预测模型。【结论】该模型能够有效地进行首映周票房预测, 具有现实的可行意义。
分类: 心理学 >> 社会心理学 提交时间: 2023-03-28 合作期刊: 《心理科学进展》
摘要: 电子图画书阅读是儿童使用数字媒体的重要内容。相比纸质图画书, 互动是电子图画书最重要的特征, 而词典互动则是电子图画书中最常见的互动特征之一。本文从阅读参与度、词汇习得和阅读理解三个方面, 梳理和总结词典互动对儿童电子图画书阅读的影响。梳理已有研究可见:(1)在阅读参与度上, 词典互动让电子图画书有着与纸质书相似的阅读效果, 但未能表现出明显优势, 未来研究可能需要进一步结合诸如眼动、生物反馈仪等手段对阅读参与度进行更加客观的评估; (2)在词汇习得上, 有词典互动的电子图画书能够提供类似成人伴读纸质书时的词汇互动与指导效果。与无词典互动的电子图画书相比, 词典互动能显著促进儿童的词汇习得。动态词典互动, 尤其是在呈现目标词文本的动态词典互动中, 儿童的词汇习得水平更高。词典互动能促进特殊需要儿童的词汇习得, 但对不同社会经济地位和已有词汇能力的儿童, 其效果仍有争议; (3)在阅读理解上, 词典互动的作用仍不够明确, 这可能与研究设计、阅读理解的测量方法不同有关。未来研究可从阅读内容的难度与类型、词典互动的方式与水平、儿童的个体差异等方面进一步探究词典互动的作用, 并探讨词典互动影响儿童电子图画书阅读的认知加工机制。
提交时间: 2023-03-25 合作期刊: 《心理科学进展》
摘要: 电子图画书阅读是儿童使用数字媒体的重要内容。相比纸质图画书, 互动是电子图画书最重要的特征, 而词典互动则是电子图画书中最常见的互动特征之一。本文从阅读参与度、词汇习得和阅读理解三个方面, 梳理和总结词典互动对儿童电子图画书阅读的影响。梳理已有研究可见:(1)在阅读参与度上, 词典互动让电子图画书有着与纸质书相似的阅读效果, 但未能表现出明显优势, 未来研究可能需要进一步结合诸如眼动、生物反馈仪等手段对阅读参与度进行更加客观的评估; (2)在词汇习得上, 有词典互动的电子图画书能够提供类似成人伴读纸质书时的词汇互动与指导效果。与无词典互动的电子图画书相比, 词典互动能显著促进儿童的词汇习得。动态词典互动, 尤其是在呈现目标词文本的动态词典互动中, 儿童的词汇习得水平更高。词典互动能促进特殊需要儿童的词汇习得, 但对不同社会经济地位和已有词汇能力的儿童, 其效果仍有争议; (3)在阅读理解上, 词典互动的作用仍不够明确, 这可能与研究设计、阅读理解的测量方法不同有关。未来研究可从阅读内容的难度与类型、词典互动的方式与水平、儿童的个体差异等方面进一步探究词典互动的作用, 并探讨词典互动影响儿童电子图画书阅读的认知加工机制。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】探讨中文图书评论情感词典构建方法, 以便进行用户图书评论的情感分析。【方法】参照相关研究将用户情感分为7 类, 对采集到的语料库进行分词, 结合基础情感词典得到中文图书评论的情感词集, 选取各类情感种子词; 利用改进的SO-PMI 算法和同义词词林扩展方法判别词语的情感类别; 以实际的图书评论作为语料进行实验验证。【结果】提出一种中文图书评论的情感词典构建方法, 其平均准确率、平均召回率及F1 的均值分别为0.90、0.83 和0.85。【局限】语料库小, 样本范围具有一定的局限性。【结论】实验结果表明本文方法具有较高的有效性和可靠性, 能够有效地进行用户图书评论的情感分析。
分类: 心理学 >> 应用心理学 分类: 计算机科学 >> 计算机应用技术 提交时间: 2024-02-29
摘要: 目的 随着网络大数据以及机器学习的方法的发展,越来越多研究结合文本分析与机器学习来预测满意度。在建立生活满意度预测模型的研究中,针对获取大量有效的有标注数据困难的问题,本研究提出基于文本数据增强以优化生活满意度预测模型。 方法 改编大连理工词典后,以357份生活现状描述为原始文本、生活满意度量表自评分为标注,经过EDA和回译进行文本数据增强,利用传统机器学习算法建立预测模型。 结果 结果显示,大连理工词典改编后,各模型预测能力大大提高;数据增强后,仅在线性回归模型上观察到回译和EDA的提升作用。使用原始数据进行训练的岭回归模型预测值与实际值的皮尔逊相关系数最高,达0.4131。 结论 特征提取精度的提升可优化目前的生活满意度预测模型,但对于以词频为特征建立的生活满意度预测模型,基于回译和EDA进行的文本数据增强可能并不十分适用。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 为提高新能源汽车领域术语抽取准确率,面向新能源汽车专利文本提出一种领域术语抽取模型。传统的领域术语抽取方法过度依赖人工定义特征和领域知识,无法自动挖掘隐含特征,其识别性能过度依赖所选特征的质量。因此,从深度学习的角度出发,提出了一种基于Attention的双向长短时记忆网络(bidirectional long short-term memory,BLSTM)与条件随机场(conditional random fields,CRF)相结合的领域术语抽取模型(BLSTM_Attention_CRF模型),并使用基于词典与规则相结合的方法对结果进行校正,准确率可达到86%以上,该方法切实可行。
分类: 心理学 >> 应用心理学 分类: 计算机科学 >> 计算机应用技术 提交时间: 2024-03-23
摘要: 近年来,研究者们已较为一致地认识到收入分配不平等对心理健康的影响,然而对于其内在的心理作用机制还不甚明晰。经济环境作为个体所处的宏环境,塑造着人们不同的价值观,使个体拥有不同水平的动机取向。以往研究表明,当个体能较好地协调代表“利己”的能动动机和代表“利他”的共生动机时,就会拥有相对高的道德中心性水平。道德中心性体现了内部动机系统的平衡状况,其能降低内在动机之间的冲突,促使两种动机相互支持、相互激励,帮助个体高效实现个人价值,通过寻找生活意义提高幸福感,进而减少产生心理健康问题的风险。因此,道德中心性或许在收入分配不平等对心理健康的影响中发挥了潜在中介作用。本研究希望探究收入分配不平等是如何通过影响道德中心性进而影响民众的心理健康水平,一方面丰富心理健康领域的理论基础,同时也为心理健康干预提供理论依据,有助于制定针对性的策略,以提升公众的心理福祉。借助社交媒体大数据以及自然语言处理技术,我们利用地区微博用户发布的帖子,通过心理语义词典提取代表群体道德中心性以及群体心理健康水平的词频特征,采用面板数据分析考察收入分配不平等如何通过道德中心性影响地区群体的负面情绪和自杀风险。研究结果证实了道德中心性在地区收入分配不平等对群体负性情绪/自杀风险的影响中起到了中介作用,收入分配不平等程度越高的地区往往伴随着越低的群体道德中心性水平,进而导致该地区群体的负性情绪/自杀风险增加。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 提出一种宠物知识图谱的构建框架。通过自顶向下的方式设计并构建了Schema(概念)层,从半结构化和非结构化数据中进行知识抽取构建了数据层。在对非结构化数据的实体抽取方面,提出了一种条件随机场(CRF)与宠物症状词典相结合的症状命名实体识别方法。该方法利用症状词典对文本进行识别,获取语义类别信息,CRF结合语义信息实现对症状实体的识别抽取。实验结果表明了该方法的有效性。在知识表示方面,选用OrientDB数据库支持的属性图模型来表示。知识图谱采用OrientDB图数据库来完成知识的存储,并实例展示了构建的宠物知识图谱。