大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源

Research on Scale Adaptation of Text Sentiment Analysis Algorithm in Big Data Environment: Using Twitter as Data Source

作者： 余传明 ¹ 原赛 ² 王峰 ¹ 安璐 ³
作者单位：

1. 中南财经政法大学信息与安全工程学院武汉 430073

2. 中南财经政法大学统计与数学学院武汉 430073

3. 武汉大学信息管理学院武汉 430072
提交时间：2023-07-26 17:46:47

摘要: [目的/意义]以大数据环境下的文本情感分析这一特定任务为目的，对规模适配问题进行研究，为情报学领域研究人员进行大数据环境下数据分析时，实现效率和成本的最优选择提供借鉴。[方法/过程]采用斯坦福大学Sentiment140数据集，在对传统情感分析算法分析的基础上，提出了5种面向大数据的文本情感分析算法，检验各种算法在不同环境和数据规模下的适配效果，从准确性、可扩展性和效率等方面进行实证比较研究。[结果/结论]实验结果显示，本文所搭建的集群具有良好的运行效率、正确性以及可扩展性，Spark集群在处理海量文本情感分析数据时更具有效率优势，且在数据规模越大的情况下，效率优势越明显；在资源利用方面，随着节点数和核数的增加，集群的整体运行效率变化显著，配置5个4核4G内存的从节点，能够实现在高效完成分类任务的同时达到节约资源成本的效果。

规模适配大数据海量文本情感分析机器学习算法

期刊： 图书情报工作
分类： 图书馆学、情报学 >> 图书馆学
引用： ChinaXiv:202307.00585 (或此版本 ChinaXiv:202307.00585V1)
DOI:10.12074/202307.00585V1
CSTR:32003.36.ChinaXiv.202307.00585.V1
推荐引用方式： 余传明,原赛,王峰,安璐.(2023).大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源.图书情报工作.[ChinaXiv:202307.00585] (点此复制)

版本历史

[V1]

2023-07-26 17:46:47

ChinaXiv:202307.00585V1

下载全文

相关论文推荐

1. 强化故事力打造优质短视频显著提升阅读推广效果	2024-05-22
2. 英国大型阅读推广项目多元协作模式解析	2024-05-20
3. 多元协同视角下高校图书馆融合发展模式及思路	2024-05-15
4. 考虑节点间强弱关系的突发事件信息传播网络分析	2024-05-15
5. 科技赋能非遗转化与发展路径研究	2024-05-15
6. 情绪因素影响下突发公共事件网络舆情演化及政府应对研究——基于三方演化博弈视角	2024-05-15
7. 面向数字包容的农民信息获取行为分析：群体聚焦与现实关切	2024-05-15
8. 发展新质生产力的信息资源管理学科回应与思考	2024-05-15
9. 关于一个合理的公共产品决定只能来自于一个可以胜任的公共权力机关的论断是否是阿罗不可能定理的推论的文献考证	2024-05-12
10. 结合本地实际统筹做好草原牧区公共阅读推广工作思忖	2024-05-09


公开评论匿名评论仅发给作者