您选择的条件: 赵志枭
  • 人文社科领域中文通用大模型性能评测

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2024-05-08

    摘要: 目的/意义 本文以人文社科领域为出发点,从人文社科领域基础知识与人文社科学术文本两个方面入手进行人文社科领域模型性能比对。旨在为人文社科领域提供一份体系化的大模型评测基准,供人文社科相关领域研究人员参考。 方法/过程 设计了7个人文社科领域相关的评测任务并选取对应指标,在此基础上,选取了当前开源且性能较优的通用领域中文大模型,通过调用本地模型以问答形式完成领域化任务,并选取相关指标对其在人文社科领域的性能进行了量化评测。 结果/结论 评测结果表明,在本文选取的开源模型中,无论是基座模型还是对话模型,Qwen性能最优,Baichuan2紧随其后,InternLM次之,Atom表现最差,此外,大多数情况下,相较于基座模型,对话模型表现出了更加优越的性能。