ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2023
1

按主题分类

自然语言理解与机器翻译
1

按作者

何沧平
1

按机构

微博，北京市西北旺东路10号院西区8号楼，邮编100193
1

当前资源共 1条

隐藏摘要

点击量

时间

您选择的条件: 微博，北京市西北旺东路10号院西区8号楼，邮编100193

1. ChinaXiv:202401.00033
下载全文

不会一直下降的大模型交叉熵

分类：计算机科学 >> 自然语言理解与机器翻译提交时间： 2023-12-17

何沧平

摘要：训练大语言模型时，损失函数值会一直下降，难于确定最佳停止时机。本文设计了一个定长交叉熵，使得模型损失不会一直下降，在模型充分训练以后就保持不变，便于选择训练停止时间，节省训练成本。

同行评议状态:待评议

点击量 499 下载量 107 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募预印本评审专家许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心