分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2023-12-17
摘要: 训练大语言模型时,损失函数值会一直下降,难于确定最佳停止时机。本文设计了一个定长交叉熵,使得模型损失不会一直下降,在模型充分训练以后就保持不变,便于选择训练停止时间,节省训练成本。
同行评议状态:待评议