您当前的位置: > 详细浏览

大语言模型旋转位置编码的简易推导

Easy Derivation Of Rotary Position Embeddings For Large Language Models

摘要: 以 LLAMA 为代表的开源大语言模型广泛使用旋转位置编码,原始论文使用复函数推导。本文改用线性代数推导,期望更好地理解该编码方法;提出该方法的一个疑点并给出了改进建议。

Abstract: The Rotary Position Embeddings(RoPE) is widely used in open-source large language models suchas LLAMA. In the original paper, the formula derivation uses complex functions. In this Paper, I derivePoPEs formulas again with linear algebra, hoping to better understand this method.

版本历史

[V3] 2023-07-12 15:57:43 ChinaXiv:202307.00071V3 下载全文
[V2] 2023-07-11 19:26:53 ChinaXiv:202307.00071v2 查看此版本 下载全文
[V1] 2023-07-10 16:54:18 ChinaXiv:202307.00071v1 查看此版本 下载全文
点击下载全文
预览
同行评议状态
待评议
许可声明
metrics指标
  •  点击量4993
  •  下载量421
分享
邀请专家评阅