首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

一文看懂 LLaMA 中的旋转式位置编码(Rotary Position Embedding)

接着在做 self-attention 之前,会用词嵌入向量计算 q, k, v 向量同时加入位置信息,函数公式表达如下: \begin{aligned} q_m=f_q(x_m,m) \\ k_n=f_k...(x_n,n) \\ v_n=f_v(x_n,n) \end{aligned} 其中 qm 表示第 m 个 token 对应的词向量 xm 集成位置信息 m 之后的 query 向量。...假定现在词嵌入向量的维度是两维 d=2,这样就可以利用上2维度平面上的向量的几何性质,然后论文中提出了一个满足上述关系的 f 和 g 的形式如下: \begin{aligned} f_q(x_m,m)=...则上述 f 和 g 公式中的 \begin{aligned} e^{im\theta}=\cos (m\theta) + i\sin (m\theta) \\ e^{in\theta}=\cos (n...} z=a+ib\\ z^*=a-ib \end{aligned} 所以可得: \begin{aligned} W_qx_m = q_m = q_m^{(1)} + iq_m^{(2)} \\ W_kx_n

1.6K50
领券
http://www.vxiaotou.com