在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

RoPE可能是LLM時代的Resnet

因為和蘇神做過一段時間同事，所以2021年就知道RoPE了，當時也沒太在意，因為位置編碼是在為transformer類模型提供位置信息，在我實際實驗中不同位置編碼對最終效果差別很小。

2023年LLM大爆發，facebook開源了LLAMA模型，并且采用了RoPE，我也第一時間用上了LLAMA，那會感覺RoPE有點東西，但是還是心理覺得位置編碼沒那么重要。

直到最近fb發了一篇文章《EXTENDING CONTEXT WINDOW OF LARGE LANGUAGE MODELS VIA POSITION INTERPOLATION》通過線性插值+少量微調的方式將LLAMA原始2k的模型輕松拓展到了32k，這時候我感覺到RoPE的強大之處。

進NLP群—>加入NLP交流群

通過線性插值RoPE擴張LLAMA context長度最早其實是在llamacpp項目中被人發現，有人在推理的時候直接通過線性插值將LLAMA由2k拓展到4k，性能沒有下降，引起了很多人關注。fb的論文給這個發現提供了理論和實驗支撐，進一步發現通過線性插值+微調可以擴展到32k長度。實現非常簡單，只需要對位置編碼進行線性插值，初始化的時候增加幾行代碼就行：

defRotaryEmbedding(torch.nn.Module):
def__init__(self,dim,max_position_embeddings=2048,base=10000,device=None):
super().__init__()
inv_freq=1.0/(base**(torch.arange(0,dim,2).float().to(device)/dim))
self.register_buffer("inv_freq",inv_freq)

max_position_embeddings=8192

#Buildheretomake`torch.jit.trace`work.
self.max_seq_len_cached=max_position_embeddings
t=torch.arange(
self.max_seq_len_cached,
device=self.inv_freq.device,
dtype=self.inv_freq.dtype,
)

self.scale=1/4
t*=self.scale

freqs=torch.einsum("i,j->ij",t,self.inv_freq)
#Differentfrompaper,butitusesadifferentpermutationinordertoobtainthesamecalculation
emb=torch.cat((freqs,freqs),dim=-1)
self.register_buffer(
"cos_cached",emb.cos()[None,None,:,:],persistent=False
)
self.register_buffer(
"sin_cached",emb.sin()[None,None,:,:],persistent=False
)

這兩天reddit上又出現了ntk RoPE，通過引入新的插值的scale，來擴展context，甚至微調都不需要！讓人震撼。實現也是極其簡單：

importtransformers

old_init=transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__
defntk_scaled_init(self,dim,max_position_embeddings=2048,base=10000,device=None):

#Themethodisjustthesethreelines
max_position_embeddings=16384
a=8#Alphavalue
base=base*a**(dim/(dim-2))#Basechangeformula

old_init(self,dim,max_position_embeddings,base,device)


transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__=ntk_scaled_init

具體解釋可以參考蘇神自己寫的文章^[1]。

為什么說RoPE會成為LLM時代的Resnet，首先是兩者解決的問題有相似性。

Resnet解決了卷積模型變深之后梯度消失的問題，使的深度模型大放光彩。

RoPE類似的也解決了LLM context過長之后引起的上下文無法關聯問題。

兩者都有結構簡單，方法有效的優點，這個在工程上有極大的優勢，個人預感RoPE將會被大規模采用。如同當年Resnet一樣。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
3279

瀏覽量
48980
resnet

resnet

+關注

關注
0

文章
12

瀏覽量
3176
LLM

LLM

+關注

關注
0

文章
297

瀏覽量
359

原文標題：RoPE可能是LLM時代的Resnet

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

labview中while循環不執行可能是什么原因

請教一下，labvlew中while循環不執行可能是什么原因？

發表于 05-13 18:29

IPv6協議棧中AH可能是和諧的嗎

在IPv6協議棧中，AH可能是和諧的嗎？如果你使用的是MZ芯片上的密碼？隨著最近基于物聯網的攻擊，安全性成為了一個大話題。

發表于 04-26 09:28

這個三腳的元器件可能是什么東西

這個三腳的東西可能是什么，在電路板上是個很小的元件，一開始猜是個穩壓管，但是上側的二極管和電阻說不通

發表于 05-15 20:33

5G難改手機市場格局更大的可能是強者恒強

4G時代國內手機市場形成了華米歐維新四大，有人認為5G時代的到來或將如4G時代一樣導致國內智能手機市場的變局，不過筆者認為這種可能性不大，更大的可能

發表于 07-30 10:10 ?3084次閱讀

移動空間可能是Microsoft面臨的最大問題之一

移動空間可能是Microsoft面臨的最大問題之一。該公司的Windows Mobile平臺仍在由創新的觸摸屏平臺（如Apple的iOS和Google的Android操作系統）主導的市場中苦苦掙扎。

發表于 04-16 14:51 ?2796次閱讀

單片機程序死機，可能是這幾個原因

單片機程序死機，可能是這幾個原因

發表于 06-19 17:18 ?8945次閱讀

基于ResNet的手勢識別邊緣計算項目

電子發燒友網站提供《基于ResNet的手勢識別邊緣計算項目.zip》資料免費下載

發表于 06-14 14:53 ?0次下載

PLC指示燈異常閃爍可能是哪些原因造成的？

PLC指示燈異常閃爍可能是由多種原因造成的。以下是一些常見的可能原因

發表于 12-05 09:03 ?1.6w次閱讀

英特爾攜手騰訊云用CPU打造LLM時代數據中樞，共筑AGI基建

英特爾攜手騰訊云用CPU打造LLM時代數據中樞，共筑AGI基建

發表于 05-27 11:53 ?549次閱讀

什么是LLM？LLM的工作原理和結構

隨著人工智能技術的飛速發展，大型語言模型（Large Language Model，簡稱LLM）逐漸成為自然語言處理（NLP）領域的研究熱點。LLM以其強大的文本生成、理解和推理能力，在文本

發表于 07-02 11:45 ?8308次閱讀

LLM模型的應用領域

在本文中，我們將深入探討LLM（Large Language Model，大型語言模型）的應用領域。LLM是一種基于深度學習的人工智能技術，它能夠理解和生成自然語言文本。近年來，隨著計算能力的提高

發表于 07-09 09:52 ?658次閱讀

什么是LLM？LLM在自然語言處理中的應用

隨著人工智能技術的飛速發展，自然語言處理（NLP）領域迎來了革命性的進步。其中，大型語言模型（LLM）的出現，標志著我們對語言理解能力的一次飛躍。LLM通過深度學習和海量數據訓練，使得機器能夠以前

發表于 11-19 15:32 ?752次閱讀

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學習和實踐經驗

精選推薦
更多

文章

資料

帖子

崖州灣之旅：看見海與智能，聯想到了未來

腦極體
11小時前

393 閱讀

使用TFTP加載內核設備樹

迅為電子
12小時前

232 閱讀

利用西門子EDA工具進行SafeSPI功能安全驗證

西門子EDA
12小時前

258 閱讀

LVGL前臺程序開發相關操作

瑞薩MCU小百科
15小時前

285 閱讀

如何在STM32CubeMX中集成Flexible Safety RTOS

麥克泰技術
16小時前

312 閱讀

燈箱定時控制器電路圖

賈飛世
2

10積分

1882下載

基于Adaboost權值更新以及K-L 距離的特征選擇算法

youyoulan
2.74 MB

5積分

36下載

基于ADP1851-EVALZ直流到直流單輸出電源的參考設計

王剛
1.14MB

2積分

6下載

基于開源項目Piasy/RxAndroid音頻進行的ohos移植和開發

姚小熊27
0.29 MB

免費

10下載

PHPLOC測量PHP項目大小和分析結構

李燕
0.02 MB

免費

0下載

徐工講單片機1--學習單片機可以速成嗎？

jf_75754588
1天前

229 閱讀

用分立器件搭建LDO電路

jf_84115621
1天前

246 閱讀

這個電路的作用是什么？USBDPU和STM_USBDP是什么關系？

硬件工程師1
1天前

255 閱讀

恒壓電源給氣味傳感器供電問題？

天地直方
1天前

245 閱讀

迅為RK3568開發板篇OpenHarmony實操HDF驅動控制LED-編寫內核 LED HDF 驅動程序

jf_23361246
1天前

341 閱讀

推薦專欄
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

RoPE可能是LLM時代的Resnet

評論

labview中while循環不執行可能是什么原因

請問這個可能是什么IC

IPv6協議棧中AH可能是和諧的嗎

基于resnet10+ssd的虹膜檢測方式

這個三腳的元器件可能是什么東西

伺服電機異響可能是哪方面的原因？

5G難改手機市場格局更大的可能是強者恒強

移動空間可能是Microsoft面臨的最大問題之一

單片機程序死機，可能是這幾個原因

基于ResNet的手勢識別邊緣計算項目

PLC指示燈異常閃爍可能是哪些原因造成的？

英特爾攜手騰訊云用CPU打造LLM時代數據中樞，共筑AGI基建

什么是LLM？LLM的工作原理和結構

LLM模型的應用領域

什么是LLM？LLM在自然語言處理中的應用