在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

RoPE可能是LLM時代的Resnet

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-07-14 16:58 ? 次閱讀

因為和蘇神做過一段時間同事,所以2021年就知道RoPE了,當時也沒太在意,因為位置編碼是在為transformer類模型提供位置信息,在我實際實驗中不同位置編碼對最終效果差別很小。

2023年LLM大爆發,facebook開源了LLAMA模型,并且采用了RoPE,我也第一時間用上了LLAMA,那會感覺RoPE有點東西,但是還是心理覺得位置編碼沒那么重要

直到最近fb發了一篇文章《EXTENDING CONTEXT WINDOW OF LARGE LANGUAGE MODELS VIA POSITION INTERPOLATION》通過線性插值+少量微調的方式將LLAMA原始2k的模型輕松拓展到了32k,這時候我感覺到RoPE的強大之處。

進NLP群—>加入NLP交流群

通過線性插值RoPE擴張LLAMA context長度最早其實是在llamacpp項目中被人發現,有人在推理的時候直接通過線性插值將LLAMA由2k拓展到4k,性能沒有下降,引起了很多人關注。fb的論文給這個發現提供了理論和實驗支撐,進一步發現通過線性插值+微調可以擴展到32k長度。實現非常簡單,只需要對位置編碼進行線性插值,初始化的時候增加幾行代碼就行

defRotaryEmbedding(torch.nn.Module):
def__init__(self,dim,max_position_embeddings=2048,base=10000,device=None):
super().__init__()
inv_freq=1.0/(base**(torch.arange(0,dim,2).float().to(device)/dim))
self.register_buffer("inv_freq",inv_freq)

max_position_embeddings=8192

#Buildheretomake`torch.jit.trace`work.
self.max_seq_len_cached=max_position_embeddings
t=torch.arange(
self.max_seq_len_cached,
device=self.inv_freq.device,
dtype=self.inv_freq.dtype,
)

self.scale=1/4
t*=self.scale

freqs=torch.einsum("i,j->ij",t,self.inv_freq)
#Differentfrompaper,butitusesadifferentpermutationinordertoobtainthesamecalculation
emb=torch.cat((freqs,freqs),dim=-1)
self.register_buffer(
"cos_cached",emb.cos()[None,None,:,:],persistent=False
)
self.register_buffer(
"sin_cached",emb.sin()[None,None,:,:],persistent=False
)

這兩天reddit上又出現了ntk RoPE通過引入新的插值的scale,來擴展context,甚至微調都不需要!讓人震撼。實現也是極其簡單

importtransformers

old_init=transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__
defntk_scaled_init(self,dim,max_position_embeddings=2048,base=10000,device=None):

#Themethodisjustthesethreelines
max_position_embeddings=16384
a=8#Alphavalue
base=base*a**(dim/(dim-2))#Basechangeformula

old_init(self,dim,max_position_embeddings,base,device)


transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__=ntk_scaled_init

具體解釋可以參考蘇神自己寫的文章[1]

為什么說RoPE會成為LLM時代的Resnet,首先是兩者解決的問題有相似性。

Resnet解決了卷積模型變深之后梯度消失的問題,使的深度模型大放光彩。

RoPE類似的也解決了LLM context過長之后引起的上下文無法關聯問題。

兩者都有結構簡單,方法有效的優點,這個在工程上有極大的優勢,個人預感RoPE將會被大規模采用。如同當年Resnet一樣。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3279

    瀏覽量

    48980
  • resnet
    +關注

    關注

    0

    文章

    12

    瀏覽量

    3176
  • LLM
    LLM
    +關注

    關注

    0

    文章

    297

    瀏覽量

    359

原文標題:RoPE可能是LLM時代的Resnet

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    labview中while循環不執行可能是什么原因

    請教一下,labvlew中while循環不執行可能是什么原因?
    發表于 05-13 18:29

    請問這個可能是什么IC

    請問這個可能是什么IC
    發表于 02-15 10:23

    IPv6協議棧中AH可能是和諧的嗎

    在IPv6協議棧中,AH可能是和諧的嗎?如果你使用的是MZ芯片上的密碼?隨著最近基于物聯網的攻擊,安全性成為了一個大話題。
    發表于 04-26 09:28

    基于resnet10+ssd的虹膜檢測方式

    基于resnet10+ssd的虹膜檢測
    發表于 05-01 15:17

    這個三腳的元器件可能是什么東西

    這個三腳的東西可能是什么,在電路板上是個很小的元件,一開始猜是個穩壓管,但是上側的二極管和電阻說不通
    發表于 05-15 20:33

    伺服電機異響可能是哪方面的原因?

    伺服電機異響可能是哪方面的原因?
    發表于 11-15 07:02

    5G難改手機市場格局 更大的可能是強者恒強

    4G時代國內手機市場形成了華米歐維新四大,有人認為5G時代的到來或將如4G時代一樣導致國內智能手機市場的變局,不過筆者認為這種可能性不大,更大的可能
    的頭像 發表于 07-30 10:10 ?3084次閱讀

    移動空間可能是Microsoft面臨的最大問題之一

    移動空間可能是Microsoft面臨的最大問題之一。該公司的Windows Mobile平臺仍在由創新的觸摸屏平臺(如Apple的iOS和Google的Android操作系統)主導的市場中苦苦掙扎。
    的頭像 發表于 04-16 14:51 ?2796次閱讀

    單片機程序死機,可能是這幾個原因

    單片機程序死機,可能是這幾個原因
    的頭像 發表于 06-19 17:18 ?8945次閱讀
    單片機程序死機,<b class='flag-5'>可能是</b>這幾個原因

    基于ResNet的手勢識別邊緣計算項目

    電子發燒友網站提供《基于ResNet的手勢識別邊緣計算項目.zip》資料免費下載
    發表于 06-14 14:53 ?0次下載
    基于<b class='flag-5'>ResNet</b>的手勢識別邊緣計算項目

    PLC指示燈異常閃爍可能是哪些原因造成的?

    PLC指示燈異常閃爍可能是由多種原因造成的。以下是一些常見的可能原因
    的頭像 發表于 12-05 09:03 ?1.6w次閱讀

    英特爾攜手騰訊云用CPU打造LLM時代數據中樞,共筑AGI基建

    英特爾攜手騰訊云用CPU打造LLM時代數據中樞,共筑AGI基建
    的頭像 發表于 05-27 11:53 ?549次閱讀
    英特爾攜手騰訊云用CPU打造<b class='flag-5'>LLM</b><b class='flag-5'>時代</b>數據中樞,共筑AGI基建

    什么是LLMLLM的工作原理和結構

    隨著人工智能技術的飛速發展,大型語言模型(Large Language Model,簡稱LLM)逐漸成為自然語言處理(NLP)領域的研究熱點。LLM以其強大的文本生成、理解和推理能力,在文本
    的頭像 發表于 07-02 11:45 ?8308次閱讀

    LLM模型的應用領域

    在本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應用領域。LLM是一種基于深度學習的人工智能技術,它能夠理解和生成自然語言文本。近年來,隨著計算能力的提高
    的頭像 發表于 07-09 09:52 ?658次閱讀

    什么是LLMLLM在自然語言處理中的應用

    隨著人工智能技術的飛速發展,自然語言處理(NLP)領域迎來了革命性的進步。其中,大型語言模型(LLM)的出現,標志著我們對語言理解能力的一次飛躍。LLM通過深度學習和海量數據訓練,使得機器能夠以前
    的頭像 發表于 11-19 15:32 ?752次閱讀
    主站蜘蛛池模板: 色在线网站免费观看| 亚洲小便| 亚洲综合图片人成综合网| 天天舔天天操天天干| 九九九色| 日本色婷婷| 新版天堂中文网| 韩国美女丝袜一区二区| 国产99久9在线视频| 天天操天天拍| 99青草| 黄色亚洲| 久久涩综合| 欧美激情亚洲精品日韩1区2区| 四虎在线永久视频观看| 资源在线www天堂| 性视频网址| 亚洲一区免费在线| 久久性生活| 久久精品视频热| 伊人久久大香线蕉资源| 狠狠色噜噜狠狠狠狠97影音先锋| 在线播放黄色| 一级在线观看| 色综合久久天天综合绕观看| 日本黄色电影在线| 青草悠悠视频在线观看| 日本午夜大片| 精品一级毛片| 在线观看高清免费播放| 222www免费观看| www.色亚洲| cijilu刺激 国产免费的| 五月天婷婷影院| 天天天色综合| www.夜夜| 国产h在线| 一区二区三区高清| 五月婷婷免费视频| 两性色午夜视频免费播放| 久久久久久噜噜噜久久久精品|