在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于領域大模型-訓練Trick&落地的一點思考

深度學習自然語言處理 ? 來源:NLP工作站 ? 2023-08-09 11:43 ? 次閱讀

一、領域技術標準文檔或領域相關數據是領域模型Continue PreTrain的關鍵。

現有大模型在預訓練過程中都會加入書籍、論文等數據,那么在領域預訓練時這兩種數據其實也是必不可少的,主要是因為這些數據的數據質量較高、領域強相關、知識覆蓋率(密度)大,可以讓模型更適應考試。當然不是說其他數據不是關鍵,比如領域相關網站內容、新聞內容都是重要數據,只不過個人看來,在領域上的重要性或者知識密度不如書籍和技術標準。

二、領域數據訓練后,往往通用能力會有所下降,需要混合通用數據以緩解模型遺忘通用能力。

如果僅用領域數據進行模型訓練,模型很容易出現災難性遺忘現象,通常在領域訓練過程中加入通用數據。那么這個比例多少比較合適呢?目前還沒有一個準確的答案,BloombergGPT(從頭預訓練)預訓練金融和通用數據比例基本上為1:1,ChatHome(繼續預訓練)發現領域:通用數據比例為1:5時最優。個人感覺應該跟領域數據量有關,當數據量沒有那多時,一般數據比例在1:5到1:10之間是比較合適的。ea223e0a-3661-11ee-9e74-dac502259ad0.png

三、領域模型Continue PreTrain時可以同步加入SFT數據,即MIP,Multi-Task Instruction PreTraining。

預訓練過程中,可以加下游SFT的數據,可以讓模型在預訓練過程中就學習到更多的知識。例如:T5、ExT5、Glm-130b等多任務學習在預訓練階段可能比微調更有幫助。并且ChatHome發現MIP效果在領域上評測集上絕群。

ea3951da-3661-11ee-9e74-dac502259ad0.png

四、 僅用SFT做領域模型時,資源有限就用在Chat模型基礎上訓練,資源充足就在Base模型上訓練。(資源=數據+顯卡)

跟很多人討論過一個問題,就是我們在SFT的時候是在Base模型上訓練還是在Chat模型上訓練。

其實很簡單,如果你只有5k數據,建議你在Chat模型上進行微調;如果你有10w數據,建議你在Base模型上進行微調。因為你不知Chat模型在SFT時的數據質量如何,當自己有能力時,靠人不如靠己。

五、在Chat模型上進行SFT時,請一定遵循Chat模型原有的系統指令&數據輸入格式。

如果你在Chat模型上進行SFT的時候,請跟Chat模型的輸入格式一致,否則當你數據量不足時,可能會導致訓練效果不明顯。并且建議不采用全量參數訓練,否則模型原始能力會遺忘較多。

六、領域評測集時必要內容,建議有兩份,一份選擇題形式自動評測、一份開放形式人工評測。

一定要有自己的領域數據集來驗證模型效果,來選擇最好的checkpoint。選擇題形式可以自動評測,方便模型進行初篩;開放形式人工評測比較浪費時間,可以用作精篩,并且任務形式更貼近真實場景。

七、領域模型詞表擴增是不是有必要的。

個人感覺,領域詞表擴增真實解決的問題是解碼效率的問題,給模型效果帶來的提升可能不會有很大。(這里領域詞表擴充是指在同語言模型上擴充詞表,而不是英文模型的中文漢化)

八、所謂的領域大模型會更新的越來越快,越來越多。

由于很多人&公司并沒有資源搞底座,因此需要在現有底座模型上進行增量預訓練、微調等。而以目前各廠(ChatGLM、BaiChuan、Qwen、Llama)搶占開源社區占比的架勢,感覺會有很多7B、13B級別模型開源。

請等待一言、ChatGPT開源小模型的一天,說不定GPT5出來的時候,Openai會開源個GPT3.5的小版本模型。

領域大模型落地的想法

一、常說通用模型的領域化可能是偽命題,那么領域大模型的通用化是否也是偽命題。

自訓練模型開始,就一直再跟Leader Battle這個問題,領域大模型需不需要有通用化能力。就好比華為盤古大模型“只做事不作詩”的slogan,是不是訓練的領域大模型可以解決固定的幾個任務就可以了。

個人的一些拙見是,如果想快速的將領域大模型落地,最簡單的是將系統中原有能力進行升級,即大模型在固定的某一個或某幾個任務上的效果超過原有模型。

Text2SQL任務舉例,之前很多系統中的方法是通過抽取關鍵要素&拼接方式來解決,端到端解決的并不是很理想,那么現在完全可以用大模型SQL生成的能力來解決。在已有產品上做升級,是代價最小的落地方式。就拿我司做的“云中問道”來說,在解決某領域SQL任務上效果可以達到90%+,同比現有開源模型&開放API高了不少。

當然還有很多其他任務可以升級,例如:D2QA、D2SPO、Searh2Sum等等等。

二、領域大模型落地,任務場景要比模型能力更重要。

雖說在有產品上做升級,是代價最小的落地方式,但GPT4、AutoGPT已經把人們胃口調的很高,所有人都希望直接提出一個訴求,大模型直接解決。但這對現有領域模型是十分困難的,所以在哪些場景上來用大模型是很關鍵的,并且如何將模型進行包裝,及時在模型能力不足的情況下,也可以讓用戶有一個很好的體驗。

現在很多人的疑惑是,先不說有沒有大模型,就算有了大模型都不知道在哪里使用,在私有領域都找不到一個Special場景。

所以最終大模型的落地,拼的不是模型效果本身,而是一整套行業解決方案,“Know How”成為了關鍵要素。

三、大多數企業最終落地的模型規格限制在了13B。

由于國情,大多數企業最終落地的方案應該是本地化部署,那么就會涉及硬件設備的問題。我并不絕的很有很多企業可以部署的起100B級別的模型,感覺真實部署限制在了10B級別。即使現在很多方法(例如:llama.cpp)可以對大模型進行加速,但100B級別的模型就算加速了,也是龐大資源消耗。

我之前說過“沒有體驗過33B模型的人,只會覺得13B就夠”,更大的模型一定要搞,但不影響最后落地的是10B級別。

做大模型的心路歷程

一開始ChatGPT剛剛爆火的時候,根本沒想過我們也配做大模型。但當國內涌現出了許多中文大模型,并Alpaca模型證明70億參數量的模型也有不錯效果的時候,給了我很大的信心,當然也給很多人和很多企業更多的信心。

在中小企業做大模型,經常被質問的是“沒有100張卡也可以做大模型”,我只想說需要看對“大”的定義,175B的模型確實沒有資格觸碰,但33B的模型還是可以玩耍的。真正追趕OpenAI是需要一批人,但模型落地還是需要另外一批人的。

趕上大模型是我們的幸運,可以在領域大模型上發聲是我幸運。

總結

最后共勉:BERT時代況且還在用TextCNN,難道13B的模型就不叫大模型嗎?






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • MIP
    MIP
    +關注

    關注

    0

    文章

    37

    瀏覽量

    14055
  • SQL
    SQL
    +關注

    關注

    1

    文章

    764

    瀏覽量

    44130
  • SFT
    SFT
    +關注

    關注

    0

    文章

    9

    瀏覽量

    6817
  • OpenAI
    +關注

    關注

    9

    文章

    1089

    瀏覽量

    6514
  • ChatGPT
    +關注

    關注

    29

    文章

    1561

    瀏覽量

    7671

原文標題:領域大模型-訓練Trick&落地思考

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    IGBT的物理結構模型—BJT&MOS模型(1)

    在前面關于PIN&MOS模型分析中,特別強調了這個模型所存在的個短板,即所有電流都通過MOS溝道,實際上只有電子電流通過MOS溝道
    的頭像 發表于 12-01 10:17 ?1419次閱讀
    IGBT的物理結構<b class='flag-5'>模型</b>—BJT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;MOS<b class='flag-5'>模型</b>(1)

    【大規模語言模型:從理論到實踐】- 每日進步一點點

    訓練效率、穩定性和泛化能力。以下是關于模型訓練化的詳細介紹: 、歸
    發表于 05-31 19:54

    一點接地,什么是一點接地,一點接地應注意的問題

    一點接地,什么是一點接地 一點接地的形式如下圖所示,圖中將各級內部的接地元件,即本級電路的發射極,基極和集電極的所有接
    發表于 09-30 11:35 ?2.7w次閱讀
    <b class='flag-5'>一點</b>接地,什么是<b class='flag-5'>一點</b>接地,<b class='flag-5'>一點</b>接地應注意的問題

    關于畫高頻PCB板的一點心得

    關于畫高頻PCB板的一點心得,感興趣的小伙伴們可以看看。
    發表于 07-26 16:29 ?0次下載

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發表于 04-14 08:52 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發表于 04-14 08:55 ?0次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發表于 06-17 15:53 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發表于 06-17 15:55 ?2次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    關于連接的問答:歐盟 Wi-Fi 6 &amp;amp; 6E 的未來發展

    關于連接的問答:歐盟 Wi-Fi 6 &amp; 6E 的未來發展
    的頭像 發表于 12-26 10:16 ?990次閱讀

    關于連接量子比特的一點:量子計算

    關于連接量子比特的一點:量子計算
    的頭像 發表于 01-04 11:17 ?1035次閱讀
    <b class='flag-5'>關于</b>連接量子比特的<b class='flag-5'>一點</b>:量子計算

    如何區分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先給i賦值為0,如果i大于10,并且i++等于1,則輸出“錯誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運行,觀察運行結果的不同。
    的頭像 發表于 02-24 10:46 ?1547次閱讀
    如何區分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    if(a==1 &amp;amp;&amp;amp; a==2 &amp;amp;&amp;amp; a==3),為true,你敢信?

    接下來咱們來嘗試解決這個問題。假設 if(a==1&amp;&amp;a==12)是等于 true的,那么a肯定不可能是個“普通的變量”。它勢必要有能力在執行的時候能夠動態改動值。
    的頭像 發表于 05-08 11:01 ?1114次閱讀
    if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3),為true,你敢信?

    攝像機&amp;amp;amp;雷達對車輛駕駛的輔助

    攝像機&amp;amp;雷達擔負著可輔助駕駛員安全駕駛的、高級駕駛輔助系統的傳感功能。尼得科正在進步推進攝像機&amp;amp;雷達的高性
    的頭像 發表于 11-26 10:02 ?916次閱讀
    攝像機&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;雷達對車輛駕駛的輔助

    如何讓網絡模型加速訓練

    ,對 Pytorch的AMP ( autocast與Gradscaler 進行對比) 自動混合精度對模型訓練加速 。 注意Pytorch1.6+,已經內置torch.cuda.amp
    的頭像 發表于 11-03 10:00 ?1555次閱讀
    如何讓網絡<b class='flag-5'>模型</b>加速<b class='flag-5'>訓練</b>

    北大&amp;amp;華為提出:多模態基礎大模型的高效微調

    深度學習的大模型時代已經來臨,越來越多的大規模預訓練模型在文本、視覺和多模態領域展示出杰出的生成和推理能力。然而大模型巨大的參數量有兩個明顯
    的頭像 發表于 11-08 16:20 ?994次閱讀
    北大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;華為提出:多模態基礎大<b class='flag-5'>模型</b>的高效微調
    主站蜘蛛池模板: 天堂中文字幕在线| 老司机色网| 色四月婷婷| 婷婷丁香在线观看| 深爱激情站| 日本高清黄色| 口述他拿舌头进去我下面好爽| 国产性大片黄在线观看在线放| 国产小视频在线高清播放| 国产女在线| 午夜啪啪免费视频| 91视频www| 免费视频18| 亚洲欧洲日韩综合| 手机在线精品视频| 欧美顶级xxxxbbbb| 国内一级野外a一级毛片| ts在线视频| 日本高清加勒比| 五月综合色啪| 日本不卡免费高清一级视频| 中日韩免费视频| 色色视频网| 久久精品男人影院| 你懂的在线视频播放| 狠狠色丁香久久综合网| 77成人| 日本黄色录象| 色爱区综合激月婷婷激情五月| av网址在线看| 免费看男女下面日出水视频| 夜夜春色| 女人张开腿让男人桶视频免费大全| 日韩欧美一区二区三区视频| 精品噜噜噜噜久久久久久久久| 特级毛片aaaa级毛片免费| 欧美二区三区| 永久免费在线看| 狠狠色综合色综合网络| 色视频一区二区三区| 性视频网|