在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

簡單三步使用OpenVINO?搞定ChatGLM3的本地部署

英特爾物聯網 ? 來源:OpenVINO 中文社區 ? 2024-04-03 18:18 ? 次閱讀

工具介紹

英特爾OpenVINO 工具套件是一款開源AI推理優化部署的工具套件,可幫助開發人員和企業加速生成式人工智能 (AIGC)、大語言模型、計算機視覺和自然語言處理等 AI 工作負載,簡化深度學習推理的開發和部署,便于實現從邊緣到云的跨英特爾 平臺的異構執行。

ChatGLM3是智譜AI和清華大學KEG實驗室聯合發布的對話預訓練模型。ChatGLM3-6B是ChatGLM3系列中的開源模型,在保留了前兩代模型對話流暢、部署門檻低等眾多優秀特性的基礎上,ChatGLM3-6B引入了以下新特性:

1

更強大的基礎模型:

ChatGLM3-6B的基礎模型ChatGLM3-6B-Base采用了更多樣的訓練數據、更充分的訓練步數和更合理的訓練策略。在語義、數學、推理、代碼、知識等不同角度的數據集上測評顯示,ChatGLM3-6B-Base具有在10B以下的預訓練模型中領先的性能。

2

更完整的功能支持:

ChatGLM3-6B采用了全新設計的Prompt格式,除正常的多輪對話外,同時原生支持工具調用 (Function Call)、代碼執行 (Code Interpreter) 和Agent任務等復雜場景。

3

更全面的開源序列:

除了對話模型ChatGLM3-6B外,還開源了基礎模型ChatGLM-6B-Base、長文本對話模型ChatGLM3-6B-32K。以上所有權重對學術研究完全開放,在填寫問卷進行登記后亦允許免費商業使用。

8c1a646e-f19a-11ee-a297-92fbcf53809c.png

圖:基于Optimum-intel與OpenVINO部署生成式AI模型流程

英特爾為開發者提供了快速部署ChatGLM3-6B的方案支持。開發者只需要在GitHub上克隆示例倉庫,進行環境配置,并將Hugging Face模型轉換為OpenVINO IR模型,即可進行模型推理。由于大部分步驟都可以自動完成,因此開發者只需要簡單的工作便能完成部署,目前該倉庫也被收錄在GhatGLM3的官方倉庫和魔搭社區Model Card中,接下來讓我們一起看下具體的步驟和方法:

示例倉庫:

https://github.com/OpenVINO-dev-contest/chatglm3.openvino

官方倉庫:

https://github.com/THUDM/ChatGLM3?tab=readme-ov-file#openvino-demo

Model Card:

https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b/summary#

1

模型轉換

當你按倉庫中的README文檔完成集成環境配置后,可以直接通過以下命令運行模型轉換腳本:

python3 convert.py --model_id THUDM/chatglm3-6b –output {your_path}/chatglm3-6b-ov

該腳本首先會利用Transformers庫從Hugging Face的model hub中下載并加載原始模型的PyTorch對象,如果開發者在這個過程中無法訪問Hugging Face的model hub,也可以通過配置環境變量的方式,將模型下載地址更換為鏡像網站,并將convert.py腳本的model_id參數配置為本地路徑,具體方法如下:

$env:HF_ENDPOINT = https://hf-mirror.com
huggingface-cli download --resume-download --local-dir-use-symlinks False THUDM/chatglm3-6b --local-dir {your_path}/chatglm3-6b
python3 convert.py --model_id {your_path}/chatglm3-6b --output {your_path}/chatglm3-6b-ov

當獲取PyTorch的模型對象后,該腳本會利用OpenVINO的PyTorch frontend進行模型格式的轉換,執行完畢后,你將獲取一個由.xml和.bin文件所構成的OpenVINO IR模型文件,該模型默認以FP16精度保存。

2

權重量化

該步驟為可選項,開發者可以通過以下腳本,將生成的OpenVINO模型通過權重量化策略,進一步地壓縮為4-bits或者是8-bits的精度,以獲取更低的推理延時及系統資源占用。

python3 quantize.py --model_path {your_path}/chatglm3-6b-ov --precision int4 --output {your_path}/chatglm3-6b-ov-int4

執行完畢后,你將獲得經過壓縮后的IR模型文件,以INT4對稱量化為例,該壓縮后的模型文件的整體容量大約為4GB左右。

8c3150b6-f19a-11ee-a297-92fbcf53809c.png

圖:量化后的OpenVINO模型文件

同時在量化結束后,亦會在終端上打印模型的量化比例,如下圖所示。

8c587254-f19a-11ee-a297-92fbcf53809c.png

圖:量化比例輸出

由于OpenVINO NNCF工具的權重壓縮策略只針對于大語言模型中的Embedding和Linear這兩種算子,所以該表格只會統計這兩類算子的量化比例。其中ratio-defining parameter是指我們提前通過接口預設的混合精度比例,也就是21%權重以INT8表示,79%以INT4表示,這也是考慮到量化對ChatGLM3模型準確度的影響,事先評估得到的配置參數,開發者亦可以通過這個示例搜索出適合其他模型的量化參數。此外鑒于第一層Embedding layer和模型最后一層操作對于輸出準確度的影響,NNCF默認會將他們以INT8表示,這也是為何all parameters中顯示的混合精度比例會有所不同。當然開發者也可以通過nncf.compress_weights接口中設置all_layers=True,開關閉該默認策略。

示例:

https://github.com/openvinotoolkit/nncf/tree/develop/examples/llm_compression/openvino/tiny_llama_find_hyperparams

3

模型轉換

最后一步就是模型部署了,這里展示的是一個Chatbot聊天機器人的示例,這也是LLM應用中最普遍,也是最基礎的pipeline,而OpenVINO可以通過Optimum-intel工具為橋梁,復用Transformers庫中預置的pipeline,因此在這個腳本中我們會對ChatGLM3模型再做一次封裝,以繼承并改寫OVModelForCausalLM類中的方法,實現對于Optimum-intel工具的集成和適配。以下為該腳本的運行方式:

python3 chat.py --model_path {your_path}/chatglm3-6b-ov-int4 --max_sequence_length 4096 --device CPU

如果開發者的設備中包含英特爾的GPU產品,例如Intel ARC系列集成顯卡或是獨立顯卡,可以在這個命令中將device參數改為GPU,以激活更強大的模型推理能力。

在終端里運行該腳本后,會生成一個簡易聊天對話界面,接下來你就可以驗證它的效果和性能了。

總結

通過模型轉換、量化、部署這三個步驟,我們可以輕松實現在本地PC上部署ChatGLM3-6b大語言模型,經測試該模型可以流暢運行在最新的Intel Core Ultra異構平臺及至強CPU平臺上,作為眾多AI agent和RAG等創新應用的核心基石,大語言模型的本地部署能力將充分幫助開發者們打造更安全,更高效的AI解決方案。


審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1792

    文章

    47497

    瀏覽量

    239211
  • 計算機視覺
    +關注

    關注

    8

    文章

    1699

    瀏覽量

    46050
  • pytorch
    +關注

    關注

    2

    文章

    808

    瀏覽量

    13282
  • OpenVINO
    +關注

    關注

    0

    文章

    94

    瀏覽量

    214

原文標題:簡單三步使用OpenVINO? 搞定ChatGLM3的本地部署 | 開發者實戰

文章出處:【微信號:英特爾物聯網,微信公眾號:英特爾物聯網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama 是一個開源的大語言模型服務工具,它的核心目的是簡化大語言模型(LLMs)的本地部署和運行過程,請參考《Gemma 2+Ollama在算力魔方上幫你在LeetCode解題》,一條命令完成
    的頭像 發表于 11-23 17:22 ?1337次閱讀
    用Ollama輕松<b class='flag-5'>搞定</b>Llama 3.2 Vision模型<b class='flag-5'>本地</b><b class='flag-5'>部署</b>

    使用OpenVINO Model Server在哪吒開發板上部署模型

    OpenVINO Model Server(OVMS)是一個高性能的模型部署系統,使用C++實現,并在Intel架構上的部署進行了優化,使用OpenVINO 進行推理,推理服務通過gP
    的頭像 發表于 11-01 14:19 ?327次閱讀
    使用<b class='flag-5'>OpenVINO</b> Model Server在哪吒開發板上<b class='flag-5'>部署</b>模型

    使用OpenVINO C++在哪吒開發板上推理Transformer模型

    OpenVINO 是一個開源工具套件,用于對深度學習模型進行優化并在云端、邊緣進行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應用場景中加快深度學習推理的速度,且支持來自 PyTorch
    的頭像 發表于 10-12 09:55 ?376次閱讀
    使用<b class='flag-5'>OpenVINO</b> C++在哪吒開發板上推理Transformer模型

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又發布了Llama3.2:一個多語言大型語言模型(LLMs)的集合。
    的頭像 發表于 10-12 09:39 ?651次閱讀
    使用<b class='flag-5'>OpenVINO</b> 2024.4在算力魔方上<b class='flag-5'>部署</b>Llama-3.2-1B-Instruct模型

    入門級攻略:如何容器化部署微服務?

    第一理解容器化基礎,第二創建Dockerfile,第三步構建推送鏡像,第四部署微服務,第五
    的頭像 發表于 10-09 10:08 ?175次閱讀

    行代碼完成生成式AI部署

    LLM加載與推理部署能力,實現了OpenVINO對CNN網絡、生成式模型、LLM網絡主流模型的全面推理支持。
    的頭像 發表于 08-30 16:49 ?433次閱讀
    <b class='flag-5'>三</b>行代碼完成生成式AI<b class='flag-5'>部署</b>

    使用OpenVINO C# API部署YOLO-World實現實時開放詞匯對象檢測

    的快速準確識別,并通過AR技術將虛擬元素與真實場景相結合,為用戶帶來沉浸式的交互體驗。在本文中,我們將結合OpenVINO C# API使用最新發布的OpenVINO 2024.0部署 YOLO-World實現實時開放詞匯對象檢
    的頭像 發表于 08-30 16:27 ?780次閱讀
    使用<b class='flag-5'>OpenVINO</b> C# API<b class='flag-5'>部署</b>YOLO-World實現實時開放詞匯對象檢測

    chatglm2-6b在P40上做LORA微調

    背景: 目前,大模型的技術應用已經遍地開花。最快的應用方式無非是利用自有垂直領域的數據進行模型微調。chatglm2-6b在國內開源的大模型上,效果比較突出。本文章分享的內容是用
    的頭像 發表于 08-13 17:12 ?526次閱讀
    <b class='flag-5'>chatglm</b>2-6b在P40上做LORA微調

    OpenVINO C# API在intel平臺部署YOLOv10目標檢測模型

    的模型設計策略,從效率和精度兩個角度對YOLOs的各個組成部分進行了全面優化,大大降低了計算開銷,增強了性能。在本文中,我們將結合OpenVINO C# API使用最新發布的OpenVINO 2024.1部署YOLOv10目標檢
    的頭像 發表于 06-21 09:23 ?1083次閱讀
    用<b class='flag-5'>OpenVINO</b> C# API在intel平臺<b class='flag-5'>部署</b>YOLOv10目標檢測模型

    【AIBOX上手指南】快速部署Llama3

    Firefly開源團隊推出了Llama3部署包,提供簡易且完善的部署教程,過程無需聯網,簡單快捷完成本地
    的頭像 發表于 06-06 08:02 ?718次閱讀
    【AIBOX上手指南】快速<b class='flag-5'>部署</b>Llama<b class='flag-5'>3</b>

    簡單三步!高效預測半導體器件使用壽命

    電力電子元器件已經成為現代電子系統中重要的組成部件,同時,元器件的熱性能將大大影響整體設備的可靠性。庭田科技提供的POWERTESTER測試平臺,在不破壞待測器件的前提下,僅需三步,即可高效安全
    的頭像 發表于 05-30 10:31 ?482次閱讀

    【AIBOX】裝在小盒子的AI足夠強嗎?

    Firefly推出大語言模型本地部署的產品:AIBOX-1684X,目前已適配主流的大語言模型,包括ChatGLM3-6B,以下是ChatGLM3在AIBOX-1684X上的實機演示
    的頭像 發表于 05-15 08:02 ?475次閱讀
    【AIBOX】裝在小盒子的AI足夠強嗎?

    Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

    Llama3 是Meta最新發布的開源大語言模型(LLM), 當前已開源8B和70B參數量的預訓練模型權重,并支持指令微調。
    的頭像 發表于 05-10 10:34 ?1097次閱讀
    Optimum Intel<b class='flag-5'>三步</b>完成Llama<b class='flag-5'>3</b>在算力魔方的<b class='flag-5'>本地</b>量化和<b class='flag-5'>部署</b>

    簡單使用OpenVINO?搞定Qwen2的量化與部署任務

    英特爾 OpenVINO? 工具套件是一款開源 AI 推理優化部署的工具套件,可幫助開發人員和企業加速生成式人工智能 (AIGC)、大語言模型、計算機視覺和自然語言處理等 AI 工作負載,簡化深度學習推理的開發和部署,便于實現從
    的頭像 發表于 04-26 09:39 ?1765次閱讀
    <b class='flag-5'>簡單</b>兩<b class='flag-5'>步</b>使用<b class='flag-5'>OpenVINO</b>?<b class='flag-5'>搞定</b>Qwen2的量化與<b class='flag-5'>部署</b>任務

    英特爾集成顯卡+ChatGLM3大語言模型的企業本地AI知識庫部署

    在當今的企業環境中,信息的快速獲取和處理對于企業的成功至關重要。為了滿足這一需求,我們可以將RAG技術與企業本地知識庫相結合,以提供實時的、自動生成的信息處理和決策支持。
    的頭像 發表于 03-29 11:07 ?830次閱讀
    英特爾集成顯卡+<b class='flag-5'>ChatGLM3</b>大語言模型的企業<b class='flag-5'>本地</b>AI知識庫<b class='flag-5'>部署</b>
    主站蜘蛛池模板: 爱操综合| 久久精品国产四虎| 99久久精品国产自免费| 在线久综合色手机在线播放| 好吊色视频988gao在线观看| 末成年一级在线看片| 麒麟色欧美影院在线播放| 欧日韩美香蕉在线观看| 欧美午夜性| 欧美一区二区三区不卡免费观看| 亚洲 [12p]| 最新人妖shemaletube人妖| 久久观看| 成年女人色费视频免费| 免费h视频在线观看| 美女一级免费毛片| 久草热线视频| 97成人在线视频| 色综合天天操| aa看片| 日日操狠狠操| 91精品福利视频| 色综色| 操www| 乱色伦肉小说| 五月婷婷视频在线观看| 欧美亚洲第一区| 亚洲一区二区色| 日韩一级一欧美一级国产| 六月丁香色婷婷| 一级黄色片在线| 一级黄色毛毛片| 欧美午夜大片| 在线视频影院| 成人性色生活片免费看爆迷你毛片| 亚洲色图22p| 天天摸夜夜操| 午夜毛片不卡高清免费| 国产一级特黄aaa大片| 97涩涩涩| 色成人免费网站|