嵌入式 AI

AI 簡(jiǎn)報(bào) 20230217 期

1. 超越GPT 3.5的小模型來(lái)了！

原文：https://mp.weixin.qq.com/s/gv_FJD0aIpDNbky54unj2Q
論文地址：https://arxiv.org/abs/2302.00923
項(xiàng)目地址：https://github.com/amazon-science/mm-cot

去年年底，OpenAI 向公眾推出了 ChatGPT，一經(jīng)發(fā)布，這項(xiàng)技術(shù)立即將 AI 驅(qū)動(dòng)的聊天機(jī)器人推向了主流話語(yǔ)的中心，眾多研究者并就其如何改變商業(yè)、教育等展開(kāi)了一輪又一輪辯論。

隨后，科技巨頭們紛紛跟進(jìn)投入科研團(tuán)隊(duì)，他們所謂的「生成式 AI」技術(shù)（可以制作對(duì)話文本、圖形等的技術(shù)）也已準(zhǔn)備就緒。

眾所周知，ChatGPT 是在 GPT-3.5 系列模型的基礎(chǔ)上微調(diào)而來(lái)的，我們看到很多研究也在緊隨其后緊追慢趕，但是，與 ChatGPT 相比，他們的新研究效果到底有多好？近日，亞馬遜發(fā)布的一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》中，他們提出了包含視覺(jué)特征的 Multimodal-CoT，該架構(gòu)在參數(shù)量小于 10 億的情況下，在 ScienceQA 基準(zhǔn)測(cè)試中，比 GPT-3.5 高出 16 個(gè)百分點(diǎn) (75.17%→91.68%)，甚至超過(guò)了許多人類(lèi)。

這里簡(jiǎn)單介紹一下 ScienceQA 基準(zhǔn)測(cè)試，它是首個(gè)標(biāo)注詳細(xì)解釋的多模態(tài)科學(xué)問(wèn)答數(shù)據(jù)集，由 UCLA 和艾倫人工智能研究院（AI2）提出，主要用于測(cè)試模型的多模態(tài)推理能力，有著非常豐富的領(lǐng)域多樣性，涵蓋了自然科學(xué)、語(yǔ)言科學(xué)和社會(huì)科學(xué)領(lǐng)域，對(duì)模型的邏輯推理能力提出了很高的要求。

下面我們來(lái)看看亞馬遜的語(yǔ)言模型是如何超越 GPT-3.5 的。

包含視覺(jué)特征的 Multimodal-CoT

大型語(yǔ)言模型 (LLM) 在復(fù)雜推理任務(wù)上表現(xiàn)出色，離不開(kāi)思維鏈 (CoT) 提示的助攻。然而，現(xiàn)有的 CoT 研究只關(guān)注語(yǔ)言模態(tài)。為了在多模態(tài)中觸發(fā) CoT 推理，一種可能的解決方案是通過(guò)融合視覺(jué)和語(yǔ)言特征來(lái)微調(diào)小型語(yǔ)言模型以執(zhí)行 CoT 推理。

然而，根據(jù)已有觀察，小模型往往比大模型更能頻繁地胡編亂造，模型的這種行為通常被稱(chēng)為「幻覺(jué)（hallucination）」。此前谷歌的一項(xiàng)研究也表明（論文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models ），基于 CoT 的提示只有在模型具有至少 1000 億參數(shù)時(shí)才有用！

也就是說(shuō)，CoT 提示不會(huì)對(duì)小型模型的性能產(chǎn)生積極影響，并且只有在與～100B 參數(shù)的模型一起使用時(shí)才會(huì)產(chǎn)生性能提升。

然而，本文研究在小于 10 億參數(shù)的情況下就產(chǎn)生了性能提升，是如何做到的呢？簡(jiǎn)單來(lái)講，本文提出了包含視覺(jué)特征的 Multimodal-CoT，通過(guò)這一范式（Multimodal-CoT）來(lái)尋找多模態(tài)中的 CoT 推理。

Multimodal-CoT 將視覺(jué)特征結(jié)合在一個(gè)單獨(dú)的訓(xùn)練框架中，以減少語(yǔ)言模型有產(chǎn)生幻覺(jué)推理模式傾向的影響。總體而言，該框架將推理過(guò)程分為兩部分：基本原理生成（尋找原因）和答案推理（找出答案）。

數(shù)據(jù)集

本文主要關(guān)注 ScienceQA 數(shù)據(jù)集，該數(shù)據(jù)集將圖像和文本作為上下文的一部分，此外，該數(shù)據(jù)集還包含對(duì)答案的解釋?zhuān)员憧梢詫?duì)模型進(jìn)行微調(diào)以生成 CoT 基本原理。此外，本文利用 DETR 模型生成視覺(jué)特征。

較小的 LM 在生成 CoT / 基本原理時(shí)容易產(chǎn)生幻覺(jué)，作者推測(cè)，如果有一個(gè)修改過(guò)的架構(gòu)，模型可以利用 LM 生成的文本特征和圖像模型生成的視覺(jué)特征，那么更有能力提出理由和回答問(wèn)題。

架構(gòu)

總的來(lái)說(shuō)，我們需要一個(gè)可以生成文本特征和視覺(jué)特征并利用它們生成文本響應(yīng)的模型。

又已知文本和視覺(jué)特征之間存在的某種交互，本質(zhì)上是某種共同注意力機(jī)制，這有助于封裝兩種模態(tài)中存在的信息，這就讓借鑒思路成為了可能。為了完成所有這些，作者選擇了 T5 模型，它具有編碼器 - 解碼器架構(gòu)，并且如上所述，DETR 模型用于生成視覺(jué)特征。

T5 模型的編碼器負(fù)責(zé)生成文本特征，但 T5 模型的解碼器并沒(méi)有利用編碼器產(chǎn)生的文本特征，而是使用作者提出的共同注意式交互層（co-attention-styled interaction layer）的輸出。

拆解來(lái)看，假設(shè) H_language 是 T5 編碼器的輸出。X_vision 是 DETR 的輸出。第一步是確保視覺(jué)特征和文本特征具有相同的隱藏大小，以便我們可以使用注意力層。

結(jié)果

作者使用 UnifiedQA 模型的權(quán)重作為 T5 模型的初始化點(diǎn)，并在 ScienceQA 數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)。他們觀察到他們的 Multimodal CoT 方法優(yōu)于所有以前的基準(zhǔn)，包括 GPT-3.5。

有趣的地方在于，即使只有 2.23 億個(gè)參數(shù)的基本模型也優(yōu)于 GPT-3.5 和其他 Visual QA 模型！這突出了擁有多模態(tài)架構(gòu)的力量。

結(jié)論

這篇論文帶來(lái)的最大收獲是多模態(tài)特征在解決具有視覺(jué)和文本特征的問(wèn)題時(shí)是多么強(qiáng)大。

作者展示了利用視覺(jué)特征，即使是小型語(yǔ)言模型（LM）也可以產(chǎn)生有意義的思維鏈 / 推理，而幻覺(jué)要少得多，這揭示了視覺(jué)模型在發(fā)展基于思維鏈的學(xué)習(xí)技術(shù)中可以發(fā)揮的作用。

從實(shí)驗(yàn)中，我們看到以幾百萬(wàn)個(gè)參數(shù)為代價(jià)添加視覺(jué)特征的方式，比將純文本模型擴(kuò)展到數(shù)十億個(gè)參數(shù)能帶來(lái)更大的價(jià)值。

2. AI照騙恐怖如斯！美女刷屏真假難辨，網(wǎng)友：AI網(wǎng)戀詐騙時(shí)代開(kāi)啟

原文：https://mp.weixin.qq.com/s/nELNzal7tjkbZ6uKkuGkeA

什么？這些不是真人照片，都是AI畫(huà)出來(lái)的？！

最近這樣一組美女圖片刷屏了，許多人看到第一反應(yīng)都是“AI逼真到這個(gè)份上了？”。

直到看到手部露出了破綻，才敢確定確實(shí)是AI畫(huà)的。

嗯….啥都不想說(shuō)，看就得了，感興趣的小伙伴直接查看原文。

3. YOLOv7農(nóng)業(yè)方向應(yīng)用｜基于注意力機(jī)制改進(jìn)的YOLOv7算法CBAM-YOLOv7

原文：https://mp.weixin.qq.com/s/HXKsTnSbr8Ks1VF2p7RoTA
論文鏈接：https://www.mdpi.com/2077-0472/12/10/1659/pdf

飼養(yǎng)密度是影響畜禽大規(guī)模生產(chǎn)和動(dòng)物福利的關(guān)鍵因素。然而，麻鴨養(yǎng)殖業(yè)目前使用的人工計(jì)數(shù)方法效率低、人工成本高、精度低，而且容易重復(fù)計(jì)數(shù)和遺漏。

在這方面，本文使用深度學(xué)習(xí)算法來(lái)實(shí)現(xiàn)對(duì)密集麻鴨群數(shù)量的實(shí)時(shí)監(jiān)測(cè)，并促進(jìn)智能農(nóng)業(yè)產(chǎn)業(yè)的發(fā)展。本文構(gòu)建了一個(gè)新的大規(guī)模大麻鴨目標(biāo)檢測(cè)圖像數(shù)據(jù)集，其中包含1500個(gè)大麻鴨目標(biāo)的檢測(cè)全身幀標(biāo)記和僅頭部幀標(biāo)記。

此外，本文提出了一種基于注意力機(jī)制改進(jìn)的YOLOv7算法CBAM-YOLOv7，在YOLOv7的主干網(wǎng)絡(luò)中添加了3個(gè)CBAM模塊，以提高網(wǎng)絡(luò)提取特征的能力，并引入SE-YOLOv7和ECA-YOLOv7進(jìn)行比較實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，CBAM-YOLOv7具有較高的精度，mAP@0.5和mAP@0.5:0.95略有改善。CBAM-YOLOv7的評(píng)價(jià)指標(biāo)值比SE-YOLOw7和ECA-YOLOv 7的提高更大。此外，還對(duì)兩種標(biāo)記方法進(jìn)行了比較測(cè)試，發(fā)現(xiàn)僅頭部標(biāo)記方法導(dǎo)致了大量特征信息的丟失，而全身框架標(biāo)記方法顯示了更好的檢測(cè)效果。

算法性能評(píng)估結(jié)果表明，本文提出的智能麻鴨計(jì)數(shù)方法是可行的，可以促進(jìn)智能可靠的自動(dòng)計(jì)數(shù)方法的發(fā)展。

隨著技術(shù)的發(fā)展，監(jiān)控設(shè)備在農(nóng)業(yè)中發(fā)揮著巨大的作用。有多種方法可以監(jiān)測(cè)個(gè)體動(dòng)物的行為，例如插入芯片記錄生理數(shù)據(jù)、使用可穿戴傳感器和（熱）成像技術(shù)。一些方法使用附著在鳥(niǎo)類(lèi)腳上的可穿戴傳感器來(lái)測(cè)量它們的活動(dòng)，但這可能會(huì)對(duì)受監(jiān)測(cè)的動(dòng)物產(chǎn)生額外影響。特別是，在商業(yè)環(huán)境中，技術(shù)限制和高成本導(dǎo)致這種方法的可行性低。

因此，基于光流的視頻評(píng)估將是監(jiān)測(cè)家禽行為和生理的理想方法。最初，許多監(jiān)控視頻都是人工觀察的，效率低下，依賴(lài)于工作人員的經(jīng)驗(yàn)判斷，沒(méi)有標(biāo)準(zhǔn)。然而，近年來(lái)，由于大數(shù)據(jù)時(shí)代的到來(lái)和計(jì)算機(jī)圖形卡的快速發(fā)展，計(jì)算機(jī)的計(jì)算能力不斷增強(qiáng)，加速了人工智能的發(fā)展。與人工智能相關(guān)的研究正在增加，計(jì)算機(jī)視覺(jué)在動(dòng)物檢測(cè)中的應(yīng)用越來(lái)越廣泛。

例如，2014年Girshick等人提出的R-CNN首次引入了兩階段檢測(cè)方法。該方法使用深度卷積網(wǎng)絡(luò)來(lái)獲得優(yōu)異的目標(biāo)檢測(cè)精度，但其許多冗余操作大大增加了空間和時(shí)間成本，并且難以在實(shí)際的養(yǎng)鴨場(chǎng)中部署。Law等人提出了一種單階段的目標(biāo)檢測(cè)方法CornerNet和一種新的池化方法：角點(diǎn)池化。

然而，基于關(guān)鍵點(diǎn)的方法經(jīng)常遇到大量不正確的目標(biāo)邊界框，這限制了其性能，無(wú)法滿(mǎn)足鴨子飼養(yǎng)模型的高性能要求。Duan等人在CornerNet的基礎(chǔ)上構(gòu)建了CenterNet框架，以提高準(zhǔn)確性和召回率，并設(shè)計(jì)了兩個(gè)對(duì)特征級(jí)噪聲具有更強(qiáng)魯棒性的自定義模塊，但Anchor-Free方法是一個(gè)具有前兩個(gè)關(guān)鍵點(diǎn)組合的過(guò)程，并且由于網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、處理耗時(shí)、速率低和測(cè)量結(jié)果不穩(wěn)定，它不能滿(mǎn)足麻鴨工業(yè)化養(yǎng)殖所需的高性能和高準(zhǔn)確率的要求。

本文的工作使用了一種單階段目標(biāo)檢測(cè)算法，它只需要提取特征一次，就可以實(shí)現(xiàn)目標(biāo)檢測(cè)，其性能高于多階段算法。目前，主流的單階段目標(biāo)檢測(cè)算法主要包括YOLO系列、SSD、RetinaNet等。本文將基于CNN的人群計(jì)數(shù)思想轉(zhuǎn)移并應(yīng)用到鴨計(jì)數(shù)問(wèn)題中。隨著檢測(cè)結(jié)果的輸出，作者嵌入了一個(gè)目標(biāo)計(jì)數(shù)模塊來(lái)響應(yīng)工業(yè)化的需求。目標(biāo)計(jì)數(shù)也是計(jì)算機(jī)視覺(jué)領(lǐng)域的一項(xiàng)常見(jiàn)任務(wù)。目標(biāo)計(jì)數(shù)可分為多類(lèi)別目標(biāo)計(jì)數(shù)和單類(lèi)別目標(biāo)計(jì)數(shù)；本工作采用了一群大麻鴨的單類(lèi)別計(jì)數(shù)。

本文希望實(shí)現(xiàn)的目標(biāo)是：

建立了一個(gè)新的大規(guī)模的德雷克圖像數(shù)據(jù)集，并將其命名為“大麻鴨數(shù)據(jù)集”。大麻鴨數(shù)據(jù)集包含1500個(gè)標(biāo)簽，用于全身框架和頭部框架，用于鴨的目標(biāo)檢測(cè)。該團(tuán)隊(duì)首次發(fā)布了大麻鴨數(shù)據(jù)集
本研究構(gòu)建了大鴨識(shí)別、大鴨目標(biāo)檢測(cè)、大鴨圖像計(jì)數(shù)等全面的工作基線，實(shí)現(xiàn)了麻鴨的智能養(yǎng)殖
該項(xiàng)目模型引入了CBAM模塊來(lái)構(gòu)建CBAM-YOLOv7算法

本文很長(zhǎng)，同時(shí)基礎(chǔ)理論和背景介紹的非常詳細(xì)，感興趣的小伙伴可以翻看原文，進(jìn)行研究。

4. AutoML并非全能神器！新綜述爆火，網(wǎng)友：了解深度學(xué)習(xí)領(lǐng)域現(xiàn)狀必讀

原文：https://mp.weixin.qq.com/s/qR2bMaZby299PlEHUlNoBQ

如今深度學(xué)習(xí)模型開(kāi)發(fā)已經(jīng)非常成熟，進(jìn)入大規(guī)模應(yīng)用階段。

然而，在設(shè)計(jì)模型時(shí)，不可避免地會(huì)經(jīng)歷迭代這一過(guò)程，它也正是造成模型設(shè)計(jì)復(fù)雜、成本巨高的核心原因，此前通常由經(jīng)驗(yàn)豐富的工程師來(lái)完成。

之所以迭代過(guò)程如此“燒金”，是因?yàn)樵谶@一過(guò)程中，面臨大量的開(kāi)放性問(wèn)題 （open problems）。

這些開(kāi)放性問(wèn)題究竟會(huì)出現(xiàn)在哪些地方？又要如何解決、能否并行化解決？

現(xiàn)在一篇論文綜述終于對(duì)此做出介紹，發(fā)出后立刻在網(wǎng)上爆火。

作者嚴(yán)謹(jǐn)?shù)貐⒖剂?strong style="font-size: inherit;color: inherit;line-height: inherit;">接近300篇文獻(xiàn)，對(duì)大量應(yīng)用深度學(xué)習(xí)中的開(kāi)放問(wèn)題進(jìn)行分析，力求讓讀者一文了解該領(lǐng)域最新趨勢(shì)。

這篇論文要研究什么？

眾所周知，當(dāng)我們拿到一個(gè)機(jī)器學(xué)習(xí)問(wèn)題時(shí)，通常處理的流程分為以下幾步：收集數(shù)據(jù)、編寫(xiě)模型、訓(xùn)練模型、評(píng)估模型、迭代、測(cè)試、產(chǎn)品化。

在這篇論文中，作者把上述這些流程比作一個(gè)雙層次的最佳化問(wèn)題。

內(nèi)層優(yōu)化回路需要最小化衡量模型效果評(píng)估的損失函數(shù)，背后是為了尋求最佳模型參數(shù)而進(jìn)行的深入研究的訓(xùn)練過(guò)程。

而外層優(yōu)化回路的研究較少，包括最大化一個(gè)適當(dāng)選擇的性能指標(biāo)來(lái)評(píng)估驗(yàn)證數(shù)據(jù)，這正是我們所說(shuō)的“迭代過(guò)程”，也就是追求最優(yōu)模型超參數(shù)的過(guò)程。

不過(guò)，值得注意的是，面對(duì)不同的問(wèn)題，它的解也需要特定分析，有時(shí)候情況甚至?xí)浅?fù)雜。

例如，評(píng)估度量Mval是一個(gè)離散且不可微的函數(shù)。它并未被很好地定義，有時(shí)候甚至在某些自我監(jiān)督式和非監(jiān)督式學(xué)習(xí)以及生成模型問(wèn)題中不存在。

同時(shí)，你也可能設(shè)計(jì)了一個(gè)非常好的損失函數(shù)Ltrain，結(jié)果發(fā)現(xiàn)它是離散或不可微的，這種情況下它會(huì)變得非常棘手，需要用特定方法加以解決。

因此，本篇論文的研究重點(diǎn)就是迭代過(guò)程中遇到的各種開(kāi)放性問(wèn)題，以及這些問(wèn)題中可以并行解決優(yōu)化的部分案例。

機(jī)器學(xué)習(xí)中開(kāi)放問(wèn)題有哪些？

論文將開(kāi)放性問(wèn)題類(lèi)型分為監(jiān)督學(xué)習(xí)和其他方法兩大類(lèi)。

值得一提的是，無(wú)論是監(jiān)督學(xué)習(xí)還是其他方法，作者都貼心地附上了對(duì)應(yīng)的教程地址：

如果對(duì)概念本身還不了解的話，點(diǎn)擊就能直接學(xué)到他教授的視頻課程，不用擔(dān)心有困惑的地方。

首先來(lái)看看監(jiān)督學(xué)習(xí)。

這里我們不得不提到AutoML。作為一種用來(lái)降低開(kāi)發(fā)過(guò)程中迭代復(fù)雜度的“偷懶”方法，它目前在機(jī)器學(xué)習(xí)中已經(jīng)應(yīng)用廣泛了。

通常來(lái)說(shuō)，AutoML更側(cè)重于在監(jiān)督學(xué)習(xí)方法中的應(yīng)用，尤其是圖像分類(lèi)問(wèn)題。

畢竟圖像分類(lèi)可以明確采用精度作為評(píng)估指標(biāo)，使用AutoML非常方便。

但如果同時(shí)考慮多個(gè)因素，尤其是包括計(jì)算效率在內(nèi)，這些方法是否還能進(jìn)一步被優(yōu)化？

在這種情況下，如何提升性能就成為了一類(lèi)開(kāi)放性問(wèn)題，具體又分為以下幾類(lèi)：

大模型、小模型、模型魯棒性、可解釋AI、遷移學(xué)習(xí)、語(yǔ)義分割、超分辨率&降噪&著色、姿態(tài)估計(jì)、光流&深度估計(jì)、目標(biāo)檢測(cè)、人臉識(shí)別&檢測(cè)、視頻&3D模型等。

這些不同的領(lǐng)域也面臨不同的開(kāi)放性問(wèn)題。

例如大模型中的學(xué)習(xí)率并非常數(shù)、而是函數(shù)，會(huì)成為開(kāi)放問(wèn)題之一，相比之下小模型卻更考慮性能和內(nèi)存（或計(jì)算效率）的權(quán)衡這種開(kāi)放性問(wèn)題。

其中，小模型通常會(huì)應(yīng)用到物聯(lián)網(wǎng)、智能手機(jī)這種小型設(shè)備中，相比大模型需求算力更低。

又例如對(duì)于目標(biāo)檢測(cè)這樣的模型而言，如何優(yōu)化不同目標(biāo)之間檢測(cè)的準(zhǔn)確度，同樣是一種復(fù)雜的開(kāi)放性問(wèn)題。

在這些開(kāi)放性問(wèn)題中，有不少可以通過(guò)并行方式解決。如在遷移學(xué)習(xí)中，迭代時(shí)學(xué)習(xí)到的特征會(huì)對(duì)下游任務(wù)可泛化性和可遷移性同時(shí)產(chǎn)生什么影響，就是一個(gè)可以并行研究的過(guò)程。

同時(shí)，并行處理開(kāi)放性問(wèn)題面臨的難度也不一樣。

例如基于3D點(diǎn)云數(shù)據(jù)同時(shí)施行目標(biāo)識(shí)別、檢測(cè)和語(yǔ)義分割，比基于2D圖像的目標(biāo)識(shí)別、檢測(cè)和分割任務(wù)更具挑戰(zhàn)性。

再來(lái)看看監(jiān)督學(xué)習(xí)以外的其他方法，具體又分為這幾類(lèi)：

自然語(yǔ)言處理（NLP）、多模態(tài)學(xué)習(xí)、生成網(wǎng)絡(luò)、域適應(yīng)、少樣本學(xué)習(xí)、半監(jiān)督&自監(jiān)督學(xué)習(xí)、語(yǔ)音模型、強(qiáng)化學(xué)習(xí)、物理知識(shí)學(xué)習(xí)等。

以自然語(yǔ)言處理為例，其中的多任務(wù)學(xué)習(xí)會(huì)給模型帶來(lái)新的開(kāi)放性問(wèn)題。

像經(jīng)典的BERT模型，本身不具備翻譯能力，因此為了同時(shí)提升多種下游任務(wù)性能指標(biāo)，研究者們需要權(quán)衡各種目標(biāo)函數(shù)之間的結(jié)果。

又如生成模型中的CGAN（條件GAN），其中像圖像到圖像翻譯問(wèn)題，即將一張圖片轉(zhuǎn)換為另一張圖片的過(guò)程。

這一過(guò)程要求將多個(gè)獨(dú)立損失函數(shù)進(jìn)行加權(quán)組合，并讓總損失函數(shù)最小化，就又是一個(gè)開(kāi)放性問(wèn)題。

其他不同的問(wèn)題和模型，也分別都會(huì)在特定應(yīng)用上遇到不同類(lèi)型的開(kāi)放性問(wèn)題，因此具體問(wèn)題依舊得具體分析。

經(jīng)過(guò)對(duì)各類(lèi)機(jī)器學(xué)習(xí)領(lǐng)域進(jìn)行分析后，作者得出了自己的一些看法。

一方面，AI表面上是一種“自動(dòng)化”的過(guò)程，從大量數(shù)據(jù)中產(chǎn)生自己的理解，然而這其中其實(shí)涉及大量的人為操作，有不少甚至是重復(fù)行為，這被稱(chēng)之為“迭代過(guò)程”。

另一方面，這些工作雖然能部分通過(guò)AutoML精簡(jiǎn)，然而AutoML目前只在圖像分類(lèi)中有較好的表現(xiàn)，并不意味著它在其他領(lǐng)域任務(wù)中會(huì)取得成功。

總而言之，應(yīng)用深度學(xué)習(xí)中的開(kāi)放性問(wèn)題，依舊比許多人想象得要更為復(fù)雜。

論文地址：https://arxiv.org/abs/2301.11316

5. ChatGPT的技術(shù)體系總結(jié)

原文：https://mp.weixin.qq.com/s/woAWs9l_7Opt63-vJfmhzQ

0.參考資料

RLHF論文：Training language models to follow instructions with human feedback（https://arxiv.org/pdf/2203.02155.pdf）

摘要上下文中的 RLHF：Learning to summarize from Human Feedback （https://arxiv.org/pdf/2009.01325.pdf）

PPO論文：Proximal Policy Optimization Algorithms（https://arxiv.org/pdf/1707.06347.pdf）

Deep reinforcement learning from human preferences （https://arxiv.org/abs/1706.03741）

1.引言

1.1 ChatGPT的介紹

作為一個(gè) AI Chatbot，ChatGPT 是當(dāng)前比較強(qiáng)大的自然語(yǔ)言處理模型之一，它基于 Google 的 T5 模型進(jìn)行了改進(jìn)，同時(shí)加入了許多自然語(yǔ)言處理的技術(shù)，使得它可以與人類(lèi)進(jìn)行自然的、連貫的對(duì)話。ChatGPT 使用了 GPT（Generative Pre-training Transformer）架構(gòu)，它是一種基于 Transformer 的預(yù)訓(xùn)練語(yǔ)言模型。GPT 的主要思想是將大量的語(yǔ)料庫(kù)輸入到模型中進(jìn)行訓(xùn)練，使得模型能夠理解和學(xué)習(xí)語(yǔ)言的語(yǔ)法、語(yǔ)義等信息，從而生成自然、連貫的文本。與其他 Chatbot 相比，ChatGPT 的優(yōu)勢(shì)在于它可以進(jìn)行上下文感知型的對(duì)話，即它可以記住上下文信息，而不是簡(jiǎn)單地匹配預(yù)先定義的規(guī)則或模式。此外，ChatGPT 還可以對(duì)文本進(jìn)行生成和理解，支持多種對(duì)話場(chǎng)景和話題，包括閑聊、知識(shí)問(wèn)答、天氣查詢(xún)、新聞閱讀等等。

盡管 ChatGPT 在自然語(yǔ)言處理領(lǐng)域已經(jīng)取得了很好的表現(xiàn)，但它仍然存在一些局限性，例如對(duì)于一些復(fù)雜的、領(lǐng)域特定的問(wèn)題，它可能無(wú)法給出正確的答案，需要通過(guò)人類(lèi)干預(yù)來(lái)解決。因此，在使用 ChatGPT 進(jìn)行對(duì)話時(shí)，我們?nèi)孕枰?jǐn)慎對(duì)待，盡可能提供明確、簡(jiǎn)潔、準(zhǔn)確的問(wèn)題，以獲得更好的對(duì)話體驗(yàn)。

1.2 ChatGPT的訓(xùn)練模式

ChatGPT 的訓(xùn)練模式是基于大規(guī)模文本數(shù)據(jù)集的監(jiān)督學(xué)習(xí)和自我監(jiān)督學(xué)習(xí)，這些數(shù)據(jù)集包括了各種類(lèi)型的文本，例如新聞文章、博客、社交媒體、百科全書(shū)、小說(shuō)等等。ChatGPT 通過(guò)這些數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，然后在特定任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào)。

對(duì)于 Reinforcement Learning from Human Feedback 的訓(xùn)練方式，ChatGPT 通過(guò)與人類(lèi)進(jìn)行對(duì)話來(lái)進(jìn)行模型訓(xùn)練。具體而言，它通過(guò)與人類(lèi)進(jìn)行對(duì)話，從而了解人類(lèi)對(duì)話的語(yǔ)法、語(yǔ)義和上下文等方面的信息，并從中學(xué)習(xí)如何生成自然、連貫的文本。當(dāng) ChatGPT 生成回復(fù)時(shí)，人類(lèi)可以對(duì)其進(jìn)行反饋，例如“好的”、“不太好”等等，這些反饋將被用來(lái)調(diào)整模型參數(shù)，以提高 ChatGPT 的回復(fù)質(zhì)量。Reinforcement Learning from Human Feedback 的訓(xùn)練方式，可以使 ChatGPT 更加智能，更好地模擬人類(lèi)的思維方式。不過(guò)這種訓(xùn)練方式也存在一些問(wèn)題，例如人類(lèi)反饋的主觀性和不確定性等，這些問(wèn)題可能會(huì)影響模型的訓(xùn)練效果。因此，我們需要在使用 ChatGPT 進(jìn)行對(duì)話時(shí)，謹(jǐn)慎對(duì)待反饋，盡可能提供明確、簡(jiǎn)潔、準(zhǔn)確的反饋，以獲得更好的對(duì)話體驗(yàn)。

1.3 RLHF的介紹

在過(guò)去的幾年中，語(yǔ)言模型通過(guò)根據(jù)人類(lèi)輸入提示生成多樣化且引人注目的文本顯示出令人印象深刻的能力。然而，什么才是“好”文本本質(zhì)上很難定義，因?yàn)樗侵饔^的并且依賴(lài)于上下文。有許多應(yīng)用程序，例如編寫(xiě)您需要創(chuàng)意的故事、應(yīng)該真實(shí)的信息性文本片段，或者我們希望可執(zhí)行的代碼片段。編寫(xiě)一個(gè)損失函數(shù)來(lái)捕獲這些屬性似乎很棘手，而且大多數(shù)語(yǔ)言模型仍然使用簡(jiǎn)單的下一個(gè)loss function（例如交叉熵）進(jìn)行訓(xùn)練。為了彌補(bǔ)損失本身的缺點(diǎn)，人們定義了旨在更好地捕捉人類(lèi)偏好的指標(biāo)，例如 BLEU 或 ROUGE。雖然比損失函數(shù)本身更適合衡量性能，但這些指標(biāo)只是簡(jiǎn)單地將生成的文本與具有簡(jiǎn)單規(guī)則的引用進(jìn)行比較，因此也有局限性。如果我們使用生成文本的人工反饋?zhàn)鳛樾阅芎饬繕?biāo)準(zhǔn)，或者更進(jìn)一步并使用該反饋?zhàn)鳛閾p失來(lái)優(yōu)化模型，那不是很好嗎？這就是從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)（RLHF）的想法；使用強(qiáng)化學(xué)習(xí)的方法直接優(yōu)化帶有人類(lèi)反饋的語(yǔ)言模型。RLHF 使語(yǔ)言模型能夠開(kāi)始將在一般文本數(shù)據(jù)語(yǔ)料庫(kù)上訓(xùn)練的模型與復(fù)雜人類(lèi)價(jià)值觀的模型對(duì)齊。

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中，智能的agent需要通過(guò)不斷的試錯(cuò)來(lái)學(xué)習(xí)如何最大化獎(jiǎng)勵(lì)函數(shù)。但是，這種方法往往需要大量的訓(xùn)練時(shí)間和數(shù)據(jù)，同時(shí)也很難確保智能代理所學(xué)習(xí)到的策略是符合人類(lèi)期望的。Deep Reinforcement Learning from Human Preferences 則采用了一種不同的方法，即通過(guò)人類(lèi)偏好來(lái)指導(dǎo)智能代理的訓(xùn)練。具體而言，它要求人類(lèi)評(píng)估一系列不同策略的優(yōu)劣，然后將這些評(píng)估結(jié)果作為訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練智能代理的深度神經(jīng)網(wǎng)絡(luò)。這樣，智能代理就可以在人類(lèi)偏好的指導(dǎo)下，學(xué)習(xí)到更符合人類(lèi)期望的策略。除了減少訓(xùn)練時(shí)間和提高智能代理的性能之外，Deep Reinforcement Learning from Human Preferences 還可以在許多現(xiàn)實(shí)場(chǎng)景中發(fā)揮作用，例如游戲設(shè)計(jì)、自動(dòng)駕駛等。通過(guò)使用人類(lèi)偏好來(lái)指導(dǎo)智能代理的訓(xùn)練，我們可以更好地滿(mǎn)足人類(lèi)需求，并創(chuàng)造出更加智能和人性化的技術(shù)應(yīng)用

2. 方法介紹

方法總體上包括三個(gè)不同步驟：

監(jiān)督調(diào)優(yōu)模型：在一小部分已經(jīng)標(biāo)注好的數(shù)據(jù)上進(jìn)行有監(jiān)督的調(diào)優(yōu)，讓機(jī)器學(xué)習(xí)從一個(gè)給定的提示列表中生成輸出，這個(gè)模型被稱(chēng)為 SFT 模型。
模擬人類(lèi)偏好，讓標(biāo)注者們對(duì)大量 SFT 模型輸出進(jìn)行投票，這樣就可以得到一個(gè)由比較數(shù)據(jù)組成的新數(shù)據(jù)集。然后用這個(gè)新數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)新模型，叫做 RM 模型。
用 RM 模型進(jìn)一步調(diào)優(yōu)和改進(jìn) SFT 模型，用一種叫做 PPO 的方法得到新的策略模式。

第一步只需要進(jìn)行一次，而第二步和第三步可以持續(xù)重復(fù)進(jìn)行，以收集更多的比較數(shù)據(jù)來(lái)訓(xùn)練新的 RM 模型和更新策略模式。

2.1 監(jiān)督調(diào)優(yōu)模型

需要收集數(shù)據(jù)來(lái)訓(xùn)練有監(jiān)督的策略模型。為了做到這一點(diǎn)，選定一些提示，讓標(biāo)注人員寫(xiě)出預(yù)期的回復(fù)。這個(gè)過(guò)程雖然緩慢和昂貴，但最終得到的是一個(gè)相對(duì)較小、高質(zhì)量的數(shù)據(jù)集，可用于調(diào)優(yōu)預(yù)訓(xùn)練的語(yǔ)言模型。選擇了 GPT-3.5 系列中的預(yù)訓(xùn)練模型作為基線模型，而不是對(duì)原始 GPT-3 模型進(jìn)行調(diào)優(yōu)。

然而，由于此步驟的數(shù)據(jù)量有限，這個(gè)過(guò)程得到的 SFT 模型可能會(huì)輸出一些不是用戶(hù)想要的文本，通常也會(huì)出現(xiàn)不一致問(wèn)題。為了解決這個(gè)問(wèn)題，使用的策略是讓標(biāo)注者對(duì) SFT 模型的不同輸出進(jìn)行排序以創(chuàng)建 RM 模型，而不是讓標(biāo)注者創(chuàng)建一個(gè)更大的精選數(shù)據(jù)集。

2.2 訓(xùn)練回報(bào)模型

在這一步中，我們的目標(biāo)是學(xué)習(xí)一個(gè)目標(biāo)函數(shù)，它可以直接從數(shù)據(jù)中學(xué)習(xí)，而不是僅僅從有限的訓(xùn)練數(shù)據(jù)中調(diào)整語(yǔ)言模型。這個(gè)目標(biāo)函數(shù)的作用是為 SFT 模型生成的輸出進(jìn)行評(píng)分，以表示這些輸出對(duì)人類(lèi)來(lái)說(shuō)有多可接受。它反映了人類(lèi)標(biāo)注者的偏好和共同準(zhǔn)則。最終，這個(gè)過(guò)程可以得到一個(gè)系統(tǒng)，它可以模仿人類(lèi)的偏好。包括以下步驟：

利用prompt 生成多個(gè)輸出。
利用標(biāo)注者對(duì)這些輸出進(jìn)行排序，獲得一個(gè)更大質(zhì)量更高的數(shù)據(jù)集。
把模型將 SFT 模型輸出作為輸入，并按優(yōu)先順序?qū)λ鼈冞M(jìn)行排序。

2.3 使用 PPO 模型微調(diào) SFT 模型

這一步的目標(biāo)是通過(guò)強(qiáng)化學(xué)習(xí)來(lái)調(diào)整 SFT 模型。具體來(lái)說(shuō)，使用了一個(gè)叫 PPO 的算法來(lái)訓(xùn)練一個(gè)叫做近端策略?xún)?yōu)化模型的調(diào)整模型，用于優(yōu)化 SFT 模型。

PPO 是一種用于訓(xùn)練智能體的算法，可以不斷地調(diào)整策略以提高效果。與其他算法不同的是，PPO 會(huì)限制策略的更改范圍，以確保訓(xùn)練的穩(wěn)定性。此外，PPO 還使用了一個(gè)價(jià)值函數(shù)來(lái)估計(jì)每個(gè)行動(dòng)的價(jià)值，從而更加準(zhǔn)確地進(jìn)行調(diào)整。

在這一步中，PPO 模型使用 SFT 模型作為起點(diǎn)，RM 模型作為基礎(chǔ)，為給定的輸入生成回報(bào)。為了避免過(guò)度優(yōu)化，SFT 模型會(huì)為每個(gè) token 添加 KL 懲罰因子。

3. 性能評(píng)估

作為一個(gè)大型語(yǔ)言模型，ChatGPT的評(píng)估標(biāo)準(zhǔn)可以有多種。在訓(xùn)練ChatGPT時(shí)，通常會(huì)使用一些標(biāo)準(zhǔn)的自然語(yǔ)言處理評(píng)估指標(biāo)來(lái)評(píng)估其性能，如困惑度（perplexity）、BLEU分?jǐn)?shù)、ROUGE分?jǐn)?shù)等。這些指標(biāo)可以用來(lái)評(píng)估ChatGPT在生成文本時(shí)的流暢度、語(yǔ)義連貫性和表達(dá)能力等方面的表現(xiàn)。此外，ChatGPT也可以通過(guò)人類(lèi)評(píng)估來(lái)評(píng)估其性能，例如進(jìn)行用戶(hù)調(diào)查或人類(lèi)評(píng)分實(shí)驗(yàn)。這些方法可以提供更貼近實(shí)際使用場(chǎng)景的評(píng)估，以便更全面地評(píng)估ChatGPT在生成自然語(yǔ)言文本方面的表現(xiàn)。

主要借助以下三個(gè)標(biāo)準(zhǔn)進(jìn)行評(píng)估：

幫助性：判斷模型遵循用戶(hù)指示以及推斷指示的能力。
真實(shí)性：判斷模型在封閉領(lǐng)域任務(wù)中有產(chǎn)生虛構(gòu)事實(shí)的傾向。
無(wú)害性：標(biāo)注者評(píng)估模型的輸出是否適當(dāng)、是否包含歧視性?xún)?nèi)容。

4. ChatGPT的前景

ChatGPT 在自然語(yǔ)言處理領(lǐng)域具有廣泛的應(yīng)用前景。它可以用于語(yǔ)言翻譯、情感分析、問(wèn)答系統(tǒng)、文本摘要、對(duì)話系統(tǒng)等多個(gè)任務(wù)，幫助人們更好地理解和處理自然語(yǔ)言。此外，ChatGPT 還可以應(yīng)用于許多其他領(lǐng)域，例如自然語(yǔ)言生成、自動(dòng)文本摘要、機(jī)器翻譯、自動(dòng)問(wèn)答、語(yǔ)音識(shí)別等。它也可以用于推薦系統(tǒng)、智能客服、智能問(wèn)答、知識(shí)圖譜等領(lǐng)域。ChatGPT 的未來(lái)發(fā)展前景非常廣闊，可以預(yù)見(jiàn)的是，隨著技術(shù)的不斷發(fā)展，它將在各個(gè)領(lǐng)域得到更廣泛的應(yīng)用和改進(jìn)。同時(shí)，也需要關(guān)注和解決一些挑戰(zhàn)，例如如何提高模型的效率和準(zhǔn)確性，如何解決對(duì)話中的常識(shí)推理和知識(shí)不足等問(wèn)題。

6. 一文梳理清楚Python OpenCV 的知識(shí)體系

原文：https://mp.weixin.qq.com/s/woAWs9l_7Opt63-vJfmhzQ

1. OpenCV 初識(shí)與安裝

本部分要了解 OpenCV （Open Source Computer Vision Library）的相關(guān)簡(jiǎn)介，OpenCv 可以運(yùn)行在多平臺(tái)之上，輕量級(jí)而且高效，由一系列 C 函數(shù)和少量 C++類(lèi)構(gòu)成，提供了 Python、Ruby、MATLAB 等語(yǔ)言的接口，所以在學(xué)習(xí)的時(shí)候，要注意查閱資料的語(yǔ)言實(shí)現(xiàn)相關(guān)問(wèn)題。

這個(gè)階段除了安裝 OpenCV 相關(guān)庫(kù)以外，建議收藏官方網(wǎng)址，官方手冊(cè)，官方入門(mén)教程，這些都是最佳的學(xué)習(xí)資料。

模塊安裝完畢，需要重點(diǎn)測(cè)試 OpenCV 是否安裝成功，可通過(guò) Python 查詢(xún)安裝版本。

2. OpenCV 模塊簡(jiǎn)介

先從全局上掌握 OpenCV 都由哪些模塊組成。例如下面這些模塊，你需要找到下述模塊的應(yīng)用場(chǎng)景與簡(jiǎn)介。

core、imgproc、highgui、calib3d、features2d、contrib、flann、gpu、legacy、ml、objdetect、photo、stitching。

整理每個(gè)模塊的核心功能，并完成第一個(gè) OpenCV 案例，讀取顯示圖片。

3. OpenCV 圖像讀取，顯示，保存

安裝 OpenCV 之后，從圖像獲取開(kāi)始進(jìn)行學(xué)習(xí)，包含本地加載圖片，相機(jī)獲取圖片，視頻獲取，創(chuàng)建圖像等內(nèi)容。

只有先獲取圖像之后，才能對(duì)圖像進(jìn)行操作處理，信息提取，結(jié)果輸出，圖像顯示，圖像保存。

對(duì)于一個(gè)圖像而言，在 OpenCV 中進(jìn)行讀取展示的步驟如下，你可以將其代碼進(jìn)行對(duì)應(yīng)。

圖像讀取；
窗口創(chuàng)建；
圖像顯示；
圖像保存；
資源釋放。

涉及需要學(xué)習(xí)的函數(shù)有 cv2.imread()、cv2.namedWindow()、cv2.imshow()、cv2.imwrite()、cv2.destroyWindow()、cv2.destroyAllWindows()、 cv2.imshow()、cv2.cvtColor()、cv2.imwrite()、cv2.waitKey()。

4. 攝像頭和視頻讀取，保存

第一個(gè)要重點(diǎn)學(xué)習(xí) VideoCapture 類(lèi)，該類(lèi)常用的方法有：

open() 函數(shù)；
isOpened() 函數(shù)；
release() 函數(shù)；
grab() 函數(shù)；
retrieve() 函數(shù)；
get() 函數(shù)；
set() 函數(shù)；

除了讀取視頻外，還需要掌握 Opencv 提供的 VideoWriter 類(lèi)，用于保存視頻文件。

學(xué)習(xí)完相關(guān)知識(shí)之后，可以進(jìn)行這樣一個(gè)實(shí)驗(yàn)，將一個(gè)視頻逐幀保存為圖片。

5. OpenCV 常用數(shù)據(jù)結(jié)構(gòu)和顏色空間

這部分要掌握的類(lèi)有 Point 類(lèi)、Rect 類(lèi)、Size 類(lèi)、Scalar 類(lèi)，除此之外，在 Python 中用 numpy 對(duì)圖像進(jìn)行操作，所以 numpy 相關(guān)的知識(shí)點(diǎn)，建議提前學(xué)習(xí)，效果更佳。

OpenCV 中常用的顏色空間有 BGR 顏色空間、HSV/HLS 顏色空間、Lab 顏色空間，這些都需要了解，優(yōu)先掌握 BGR 顏色空間。

6. OpenCV 常用繪圖函數(shù)

掌握如下函數(shù)的用法，即可熟練的在 Opencv 中繪制圖形。

cv2.line()；
cv2.circle()；
cv2.rectangle()；
cv2.ellipse()；
cv2.fillPoly()；
cv2.polylines()；
cv2.putText()。

7. OpenCV 界面事件操作之鼠標(biāo)與滑動(dòng)條

第一個(gè)要掌握的函數(shù)是鼠標(biāo)操作消息回調(diào)函數(shù)，cv2.setMouseCallback() ，滑動(dòng)條涉及兩個(gè)函數(shù)，分別是：cv2.createTrackbar() 和 cv2.getTrackbarPos()。

掌握上述內(nèi)容之后，可以實(shí)現(xiàn)兩個(gè)案例，其一為鼠標(biāo)在一張圖片上拖動(dòng)框選區(qū)域進(jìn)行截圖，其二是通過(guò)滑動(dòng)條讓視頻倍速播放。

8. 圖像像素、通道分離與合并

了解圖像像素矩陣，熟悉圖片的像素構(gòu)成，可以訪問(wèn)指定像素的像素值，并對(duì)其進(jìn)行修改。

通道分離函數(shù) cv2.split()，通道合并函數(shù) cv2.merge()。

9. 圖像邏輯運(yùn)算

掌握?qǐng)D像之間的計(jì)算，涉及函數(shù)如下：

cv2.add()；
cv2.addWeighted()；
cv2.subtract()；
cv2.absdiff()；
cv2.bitwise_and()；
cv2.bitwise_not()；
cv2.bitwise_xor()。

還可以研究圖像乘除法。

10. 圖像 ROI 與 mask 掩膜

本部分屬于 OpenCV 中的重點(diǎn)知識(shí)，第一個(gè)為感興趣區(qū)域 ROI，第二個(gè)是 mask 掩膜（掩碼）操作。

學(xué)習(xí) ROI 部分時(shí)，還可以學(xué)習(xí)一下圖像的深淺拷貝。

11. 圖像幾何變換

圖像幾何變換依舊是對(duì)基礎(chǔ)函數(shù)的學(xué)習(xí)與理解，涉及內(nèi)容如下：

圖像縮放 cv2.resize()；
圖像平移 cv2.warpAffine()；
圖像旋轉(zhuǎn) cv2.getRotationMatrix2D()；
圖像轉(zhuǎn)置 cv2.transpose()；
圖像鏡像 cv2.flip()；
圖像重映射 cv2.remap()。

12. 圖像濾波

理解什么是濾波，高頻與低頻濾波，圖像濾波函數(shù)。

線性濾波：方框?yàn)V波、均值濾波、高斯濾波，
非線性濾波：中值濾波、雙邊濾波，

方框?yàn)V波 cv2.boxFilter()；
均值濾波 cv2.blur()；
高斯濾波 cv2.GaussianBlur()；
中值濾波 cv2.medianBlur()；
雙邊濾波 cv2.bilateralFilter()。

13. 圖像固定閾值與自適應(yīng)閾值

圖像閾值化是圖像處理的重要基礎(chǔ)部分，應(yīng)用很廣泛，可以根據(jù)灰度差異來(lái)分割圖像不同部分，閾值化處理的圖像一般為單通道圖像(灰度圖)，核心要掌握的兩個(gè)函數(shù)：

固定閾值：cv2.threshold()；
自適應(yīng)閾值：cv2.adaptiveThreshold()。

14. 圖像膨脹腐蝕

膨脹、腐蝕屬于形態(tài)學(xué)的操作，是圖像基于形狀的一系列圖像處理操作。

膨脹腐蝕是基于高亮部分（白色）操作的，膨脹是対高亮部分進(jìn)行膨脹，類(lèi)似“領(lǐng)域擴(kuò)張”，腐蝕是高亮部分被腐蝕，類(lèi)似“領(lǐng)域被蠶食”。

膨脹腐蝕的應(yīng)用和功能：

消除噪聲；
分割獨(dú)立元素或連接相鄰元素；
尋找圖像中的明顯極大值、極小值區(qū)域；
求圖像的梯度；

核心需要掌握的函數(shù)如下：

膨脹 cv2.dilate()；
腐蝕 cv2.erode()。

形態(tài)學(xué)其他操作，開(kāi)運(yùn)算、閉運(yùn)算、頂帽、黑帽、形態(tài)學(xué)梯度這些都是基于膨脹腐蝕基礎(chǔ)之上，利用 cv2.morphologyEx() 函數(shù)進(jìn)行操作。

15. 邊緣檢測(cè)

邊緣檢測(cè)可以提取圖像重要輪廓信息，減少圖像內(nèi)容，可用于分割圖像、特征提取等操作。

邊緣檢測(cè)的一般步驟：

濾波：濾出噪聲対?rùn)z測(cè)邊緣的影響；
增強(qiáng)：可以將像素鄰域強(qiáng)度變化凸顯出來(lái)—梯度算子；
檢測(cè)：閾值方法確定邊緣；

常用邊緣檢測(cè)算子：

Canny 算子，Canny 邊緣檢測(cè)函數(shù) cv2.Canny()；
Sobel 算子，Sobel 邊緣檢測(cè)函數(shù) cv2.Sobel()；
Scharr 算子，Scharr 邊緣檢測(cè)函數(shù) cv2.Scahrr() ；
Laplacian 算子，Laplacian 邊緣檢測(cè)函數(shù) cv2.Laplacian()。

16. 霍夫變換

霍夫變換（Hough Transform）是圖像處理中的一種特征提取技術(shù)，該過(guò)程在一個(gè)參數(shù)空間中，通過(guò)計(jì)算累計(jì)結(jié)果的局部最大值，得到一個(gè)符合該特定形狀的集合，作為霍夫變換的結(jié)果。

本部分要學(xué)習(xí)的函數(shù)：

標(biāo)準(zhǔn)霍夫變換、多尺度霍夫變換 cv2.HoughLines() ；
累計(jì)概率霍夫變換 cv2.HoughLinesP() ；
霍夫圓變換 cv2.HoughCricles() 。

17. 圖像直方圖計(jì)算及繪制

先掌握直方圖相關(guān)概念，在掌握核心函數(shù)，最后通過(guò) matplotlib 模塊對(duì)直方圖進(jìn)行繪制。計(jì)算直方圖用到的函數(shù)是 cv2.calcHist()。

直方圖相關(guān)應(yīng)用：

直方圖均衡化 cv2.equalizeHist()；
直方圖對(duì)比 cv2.compareHist()；
反向投影 cv2.calcBackProject()。

18. 模板匹配

模板匹配是在一幅圖像中尋找與另一幅模板圖像最匹配（相似）部分的技術(shù)。

核心用到的函數(shù)如下：

模板匹配 cv2.matchTemplate()；
矩陣歸一化 cv2.normalize()；
尋找最值 cv2.minMaxLoc()。

19. 輪廓查找與繪制

核心要理解到在 OpenCV 中，查找輪廓就像在黑色背景中找白色物體。

常用函數(shù)：

查找輪廓 cv2.findContours()；
繪制輪廓 cv2.drawContours() 。

最后應(yīng)該掌握針對(duì)每個(gè)輪廓進(jìn)行操作。

20. 輪廓特征屬性及應(yīng)用

這部分內(nèi)容比較重要，并且知識(shí)點(diǎn)比較多，核心內(nèi)容與函數(shù)分別如下：

尋找凸包 cv2.convexHull() 與凸性檢測(cè) cv2.isContourConvex()；
輪廓外接矩形 cv2.boundingRect()；
輪廓最小外接矩形 cv2.minAreaRect()；
輪廓最小外接圓 cv2.minEnclosingCircle()；
輪廓橢圓擬合 cv2.fitEllipse()；
逼近多邊形曲線 cv2.approxPolyDP()；
計(jì)算輪廓面積 cv2.contourArea()；
計(jì)算輪廓長(zhǎng)度 cv2.arcLength()；
計(jì)算點(diǎn)與輪廓的距離及位置關(guān)系 cv2.pointPolygonTest()；
形狀匹配 cv2.matchShapes()。

21. 高級(jí)部分-分水嶺算法及圖像修補(bǔ)

掌握分水嶺算法的原理，掌握核心函數(shù) cv2.watershed() 。

可以擴(kuò)展補(bǔ)充圖像修補(bǔ)技術(shù)及相關(guān)函數(shù) cv2.inpaint()，學(xué)習(xí)完畢可以嘗試人像祛斑應(yīng)用。

22. GrabCut & FloodFill 圖像分割、角點(diǎn)檢測(cè)

這部分內(nèi)容都需要一些圖像專(zhuān)業(yè)背景知識(shí)，先掌握相關(guān)概念知識(shí)，在重點(diǎn)學(xué)習(xí)相關(guān)函數(shù)。

GrabCut 算法 cv2.grabCut()；
漫水填充算法 cv2.floodFill()；
Harris 角點(diǎn)檢測(cè) cv2.cornerHarris()；
Shi-Tomasi 角點(diǎn)檢測(cè) cv2.goodFeaturesToTrack()；
亞像素角點(diǎn)檢測(cè) cv2.cornerSubPix()。

23. 特征檢測(cè)與匹配

特征點(diǎn)的檢測(cè)和匹配是計(jì)算機(jī)視覺(jué)中非常重要的技術(shù)之一, 在物體識(shí)別、視覺(jué)跟蹤、三維重建等領(lǐng)域都有很廣泛的應(yīng)用。

OpenCV 提供了如下特征檢測(cè)方法：

“FAST” FastFeatureDetector；
“STAR” StarFeatureDetector；
“SIFT” SIFT(nonfree module) Opencv3 移除，需調(diào)用 xfeature2d 庫(kù)；
“SURF” SURF(nonfree module) Opencv3 移除，需調(diào)用 xfeature2d 庫(kù)；
“ORB” ORB Opencv3 移除，需調(diào)用 xfeature2d 庫(kù)；
“MSER” MSER；
“GFTT” GoodFeaturesToTrackDetector；
“HARRIS” (配合 Harris detector)；
“Dense” DenseFeatureDetector；
“SimpleBlob” SimpleBlobDetector。

24. OpenCV 應(yīng)用部分之運(yùn)動(dòng)物體跟蹤與人臉識(shí)別

了解何為運(yùn)動(dòng)物體檢測(cè)，OpenCV 中常用的運(yùn)動(dòng)物體檢測(cè)方法有背景減法、幀差法、光流法，跟蹤算法常用的有 meanShift， camShift，粒子濾波， 光流法 等。

meanShift 跟蹤算法 cv2.meanShift()；
CamShift 跟蹤算法 cv2.CamShift()。

如果學(xué)習(xí)人臉識(shí)別，涉及的知識(shí)點(diǎn)為：

人臉檢測(cè)：從圖像中找出人臉位置并標(biāo)識(shí)；
人臉識(shí)別：從定位到的人臉區(qū)域區(qū)分出人的姓名或其它信息；
機(jī)器學(xué)習(xí)。

———————End———————

你可以添加微信：rtthread2020 為好友，注明：公司+姓名，拉進(jìn)RT-Thread官方微信交流群！

↓點(diǎn)擊閱讀原文

愛(ài)我就請(qǐng)給我在看

原文標(biāo)題：【AI簡(jiǎn)報(bào)第20230217期】超越GPT 3.5的小模型來(lái)了！AI網(wǎng)戀詐騙時(shí)代開(kāi)啟

文章出處：【微信公眾號(hào)：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

RT-Thread

RT-Thread

+關(guān)注

關(guān)注
31

文章
1301

瀏覽量
40265

原文標(biāo)題：【AI簡(jiǎn)報(bào)第20230217期】超越GPT 3.5的小模型來(lái)了！AI網(wǎng)戀詐騙時(shí)代開(kāi)啟

文章出處：【微信號(hào)：RTThread，微信公眾號(hào)：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AI時(shí)代算力的重要性及現(xiàn)狀:平衡發(fā)展與優(yōu)化配置的挑戰(zhàn)

在AI時(shí)代，算力扮演著至關(guān)重要的角色。如果說(shuō)數(shù)據(jù)是AI大模型的“燃料”，那么算力則是其強(qiáng)大的“動(dòng)力引擎”。據(jù)資料顯示，為了訓(xùn)練GPT大

發(fā)表于 11-04 11:45 ?495次閱讀

AI大模型在自然語(yǔ)言處理中的應(yīng)用

AI大模型在自然語(yǔ)言處理（NLP）中的應(yīng)用廣泛且深入，其強(qiáng)大的語(yǔ)義理解和生成能力為NLP任務(wù)帶來(lái)了顯著的性能提升。以下是對(duì)AI大模型在NLP

發(fā)表于 10-23 14:38 ?544次閱讀

大模型時(shí)代的算力需求

現(xiàn)在AI已進(jìn)入大模型時(shí)代，各企業(yè)都爭(zhēng)相部署大模型，但如何保證大模型的算力，以及相關(guān)的穩(wěn)定性和性能，是一個(gè)極為重要的問(wèn)題，帶著這個(gè)極為重要的問(wèn)

發(fā)表于 08-20 09:04

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

OpenAI推出了GPT-4o mini模型，用來(lái)取代GPT-3.5.這是目前市場(chǎng)上最具成本效益的小模型。 ? 該模型在MMLU上得分為82

發(fā)表于 07-21 10:20 ?1106次閱讀

OpenAI 推出 <b class='flag-5'>GPT</b>-4o mini 取代<b class='flag-5'>GPT</b> <b class='flag-5'>3.5</b> 性能<b class='flag-5'>超越</b><b class='flag-5'>GPT</b> 4 而且更快 API KEY更便宜

Anthropic發(fā)布最新AI模型Claude 3.5，引入Artifacts新功能

近日，科技領(lǐng)域又迎來(lái)了一項(xiàng)引人注目的進(jìn)展。Anthropic，這家OpenAI的競(jìng)爭(zhēng)對(duì)手，于6月21日正式發(fā)布了其最新且功能強(qiáng)大的AI模型——Claude 3.5 Sonnet。這一里

發(fā)表于 06-22 17:21 ?2116次閱讀

Anthropic 發(fā)布Claude 3.5 Sonnet模型運(yùn)行速度是Claude 3 Opus的兩倍

Anthropic 發(fā)布Claude 3.5 Sonnet最新模型新模型在推理、知識(shí)和編碼能力評(píng)估方面超越了以前的版本和競(jìng)爭(zhēng)對(duì)手GPT 4

發(fā)表于 06-21 15:43 ?857次閱讀

Anthropic 發(fā)布Claude <b class='flag-5'>3.5</b> Sonnet<b class='flag-5'>模型</b>運(yùn)行速度是Claude 3 Opus的兩倍

STM CUBE AI錯(cuò)誤導(dǎo)入onnx模型報(bào)錯(cuò)的原因？

使用cube-AI分析模型時(shí)報(bào)錯(cuò)，該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.

發(fā)表于 05-27 07:15

Microsoft Edge瀏覽器采用智能AI填充功能，提供GPT模型的表單填寫(xiě)服務(wù)

有了這個(gè)功能，當(dāng)用戶(hù)填寫(xiě)表單時(shí)，AI模型GPT可提供相關(guān)建議。據(jù)Windows Latest等外媒報(bào)道，雖然該功能尚未正式啟用，但用戶(hù)可以通過(guò)設(shè)置應(yīng)用手動(dòng)開(kāi)啟它，然后在填寫(xiě)表單時(shí)就能看

發(fā)表于 05-10 15:10 ?665次閱讀

微軟發(fā)布phi-3AI模型，性能超越GPT-3.5

微軟稱(chēng)，帶有38億參數(shù)的phi-3-mini經(jīng)過(guò)3.3萬(wàn)億token的強(qiáng)化學(xué)習(xí)，其基礎(chǔ)表現(xiàn)已經(jīng)超過(guò)Mixtral 8x7B及GPT-3.5；此外，該模型可在手機(jī)等移動(dòng)設(shè)備上運(yùn)行，并在phi-2模型（27億參數(shù)）的基礎(chǔ)上，進(jìn)一步融

發(fā)表于 04-23 14:32 ?562次閱讀

蘋(píng)果ReALM模型在實(shí)體識(shí)別測(cè)試中超越OpenAI GPT-4.0

“我們的模型在識(shí)別各種類(lèi)型實(shí)體方面都有顯著提升，即使是小尺寸模型，在屏幕實(shí)體識(shí)別準(zhǔn)確性上也已超過(guò)原有的系統(tǒng)5%以上。在與GPT-3.5和GPT-4.0的比較中，小型

發(fā)表于 04-02 11:23 ?514次閱讀

使用cube-AI分析模型時(shí)報(bào)錯(cuò)的原因有哪些？

使用cube-AI分析模型時(shí)報(bào)錯(cuò)，該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.

發(fā)表于 03-14 07:09

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

起初，Copilot作為Bing Chat AI助手推出，初期采用GPT-3.5模型，隨后升級(jí)至GPT-4取得顯著進(jìn)步，如今再次更新至性能卓越的GP

發(fā)表于 03-13 13:42 ?760次閱讀

全球最強(qiáng)大模型易主，GPT-4被超越

近日，AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型，其中包括最強(qiáng)版Claude 3 Opus。據(jù)該公司稱(chēng)，Claude 3系列在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺(jué)方面全面超越了包括

發(fā)表于 03-05 09:58 ?685次閱讀

Anthropic推出Claude 3系列模型，全面超越GPT-4，樹(shù)立AI新標(biāo)桿

近日，AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型，該系列模型在多模態(tài)和語(yǔ)言能力等關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能，成功擊敗了此前被廣泛認(rèn)為是全球最強(qiáng)AI

發(fā)表于 03-05 09:49 ?716次閱讀

全球最強(qiáng)大模型易主：GPT-4被超越，Claude 3系列嶄露頭角

近日，人工智能領(lǐng)域迎來(lái)了一場(chǎng)革命性的突破。Anthropic公司發(fā)布了全新的Claude 3系列模型，該系列模型在多模態(tài)和語(yǔ)言能力等關(guān)鍵指標(biāo)上展現(xiàn)出卓越性能，成功超越了此前被廣泛認(rèn)為是

發(fā)表于 03-05 09:42 ?682次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

【AI簡(jiǎn)報(bào)第20230217期】超越GPT 3.5的小模型來(lái)了！AI網(wǎng)戀詐騙時(shí)代開(kāi)啟

嵌入式 AI

1. 超越GPT 3.5的小模型來(lái)了！

2. AI照騙恐怖如斯！美女刷屏真假難辨，網(wǎng)友：AI網(wǎng)戀詐騙時(shí)代開(kāi)啟

3. YOLOv7農(nóng)業(yè)方向應(yīng)用｜基于注意力機(jī)制改進(jìn)的YOLOv7算法CBAM-YOLOv7

4. AutoML并非全能神器！新綜述爆火，網(wǎng)友：了解深度學(xué)習(xí)領(lǐng)域現(xiàn)狀必讀

這篇論文要研究什么？

機(jī)器學(xué)習(xí)中開(kāi)放問(wèn)題有哪些？

5. ChatGPT的技術(shù)體系總結(jié)

2.1 監(jiān)督調(diào)優(yōu)模型

2.2 訓(xùn)練回報(bào)模型

2.3 使用 PPO 模型微調(diào) SFT 模型

6. 一文梳理清楚Python OpenCV 的知識(shí)體系

評(píng)論

AI時(shí)代算力的重要性及現(xiàn)狀:平衡發(fā)展與優(yōu)化配置的挑戰(zhàn)

AI大模型在自然語(yǔ)言處理中的應(yīng)用

大模型時(shí)代的算力需求

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

Anthropic發(fā)布最新AI模型Claude 3.5，引入Artifacts新功能

Anthropic 發(fā)布Claude 3.5 Sonnet模型運(yùn)行速度是Claude 3 Opus的兩倍

STM CUBE AI錯(cuò)誤導(dǎo)入onnx模型報(bào)錯(cuò)的原因？

Microsoft Edge瀏覽器采用智能AI填充功能，提供GPT模型的表單填寫(xiě)服務(wù)

微軟發(fā)布phi-3AI模型，性能超越GPT-3.5

蘋(píng)果ReALM模型在實(shí)體識(shí)別測(cè)試中超越OpenAI GPT-4.0

使用cube-AI分析模型時(shí)報(bào)錯(cuò)的原因有哪些？

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

全球最強(qiáng)大模型易主，GPT-4被超越

Anthropic推出Claude 3系列模型，全面超越GPT-4，樹(shù)立AI新標(biāo)桿

全球最強(qiáng)大模型易主：GPT-4被超越，Claude 3系列嶄露頭角