在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Kaggle知識點:使用大模型進行特征篩選

穎脈Imgtec ? 2024-12-03 01:06 ? 次閱讀

本文轉自:Coggle數據科學


數據挖掘的核心是是對海量數據進行有效的篩選和分析。傳統上數據篩選依賴于數據驅動的方法,如包裹式、過濾式和嵌入式篩選。隨著大模型的發展,本文將探討如何利用大模型進行特征篩選。

afea0562-b0cf-11ef-8084-92fbcf53809c.png

篩選思路

數據驅動方法依賴于數據集中的樣本點進行統計推斷,而基于文本的方法需要描述性的上下文以更好地在特征和目標變量之間建立語義關聯。

b01e086c-b0cf-11ef-8084-92fbcf53809c.png

這種方法利用了大型語言模型(LLMs)中豐富的語義知識來執行特征選擇。大模型將利用數據集描述(desd)和特征描述(desf),描述特征的重要性。

  • LLM生成的特征重要性得分(LLM-Score)
  • LLM生成的特征排名(LLM-Rank)
  • 基于LLM的交叉驗證篩選(LLM-Seq)

實驗設置

  • 模型:實驗中使用了不同參數規模的LLMs,包括LLaMA-2(7B和13B參數)、ChatGPT(約175B參數)和GPT-4(約1.7T參數)。
  • 比較方法:將基于LLM的特征選擇方法與傳統的特征選擇基線方法進行比較,包括互信息過濾(MI)、遞歸特征消除(RFE)、最小冗余最大相關性選擇(MRMR)和隨機特征選擇。
  • 數據集:使用了多個數據集進行分類和回歸任務的評估,包括Adult、Bank、Communities等。

實現細節:對于每個數據集,固定特征選擇比例為30%,并在16-shot、32-shot、64-shot和128-shot的不同數據可用性配置下進行評估。使用下游L2懲罰的邏輯/線性回歸模型來衡量測試性能,并使用AUROC和MAE作為評估指標。


實驗結果

將LLM-based特征選擇方法與傳統的特征選擇基線方法進行比較,包括LassoNet、LASSO、前向序貫選擇、后向序貫選擇、遞歸特征消除(RFE)、最小冗余最大相關性選擇(MRMR)、基于互信息(MI)的過濾和隨機特征選擇。

b04b950c-b0cf-11ef-8084-92fbcf53809c.png
  • 發現1:在小規模數據集上,基于文本的特征選擇方法比數據驅動的方法更有效。在幾乎所有的LLM和任務中,基于文本的特征選擇方法的性能都超過了數據驅動方法。
  • 發現2:使用最先進的LLMs進行基于文本的特征選擇,在每種數據可用性設置下都能與傳統特征選擇方法相媲美。
  • 發現3:當樣本數量增加時,使用LLMs的數據驅動特征選擇會遇到困難。特別是當樣本大小從64增加到128時,分類任務的性能顯著下降。
  • 發現4:與數據驅動特征選擇相比,基于文本的特征選擇顯示出更強的模型規模擴展性。
b0700e78-b0cf-11ef-8084-92fbcf53809c.pngb0a18124-b0cf-11ef-8084-92fbcf53809c.png

GPT-4基于LLM-Score在folktables數據集上整體表現最佳,在MIMIC-IV數據集上顯著優于LassoNet和隨機特征選擇基線。LLM-Score在選擇前10%和30%的特征時,與最佳數據驅動基線的性能相媲美,且明顯優于隨機選擇。在醫療保健等復雜領域,LLM-Score即使在沒有訪問訓練數據的情況下,也能有效地進行特征選擇。

參考文獻

https://arxiv.org/pdf/2408.12025

  • https://arxiv.org/pdf/2407.02694


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    524

    瀏覽量

    10277
  • 海量數據
    +關注

    關注

    0

    文章

    3

    瀏覽量

    889
  • 大模型
    +關注

    關注

    2

    文章

    2448

    瀏覽量

    2703
收藏 人收藏

    評論

    相關推薦

    C語言鏈表知識點(2)

    C語言鏈表知識點(2)
    發表于 08-22 10:38 ?330次閱讀
    C語言鏈表<b class='flag-5'>知識點</b>(2)

    使用PADS軟件進行PCB設計,有哪些基礎知識點

    使用PADS軟件進行PCB設計,有哪些基礎知識點?發現知識點很多、很雜、很亂,有沒有聚合歸納統一的內容給到
    發表于 08-20 12:07

    BFC的基礎知識點有哪些?

    BFC的基礎知識點:css盒模型清除浮動 div水平垂直居中原型和原型鏈
    發表于 11-05 06:02

    計算機組成原理考研知識點歸納

    計算機組成原理考研知識點歸納 寫在前面的話:理科知識重在于理解知識點本身,對于每一個知識點,大家都有自己理解的方式。這篇
    發表于 04-13 14:06 ?1922次閱讀

    基于知識點的改進型遺傳組卷算法的研究

    為了實現無紙化考試系統題庫的自動組卷需求,提出了一種基于知識點的改進型遺傳組卷算法,該算法主要是先對知識點進行多次隨機篩選,然后利用改進型遺傳組卷算法對其它多個約
    發表于 01-08 15:28 ?0次下載
    基于<b class='flag-5'>知識點</b>的改進型遺傳組卷算法的研究

    高一數學知識點總結

    高一數學知識點總結高一數學知識點總結高一數學知識點總結
    發表于 02-23 15:27 ?0次下載

    高二數學知識點總結

    高二數學知識點總結高二數學知識點總結高二數學知識點總結
    發表于 02-23 15:27 ?0次下載

    PWM知識點詳解

    PWM知識點
    發表于 03-16 08:00 ?44次下載

    嵌入式知識點總結

    嵌入式知識點總結(arm嵌入式開發led過程)-嵌入式知識點總結? ? ? ? ? ? ? ? ? ??
    發表于 07-30 14:20 ?23次下載
    嵌入式<b class='flag-5'>知識點</b>總結

    電力基礎知識點合集

    電力基礎知識點合集
    發表于 03-14 16:35 ?0次下載

    詳解射頻微波基礎知識點

    詳解射頻微波基礎知識點
    的頭像 發表于 01-29 10:28 ?2374次閱讀

    C語言最重要的知識點

    C語言知識點總結.doc
    發表于 02-16 16:37 ?9次下載

    數字電路知識點總結

    本文整理了數字電路課程中的相關基本的知識點和較為重要的知識點,用于求職的數電部分的知識準備,差缺補漏。
    的頭像 發表于 05-30 15:07 ?4871次閱讀
    數字電路<b class='flag-5'>知識點</b>總結

    滾珠螺桿的基本知識點

    滾珠螺桿的基本知識點
    的頭像 發表于 07-07 17:40 ?1532次閱讀
    滾珠螺桿的基本<b class='flag-5'>知識點</b>

    STM32 RTOS知識點

    電子發燒友網站提供《STM32 RTOS知識點.pdf》資料免費下載
    發表于 08-01 14:28 ?3次下載
    STM32 RTOS<b class='flag-5'>知識點</b>
    主站蜘蛛池模板: asian极品呦女爱爱| 欧美区在线| 亚洲国产一区二区在线| 午夜老司机福利| 激情丁香小说| 日韩插插| 天天躁夜夜躁狠狠躁2024| 色操网| 最近观看免费高清视频| 成人影院在线观看| 亚洲成人在线免费| 国产一级特黄的片子| 狠狠操亚洲| 妖精视频亚洲| 国产精品视频你懂的| 国产午夜久久精品| 性感美女毛片| ts在线视频| 俺也啪| 欧美怡红院免费全视频| 天天摸天天舔天天操| 色噜噜人体337p人体| 美女 免费 视频 黄的| 免费色片网站| 一级一片免费播放| 国产handjob手交在线播放| 88av免费| 日本黄在线| 欧美乱妇15p| 亚洲天堂亚洲天堂| 91精品国产91久久久久久青草| 男人操女人在线观看| 日本免费a级片| 人人操天天射| 五月婷婷色综合| 亚洲国产第一区二区香蕉| 亚洲男人的天堂久久香蕉网| 老头天天吃我奶躁我的动图| 高清在线免费观看| 日韩精品一区二区三区毛片| 日日射夜夜|