本文轉自:Coggle數據科學
數據挖掘的核心是是對海量數據進行有效的篩選和分析。傳統上數據篩選依賴于數據驅動的方法,如包裹式、過濾式和嵌入式篩選。隨著大模型的發展,本文將探討如何利用大模型進行特征篩選。
篩選思路
數據驅動方法依賴于數據集中的樣本點進行統計推斷,而基于文本的方法需要描述性的上下文以更好地在特征和目標變量之間建立語義關聯。
這種方法利用了大型語言模型(LLMs)中豐富的語義知識來執行特征選擇。大模型將利用數據集描述(desd)和特征描述(desf),描述特征的重要性。
- LLM生成的特征重要性得分(LLM-Score)
- LLM生成的特征排名(LLM-Rank)
- 基于LLM的交叉驗證篩選(LLM-Seq)
實驗設置
- 模型:實驗中使用了不同參數規模的LLMs,包括LLaMA-2(7B和13B參數)、ChatGPT(約175B參數)和GPT-4(約1.7T參數)。
- 比較方法:將基于LLM的特征選擇方法與傳統的特征選擇基線方法進行比較,包括互信息過濾(MI)、遞歸特征消除(RFE)、最小冗余最大相關性選擇(MRMR)和隨機特征選擇。
- 數據集:使用了多個數據集進行分類和回歸任務的評估,包括Adult、Bank、Communities等。
實現細節:對于每個數據集,固定特征選擇比例為30%,并在16-shot、32-shot、64-shot和128-shot的不同數據可用性配置下進行評估。使用下游L2懲罰的邏輯/線性回歸模型來衡量測試性能,并使用AUROC和MAE作為評估指標。
實驗結果
將LLM-based特征選擇方法與傳統的特征選擇基線方法進行比較,包括LassoNet、LASSO、前向序貫選擇、后向序貫選擇、遞歸特征消除(RFE)、最小冗余最大相關性選擇(MRMR)、基于互信息(MI)的過濾和隨機特征選擇。
- 發現1:在小規模數據集上,基于文本的特征選擇方法比數據驅動的方法更有效。在幾乎所有的LLM和任務中,基于文本的特征選擇方法的性能都超過了數據驅動方法。
- 發現2:使用最先進的LLMs進行基于文本的特征選擇,在每種數據可用性設置下都能與傳統特征選擇方法相媲美。
- 發現3:當樣本數量增加時,使用LLMs的數據驅動特征選擇會遇到困難。特別是當樣本大小從64增加到128時,分類任務的性能顯著下降。
- 發現4:與數據驅動特征選擇相比,基于文本的特征選擇顯示出更強的模型規模擴展性。
GPT-4基于LLM-Score在folktables數據集上整體表現最佳,在MIMIC-IV數據集上顯著優于LassoNet和隨機特征選擇基線。LLM-Score在選擇前10%和30%的特征時,與最佳數據驅動基線的性能相媲美,且明顯優于隨機選擇。在醫療保健等復雜領域,LLM-Score即使在沒有訪問訓練數據的情況下,也能有效地進行特征選擇。
參考文獻
https://arxiv.org/pdf/2408.12025
- https://arxiv.org/pdf/2407.02694
-
語言模型
+關注
關注
0文章
524瀏覽量
10277 -
海量數據
+關注
關注
0文章
3瀏覽量
889 -
大模型
+關注
關注
2文章
2448瀏覽量
2703
發布評論請先 登錄
相關推薦
評論