摘要

FeaLect是一種通過對特徵進行統計評分的特徵選擇方法。從輸入數據中抽取幾個隨機子集，並對每個隨機子集用LARS方法擬合各種線性模型。對於每個特徵，基於將該特徵包括在模型中的套索傾向來計算分數。

1 簡介

要構建一個穩健的分類器，通常需要訓練實例的數量大於特徵的數量。在諸如生物信息學、自然語言處理和計算機視覺等許多現實生活應用中，學習算法可能會在沒有任何關於應該使用哪些特徵的先驗知識的情況下被提供許多特徵。因此，特徵的數量可能大大超過訓練實例的數量。在這種學習情況下，為了防止過擬合和改善預報器的泛化誤差界，已經發展了許多正則化方法。最值得注意的是，Lasso是一種線性迴歸的L1-正則化技術，在機器學習和統計學中引起了極大的關注。雖然存在有效的算法來恢復套索的整個正則化路徑[3]，但是找到高度相關的特徵子集來產生穩健的預測器是一個重要的研究問題。

L1-正則化的一個眾所周知的理由是，它導致稀疏解，即那些具有許多零的稀疏解，並因此執行模型選擇。最近的研究已經研究了LASSO的模型一致性(即，如果我們知道底層數據生成過程的真實稀疏模式，當訓練實例的數量增加時，LASSO是否恢復這種稀疏模式？)。文獻[1，2，7]中的分析表明，對於正則化參數的各種衰減方案，Lasso在訓練樣本數趨於無窮大時，以概率1選擇相關特徵，以正概率選擇不相關特徵。如果基礎數據分佈中有幾個樣本可用，則只需對每個樣本的所選特徵集感興趣，就可以刪除不相關的特徵。[2]中的想法是通過使用Bootstrap方法[4]從給定的訓練數據集中用替換重新採樣來提供這樣的數據集。

FeaLect[6]提出了另一種基於套索的特徵選擇算法，用於構建穩健的預測器。其假設是，定義衡量每個特徵“質量”的評分方案可以提供更穩健的特徵選擇。FeaLect方法是從訓練數據中生成若干個樣本，為每個樣本確定特徵的最佳相關性排序，最後將這些相關性排序組合起來選擇相關性較高的特徵。

2 如何使用FeaLect？

FeaLect是一個R包源，可以從全面R檔案網(CRAN)下載。這個包的主要函數是FeaLect()，它是使用R中的命令庫(FeaLect)加載的。

2.1 示例

此示例顯示如何運行FeaLect為特徵分配分數。這裡，F是特徵矩陣；每列是一個特徵，每行代表一個樣本。L是包含正樣本和負樣本的1和0的標籤向量。我們假設L是按照F的行來排序的。

<code>library(FeaLect)
data(mcl_sll)
F L names(L) message(dim(F)[1], " samples and ",dim(F)[2], " features.")
FeaLect.result                          total.num.of.models=100, talk=TRUE)/<code>

分數在輸出的log.score元素中返回：

<code>plot(FeaLect.result$log.scores, pch=19)/<code>

除了分數之外，FeaLect()函數還計算其他一些值。例如，Bolasso方法選擇的特徵也作為雙積返回，而不增加計算成本。此外，該軟件包還包括一些其他功能。輸入結構和輸出值在包裝手冊中有詳細說明。

參考文獻

[1] F. Bach. Model-consistent sparse estimation through the bootstrap. Technical report, HAL-00354771, 2009.

[2] Francis R. Bach. Bolasso: model consistent lasso estimation through the bootstrap. In ICML ’08: Proceedings of the 25th international conference on Machine learning, 2008.

[3] Bradley Efron, Trevor Hastie, Lain Johnstone, and Robert Tibshirani. Least angle regression. Annals of Statistics, 32:407–499, 2004.

[4] Bradley Efron and R. J. Tibshirani. An Introduction to the Bootstrap (Chapman & Hall/CRC Monographs on Statistics & Applied Probability). Chapman and Hall/CRC, 1998.

[5] Martin J. Wainwright. Sharp thresholds for high-dimensional and noisy sparsity recovery using l1-constrained quadratic programming (lasso). IEEE Trans. Inf. Theor., 55(5), 2009.

[6] Habil Zare, Gholamreza Haffari, Arvind Gupta, and Ryan Brinkman. Statistical analysis of overfitting features. In preparation.

[7] Peng Zhao and Bin Yu. On model selection consistency of lasso. J. Mach. Learn. Res., 7:2541–2563, 2006.

分享到:

閱讀更多 濤哥的醫學與生信之旅 的文章

關鍵字: 分數統計機器學習