1

目前我遇到這樣一個問題:如何將兩種(或多種)特徵結合起來作爲構建分類模型的最終特徵?例如,我想做一個分類模型來預測藥物與靶點的相互作用,這裏每種藥物我可以得到500個特徵,每個目標我可以得到800個特徵(這兩種特徵是獨立的其他)。衆所周知,一種簡單的方法可以將這兩種特徵結合在一起(即每種藥物 - 靶標對的500 + 800 = 1300特徵)。如何將兩種(或多種)特徵合併爲一種最終特徵來構建分類模型?

有沒有人知道其他方法做這種事情,並使用組合的功能來建立分類模型?

回答

2

即使有很多功能,如SVM,也有許多方法可以正常工作。另外,還有一大堆關於這方面的文獻,包括SVD,PCA,MDS,功能選擇,功能轉換......你必須閱讀這些內容,我們不能挑選你的魔法彈所有這一切都爲你而沒有你的數據。

+0

謝謝@ Anony-Mousse。我瞭解一些方法,如PCA,SVD一點。另一種方法,如本文中使用的核心方法:「蛋白質 - 配體相互作用預測:一種改進的化學基因組學方法」。藥物靶點對K = K_target kronecker K_drug'的核心。那麼可以使用基於內核的方法來構建模型。但是,計算機和內存的成本是巨大的,我想知道,是否有一些替代方案來構建藥物靶點對的內核或一些方法來結合不同的域特徵。謝謝。 – BioChemoinformatics 2015-02-11 19:43:15

+0

你有什麼人的記錄?內核函數本身很好地擴展。嘗試線性SVM。 – 2015-02-11 20:39:59

+0

對於目標,我有664條記錄,對於藥物,我有445條記錄。所以計算'K_target kronecker K_drug',它是K_664 * 664 kronecker K_445 * 445。最終的矩陣太大而無法保存到內存中。 – BioChemoinformatics 2015-02-12 18:20:31

0

隨機森林使用信息增益爲您的分類任務選擇最佳功能。分類器適用於多個功能源和類型。例如,您可以組合連續屬性和離散屬性。

由於您必須多次迭代所有功能,但是內存性能和分類速度相當不錯,因此培訓時間稍長一些。