聚類巨大的高維向量

我有一個巨大的數據集，數據集包含超過10,000個向量，每個向量現在是252維度，並在我繼續之前，因爲我不是從機器學習或數學領域。我有一些問題要問：聚類巨大的高維向量

1.我想減少每個向量的維數，但我不知道選擇哪個算法。

2. KD-Tree是不錯的選擇嗎？

10.000不是「巨大的」。事實上，對於一個252維空間來說，它非常低，並且因此你的聚類結果可能會變得任意。 252×252矩陣有63.504個單元。您是否嘗試過沒有降維和索引？它花了多少時間？ – 2013-04-26 17:12:24

但是隻有10000個實例，您可能根本不需要索引。這很小。 10000 * 252 * 8字節= 20 MB，這不是很多。它很容易放入主存。

2013-04-27 18:19:53

非常感謝，那些日子我發現我的數據集可能包含超過300,000個載體。我閱讀了許多文件，他們建議使用KNN來分類載體。您能給我更多的建議來處理它嗎？ – user2317844 2013-05-06 03:13:46

那麼，你有什麼嘗試？ – 2013-05-06 19:32:45

我剛試過KNN算法，但計算時間超過30分鐘。 – user2317844 2013-05-07 02:49:06

回答