13

維數降低究竟意味着什麼?維度降低是什麼意思?

我搜索了它的含義,我發現它意味着將原始數據轉換爲更有用的形式。那麼以有用的形式提供數據有什麼好處,我的意思是我如何在實際生活中使用它(應用程序)?

+0

你說的是「降維」嗎? – 2010-01-03 09:27:41

+0

或者'數據挖掘'? – Tarydon 2010-01-03 09:29:41

+0

是減少維數 – Yasmeen 2010-01-03 09:38:06

回答

2

http://en.wikipedia.org/wiki/Dimension_reduction

也許你聽說過PCA(主成分分析),這是一個降維算法。

其他包括LDA,基於矩陣分解方法等

這裏有一個簡單的例子。你有很多文本文件,每個文件都包含一些文字。有文件可以分爲兩類。您想要將文件可視化爲2D/3D空間中的一個點,以便您可以清楚地看到分佈。因此,您需要進行降維以將包含大量單詞的文件僅轉換爲2或3維。

+1

加入SVD。 – 2010-01-03 15:01:16

+2

對特徵值/矢量的「正確」背景的PCA非常好的介紹:http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf – 2010-01-03 15:02:42

35

維度降低是指將非常高維度的數據轉換爲維度要低得多的數據,以便每個較低維度傳達更多信息。

這通常是在解決機器學習問題時完成的,以便爲分類或迴歸任務獲得更好的特性。如果你有100部電影和1000人的清單,並且對於每個人,你都知道他們是否喜歡或不喜歡100部電影中的每一部。因此,對於每個實例(在這種情況下意味着每個人),您有一個長度爲100的二進制向量[如果該人不喜歡第i部電影,則位置爲0,否則爲1]。
您可以直接在這些矢量上執行機器學習任務..但是您可以決定5種類型的電影並使用您已有的數據,找出該人是喜歡還是不喜歡整個流派,並以這種方式減少你的數據從一個大小爲100的矢量變成一個大小爲5的矢量[如果人喜歡流派i,我的位置是1]

長度爲5的矢量可以認爲是長度爲100的矢量的一個很好的代表,因爲大多數人可能只喜歡他們喜歡的電影類型的電影。

然而,它不會是一個確切的代表,因爲可能會出現這樣的情況,一個人不喜歡一個類型的所有電影。

重點是,減少的矢量傳達大部分信息,同時消耗更少的空間並更快地計算。

+8

也許值得注意的是,這是「人爲的」部分原因是因爲我們習慣的流派與矩陣分解的模式有點不同。因此,我們不用'喜劇','驚悚片','卡通',而是通過http://www.timelydevelopment.com/demos/NetflixPrize.aspx看到各種結果 - 尺寸不包含官方標籤,但是就像「10歲的男孩會看什麼」到「自由女人會看什麼」或(他們的第一個維度)「異議/黑暗喜劇」到「大衆市場/」Beniffer ' 電影」。 – 2011-05-31 07:20:20

8

你的問題有點含糊,但有一個有趣的統計技術,可能是你想要的名爲Principal Component Analysis,它做了類似的事情(並且順便畫出了我的第一個真實世界編程任務的結果)

這是一個巧妙而巧妙的技術,它的應用非常廣泛。我將它應用於蛋白質氨基酸序列之間的相似之處,但我已經看到它用於分析細菌與麥芽威士忌之間關係的所有內容。

考慮一個事物集合的某些屬性的圖形,其中一個具有兩個獨立變量 - 分析這兩個關係顯然在兩個維度上繪製,您可能會看到一個點的散點圖。如果您有三個變量,您可以使用3D圖形,但在此之後,開始用完尺寸。

在PCA中,可能有幾十個或甚至一百個或更多的獨立因子,所有這些都需要繪製在垂直軸上。使用PCA做到這一點,然後分析得到的多維圖,以找到圖中包含最大量信息的兩個或三個軸的集合。例如,第一個主座標將是一個複合軸(即通過n維空間的某個角度),當點沿着它繪製時,它具有最多的信息。第二個軸與此垂直(記住這是n維空間,因此有很多垂直線),其中包含第二大信息量等。

以2D或3D繪製結果圖通常會給你一個可視化包含原始數據集中大量信息的數據。通常認爲該技術被認爲是有效的,以尋找包含大約70%的原始數據的表示 - 足以以一些否認在原始統計中不明顯的置信度來形象化關係。請注意,該技術要求所有因素具有相同的權重,但考慮到這是一種非常廣泛適用的方法,值得在大多數統計軟件包中得到更廣泛的瞭解並且可用(我在1980年完成了ICL 2700的工作 - 這是與iPhone一樣強大)

0

這是一種技術data mining。它的主要優點是它可以讓你生成多維數據的可視化表示。人類的大腦在觀察和分析視覺數據中的模式時是無與倫比的,但最多可以處理三個維度(如果使用時間,即動畫顯示,則可以處理四個維度) - 因此,具有多於三個維度的任何數據都需要以某種方式壓縮到3或2,因爲繪製3D數據通常在技術上很困難)。

順便說一句,降維的一種非常簡單的形式是使用顏色來表示附加維度,例如在heat maps中。

2

測量某物的維數是描述它的數量。例如,描述一個點在空間中的位置所需要的數字的數量是3(x,y和z)。

現在讓我們考慮沿着一條長長而曲折的山路上的火車的位置。乍一看,這可能看起來是一個三維問題,需要經度,緯度和高度測量來指定。但是如果你只是從一開始就沿着賽道走過的距離,那麼這三個維度可以減少到一個。

如果您有任務使用神經網絡或某種統計技術來預測列車能夠獲得一定數量的燃料的程度,那麼使用1維數據處理將比使用3維數據更容易三維版本。