我想問一下使用距離矩陣(歐幾里得)時,數據集中的稀疏性(大多數維度中的多個零值)如何影響搜索效率或準確性。我已經在ANN和FLANN中測試了這些稀疏數據集,並且導致我在很長一段時間內搜索與密集數據集相比最近的鄰居。這是爲什麼?數據挖掘中數據集稀疏性的影響
2
A
回答
2
這是一個非常寬泛的問題,沒有具體細節就很難回答。但讓我試試看。
尋找歐氏空間中的最近鄰一般需要大約m * n個計算,其中m是維數,n是樣本數。您可以用m * n繪製每個數據集的時間統計數據,並查看它們的比較結果。
對於稀疏數據集,您還可以以字典格式存儲示例。在這種情況下,平均時間約爲k * logk * n計算,其中k是非零元素的平均數(假設字典以每個特徵的隨機訪問時間爲logk的方式存儲)如果使用類似散列表logk部分幾乎不明顯)。
0
這取決於你的實現。您使用什麼,例如,在距離計算中使用稀疏優化?歐幾里德距離不是稀疏向量最明顯的距離,順便說一句。
相關問題
- 1. 「相似性」數據挖掘
- 2. python數據挖掘
- 3. 數據挖掘SSE通過集羣K
- 4. 3維數據挖掘性能
- 5. BIDS數據挖掘性能問題
- 6. 數據挖掘字符串
- 7. 數據挖掘情況
- 8. 數據挖掘教科書
- 9. R數據挖掘語法
- 10. Google數據挖掘工具
- 11. 數據挖掘海量數據
- 12. 用於數據挖掘任務的數據集
- 13. 使用數據挖掘技術的定性數據分析
- 14. Django稀疏數據模型
- 15. 堆積在數據挖掘中
- 16. Twitter的數據挖掘:分離
- 17. C#的數據挖掘資源
- 18. 輕鬆挖掘數據庫的工具
- 19. 與Django的數據挖掘問題
- 20. 挖掘數據並顯示AngularJS中的數據
- 21. SSIS:控制流中的數據挖掘查詢與數據流
- 22. 在數據挖掘中映射數據的算法
- 23. 數據挖掘中引導的數據是什麼?
- 24. 在數據挖掘中,如何從大型數據集中提取最具代表性的子集?
- 25. 表示稀疏整數集?
- 26. Microsoft Excel 2003中的相關性/數據挖掘
- 27. XGB從數據幀中稀疏矩陣
- 28. DMQL數據挖掘查詢語言
- 29. 數據挖掘引擎和框架?
- 30. 數據挖掘算法比較
我使用帶有優先搜索樹的隨機化k-d樹,不實施稀疏優化。爲什麼歐式距離不適合稀疏矢量? – Tian 2012-03-09 09:52:21