data-mining

0熱度

1回答

使用R編程我正在處理來自作業廣告的文字文件（c＃，C++，.net），當我將它轉換爲標記＃，++和點被刪除。我怎樣才能讓他們在結果令牌？ unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)

0熱度

2回答

本地差分隱私實現的廣義隨機響應

我一直負責實施本地（非交互式）差分隱私機制。我正在處理一個龐大的人口普查數據庫。唯一的敏感屬性是「數量的孩子」，這是一個數值範圍從0到13. 我決定採用通用隨機響應機制，因爲它看起來像最直觀的方法。該機制描述爲here並呈現爲here。將每個值加載到數組（現在忽略其他屬性）之後，我按如下所示執行擾動。 d = 14 # values may range from 0 to 13 eps =

0熱度

1回答

有可能我們在決策樹和線性分隔符的組合上使用bagging？

我們是否可能使用決策樹和線性分隔符的組合來裝袋？我知道bagging可以用於決策樹或線性分離器。但組合如何？任何想法？

0熱度

1回答

有人可以解釋如何使用Ward的方法來初始化K-means嗎？

我理解使用Ward方法作爲鄰近性度量的HAC（層次凝聚聚類）。但是一旦我這樣做，我該如何使用它來初始化k-means？我是否按照我已經計劃用於k-means的預定k獲取k個羣集？或者層次聚類是否也幫助我選擇k？

0熱度

1回答

SelectPercentile得分函數如何工作？

最近我正在研究Dimension Reduction方法，我發現python包「sklearn.feature_selection」看起來很有用，但問題在於SelectPercentile.fit方法沒有解釋它如何計算得分函數。 link 有誰知道它是如何工作的？先謝謝了。例如，如果我爲「SelectPercentile」選擇「SelectFdr」，並且SelectFdr方法的標準取決於每個要素的

-3熱度

1回答

非結構化數據如何實現數據挖掘？

我有非結構化數據（應用程序屏幕截圖）和半結構化數據（屏幕轉儲文件），我選擇將其存儲在hbase中。我的目標是找到應用程序上的缺陷或問題（意味着完整的數據）。現在，我想對這些應用數據挖掘，這是一種文本挖掘？以及我如何在這些數據上應用一些數據挖掘技術？

0熱度

1回答

weka.apriori中的java堆空間錯誤

我在我的數據上實現了Aprioiri算法。數據近700條記錄，近81個屬性。我想爲這些數據生成關聯規則。這是我的程序代碼： public class Aprioritest { /** * @param args the command line arguments */ public static void main(String[] args) throws Exception {

0熱度

1回答

RapidMiner - 將多項式屬性更改爲數字/整數

我正在使用RapidMiner進行學習，我希望在我的數據集上運行線性規則。但是我得到這個方法/技術無法處理多項式屬性的錯誤。如何找出這個問題的最佳方法是什麼？這些屬性是基本字符串，也是非常重要的輸入。是否有某種技術如何將這些字符串，多項式屬性轉換爲數字或整數或其他？

2熱度

2回答

如何刪除主題建模（LDA）不必要的信息

如何刪除主題建模（LDA）不必要的信息你好，我想創建主題建模。我的數據是這種結構。 1. Doesn't taste good to me. 2. Most delicious ramen I have ever had. Spicy and tasty. Great price too. 3. I have this on my subscription, my family loves

-2熱度

1回答

如何接受我的機器學習模型的非csv輸入？

語言：Python。我創建了一個模型並將其與joblib一起保存。現在我想加載它來預測新數據---但是數據是以字符串的形式表示的（數值在數值中，但是特徵是用「，」分隔的一行代替，而不是作爲一個大數據框在列中）我這樣做？我知道我可以發送單個輸入並獲得單個預測，但我不知道如何執行此操作。我用 https://machinelearningmastery.com/save-load-machine-