data-mining

    0熱度

    1回答

    使用R編程 我正在處理來自作業廣告的文字文件(c#,C++,.net),當我將它轉換爲標記#,++和點被刪除。 我怎樣才能讓他們在結果令牌? unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)

    0熱度

    2回答

    我一直負責實施本地(非交互式)差分隱私機制。我正在處理一個龐大的人口普查數據庫。唯一的敏感屬性是「數量的孩子」,這是一個數值範圍從0到13. 我決定採用通用隨機響應機制,因爲它看起來像最直觀的方法。該機制描述爲here並呈現爲here。 將每個值加載到數組(現在忽略其他屬性)之後,我按如下所示執行擾動。 d = 14 # values may range from 0 to 13 eps =

    0熱度

    1回答

    我們是否可能使用決策樹和線性分隔符的組合來裝袋? 我知道bagging可以用於決策樹或線性分離器。但組合如何? 任何想法?

    0熱度

    1回答

    我理解使用Ward方法作爲鄰近性度量的HAC(層次凝聚聚類)。但是一旦我這樣做,我該如何使用它來初始化k-means?我是否按照我已經計劃用於k-means的預定k獲取k個羣集?或者層次聚類是否也幫助我選擇k?

    0熱度

    1回答

    最近我正在研究Dimension Reduction方法,我發現python包「sklearn.feature_selection」看起來很有用,但問題在於SelectPercentile.fit方法沒有解釋它如何計算得分函數。 link 有誰知道它是如何工作的?先謝謝了。例如,如果我爲「SelectPercentile」選擇「SelectFdr」,並且SelectFdr方法的標準取決於每個要素的

    -3熱度

    1回答

    我有非結構化數據(應用程序屏幕截圖)和半結構化數據(屏幕轉儲文件),我選擇將其存儲在hbase中。我的目標是找到應用程序上的缺陷或問題(意味着完整的數據)。現在,我想對這些應用數據挖掘,這是一種文本挖掘?以及我如何在這些數據上應用一些數據挖掘技術?

    0熱度

    1回答

    我在我的數據上實現了Aprioiri算法。數據近700條記錄,近81個屬性。我想爲這些數據生成關聯規則。 這是我的程序代碼: public class Aprioritest { /** * @param args the command line arguments */ public static void main(String[] args) throws Exception {

    0熱度

    1回答

    我正在使用RapidMiner進行學習,我希望在我的數據集上運行線性規則。但是我得到這個方法/技術無法處理多項式屬性的錯誤。 如何找出這個問題的最佳方法是什麼?這些屬性是基本字符串,也是非常重要的輸入。 是否有某種技術如何將這些字符串,多項式屬性轉換爲數字或整數或其他?

    2熱度

    2回答

    如何刪除主題建模(LDA)不必要的信息 你好,我想創建主題建模。 我的數據是這種結構。 1. Doesn't taste good to me. 2. Most delicious ramen I have ever had. Spicy and tasty. Great price too. 3. I have this on my subscription, my family loves

    -2熱度

    1回答

    語言:Python。 我創建了一個模型並將其與joblib一起保存。現在我想加載它來預測新數據---但是數據是以字符串的形式表示的(數值在數值中,但是特徵是用「,」分隔的一行代替,而不是作爲一個大數據框在列中)我這樣做?我知道我可以發送單個輸入並獲得單個預測,但我不知道如何執行此操作。 我用 https://machinelearningmastery.com/save-load-machine-