data-cleansing

    0熱度

    1回答

    我正在使用Spring批處理和Spring批處理元數據的HSQLDB內存數據庫。我的應用程序需要連續運行,所以這個數據庫對我的記憶來說是成問題的。我需要一種定期清理它的方法。我已經考慮過使用根據條件刪除數據的存儲過程(舊數據)。此過程由專門的線程使用Spring StoredProcedure類定期調用。 如果您有其他解決方案,我很開放。 感謝

    2熱度

    1回答

    我有一列有100,000個以上的字符串。我希望Google Refine使用指紋替換這些字符串。 我在Google Refine中選擇了一列,並創建了一個Text Facet。從該文本面我可以選擇「羣集」。這將向我顯示羣集,我假定它指的是具有相同指紋的字符串值,並允許我選擇一個新的單元格值,該單元格值默認爲羣集的第一個成員的名稱。 我希望這個名字只是指紋。原因是,我需要對多個文件執行此操作,並且如

    2熱度

    1回答

    我解析大量的複雜文件(主要是CSV文件,但有些不是),我需要將它們結構/解析爲一些標準格式。這不僅涉及行清理數據,而且涉及一些簡單的單個基於單元的邏輯。我想要一個非程序員可以使用的工具,因此業務團隊成員可以編寫簡單的拖放邏輯並且不佔用工程時間。到目前爲止,我看過Google Refine和Data wrangler,最後一張看起來不錯。還有其他的工具嗎?

    2熱度

    1回答

    我想知道這將是多麼密集指紋的iphone 4 +的整個音樂庫echoprint。我應該花多長時間分析2-3k歌曲?這是否合理?

    0熱度

    1回答

    我試圖找到一種方法,可以根據某些字符串的出現快速清理大型數據集。我有一個data.frame,看起來像這樣: created_at actor_attributes_email type 3/11/12 7:28 [email protected] Event 3/11/12 7:28 [email protected] PushEvent 3/11/12 7:28 [email 

    0熱度

    1回答

    我有15個SQL Server表,每個表包含大約50列。 其中一些列的行中包含引號,逗號和製表符。 我有一個函數,從給定列名的行中刪除所有這些,但我不知道哪列有問題。 我想要一個SQL Server 2005查詢,該查詢可以返回列名稱,該表名具有錯誤的數據。

    0熱度

    2回答

    如果下面的代碼行更好地用於確保我的代碼更安全,那該怎麼辦?我應該使用filter_var函數的settype函數嗎? settype($number,'integer') 或 filter_var($number, FILTER_SANITIZE_NUMBER_INT); 感謝你

    0熱度

    2回答

    我試圖使用Informatica中的一對一映射直接映射加載表ADuplicate,它與Table A的副本相同。 但我得到以下錯誤: 「大於允許此列指定的精度更大的價值」 我注意到,對於C4列,這兩個表中號(15),具有在加載的問題。 其中有錯誤的數據加載是200000300123和-1000000000000000000000000000000000000000000 我的疑問是: 該值在相同的

    2熱度

    2回答

    通常人們如何在數據倉庫中執行登臺步驟? 我必須做一個類似的任務,我不知道,如果使用NoSQL數據庫將數據集成的目的一個不錯的選擇,有多少簡單而有效的將是進行數據清理和擦洗 有有人在這方面做了一些工作? 請讓我知道 道歉通用的問題,但並沒有拿出一個更好的地方要問這樣的問題比SO 謝謝

    2熱度

    1回答

    我想將我的輸入數據文件分成兩個基於標籤的輸出文件。下面是我的代碼below.下面的代碼只適用於較少數量的記錄,但它進入分段錯誤更多的沒有。行。 #include<stdio.h> #include<stdlib.h> #include<string.h> int main(int argc,char *argv[]) { FILE *fp,*fp1,*fp2,*fp3;