data-cleansing

0熱度

1回答

我正在使用Spring批處理和Spring批處理元數據的HSQLDB內存數據庫。我的應用程序需要連續運行，所以這個數據庫對我的記憶來說是成問題的。我需要一種定期清理它的方法。我已經考慮過使用根據條件刪除數據的存儲過程（舊數據）。此過程由專門的線程使用Spring StoredProcedure類定期調用。如果您有其他解決方案，我很開放。感謝

2熱度

1回答

如何使用Google Refine來用指紋替換字符串值？

我有一列有100,000個以上的字符串。我希望Google Refine使用指紋替換這些字符串。我在Google Refine中選擇了一列，並創建了一個Text Facet。從該文本面我可以選擇「羣集」。這將向我顯示羣集，我假定它指的是具有相同指紋的字符串值，並允許我選擇一個新的單元格值，該單元格值默認爲羣集的第一個成員的名稱。我希望這個名字只是指紋。原因是，我需要對多個文件執行此操作，並且如

2熱度

1回答

什麼是一些好的數據清理工具？

我解析大量的複雜文件（主要是CSV文件，但有些不是），我需要將它們結構/解析爲一些標準格式。這不僅涉及行清理數據，而且涉及一些簡單的單個基於單元的邏輯。我想要一個非程序員可以使用的工具，因此業務團隊成員可以編寫簡單的拖放邏輯並且不佔用工程時間。到目前爲止，我看過Google Refine和Data wrangler，最後一張看起來不錯。還有其他的工具嗎？

2熱度

1回答

指紋整個iPhone中的音樂庫echoprint

我想知道這將是多麼密集指紋的iphone 4 +的整個音樂庫echoprint。我應該花多長時間分析2-3k歌曲？這是否合理？

0熱度

1回答

「查找和刪除」R中完整字符串但不包含子字符串的代碼？

我試圖找到一種方法，可以根據某些字符串的出現快速清理大型數據集。我有一個data.frame，看起來像這樣： created_at actor_attributes_email type 3/11/12 7:28 [email protected] Event 3/11/12 7:28 [email protected] PushEvent 3/11/12 7:28 [email

0熱度

1回答

返回所有包含錯誤數據的列SQL Server 2005查詢

我有15個SQL Server表，每個表包含大約50列。其中一些列的行中包含引號，逗號和製表符。我有一個函數，從給定列名的行中刪除所有這些，但我不知道哪列有問題。我想要一個SQL Server 2005查詢，該查詢可以返回列名稱，該表名具有錯誤的數據。

0熱度

2回答

settype（）vs filter_var（）

如果下面的代碼行更好地用於確保我的代碼更安全，那該怎麼辦？我應該使用filter_var函數的settype函數嗎？ settype($number,'integer') 或 filter_var($number, FILTER_SANITIZE_NUMBER_INT); 感謝你

0熱度

2回答

informatica值大於此列所允許的指定精度

我試圖使用Informatica中的一對一映射直接映射加載表ADuplicate，它與Table A的副本相同。但我得到以下錯誤：「大於允許此列指定的精度更大的價值」我注意到，對於C4列，這兩個表中號（15），具有在加載的問題。其中有錯誤的數據加載是200000300123和-1000000000000000000000000000000000000000000 我的疑問是：該值在相同的

2熱度

2回答

數據倉庫中的分段步驟？

通常人們如何在數據倉庫中執行登臺步驟？我必須做一個類似的任務，我不知道，如果使用NoSQL數據庫將數據集成的目的一個不錯的選擇，有多少簡單而有效的將是進行數據清理和擦洗有有人在這方面做了一些工作？請讓我知道道歉通用的問題，但並沒有拿出一個更好的地方要問這樣的問題比SO 謝謝

2熱度

1回答

如何將一個文件拆分爲兩個文件的400k記錄

我想將我的輸入數據文件分成兩個基於標籤的輸出文件。下面是我的代碼below.下面的代碼只適用於較少數量的記錄，但它進入分段錯誤更多的沒有。行。 #include<stdio.h> #include<stdlib.h> #include<string.h> int main(int argc,char *argv[]) { FILE *fp,*fp1,*fp2,*fp3;