data-cleansing

    4熱度

    1回答

    我有一個大型的數據集,有些用戶在csv中放入數據。我將CSV轉換爲與panda的數據框。列在這裏超過1000項是一個示例 datestart 5/5/2013 6/12/2013 11/9/2011 4/11/2013 10/16/2011 6/15/2013 6/19/2013 6/16/2013 10/1/2011 1/8/2013 7/15/2013 7/22/201

    1熱度

    3回答

    我有一個像下面的數據:當受試者在幾年不同的開始和結束多年的測量 ID Year Measurement 1 2009 5.6 1 2010 6.2 1 2011 4.5 2 2008 6.4 2 2009 5.2 3 2008 3.5 3 2010 5.6 4 2009 5.9 4 2010 2.2 4 2011 4.1 4 2012 5.5 。受試者也被測量不同的次數。

    0熱度

    1回答

    對於第1部分,見this SO post 我有一個CSV具有由"符號作爲TEXTQUALIFIER分離某些字段。 查看下面的例子。請注意,每個整數(例如1,2,3等)應該是一個字符串。合格的字符串被"符號包圍。 1,2,3,"qualifiedString1",4,5,6,7,8,9,10,11,12,13,14,15,16,"qualifiedString2"" 通知最後合格的字符串如何有"符號

    0熱度

    1回答

    我還沒有模糊的如何從我的列中刪除一個子字符串,我一直在這裏尋找幾天,每個人似乎都想從最後而不是開始刪除數據。 列數據:/data/data/data.com --data=nameiwant2keep 列名:column1 表名:table1 感謝您的任何幫助。

    1熱度

    1回答

    我想插入一個空格:例如x < - 「cyclox 100500標籤」,y < - 「glipicon mg 700600標籤」。我想輸出爲「cyclox 100 500標籤」和「glipicon mg 700 600標籤」,即「100500」到「100 500」和「700600」到「700 600」之間的差距 現在我所做的是找到6位可用。對於我已經申請到西安做 f<-regexec("[0-9]{

    22熱度

    2回答

    我有一個數據框,df,有一些float64類型的列,而其他的是對象。由於混合性質,我不能使用 df.fillna('unknown') #getting error "ValueError: could not convert string to float:" 與類型爲float64列發生錯誤(什麼是誤導性的錯誤消息!) 所以我希望我可以做類似 for col in df.columns[<

    0熱度

    1回答

    我試圖創建一個腳本,基本上可以讓我創建一個列表,可以插入到SQL DB中。我有多個線,如在一個文本文件「addresses.txt」以下內容: {"status":"OK","message":"OK","data":[{"type":"addressAccessType","addressAccessId":"0a3f508f-e7c8-32b8-e044-0003ba298018","muni

    1熱度

    1回答

    從每天收到的電子郵件中導入數據時,我必須通過並清理一個包含如下所示行的行的列。我想知道的是如何將列B的數據合併到第1行,以便我可以刪除現在爲空的第2行和第3行。我已經看到用於連接等的公式,但這需要保留數據。一旦我清理了這些數據,它就會被移動到另一張紙上。 謝謝你的幫助。 |--------A---------|---------B--------|--------C---------| 1 Im

    1熱度

    1回答

    我有一個文件大於計算機上的總RAM大約10倍。我試圖獲取它讀入一個R Object,它可以讓我看看它並提取更多可管理的塊。我嘗試了各種方法來解決這個問題,但遇到了各種各樣的問題 - 不同的問題。我有一個固定寬度格式的文件副本,另一個作爲CSV文件。我相信這些文件是相同的。我已經能夠讀取前5000行,併爲固定寬度文件中的每一列設置一個試驗性的字段寬度,併爲這兩個文件的每一列設置一個試驗性的數據類。在

    0熱度

    1回答

    我有一個MySQL數據庫,我需要清理數據。 我正在查看是否有工具來幫助一次清理規範化表。 實施例: User表包括用於make和model Make表碼具有使我想鞏固 Model表具有模型我想鞏固 手動操作是一場噩夢:在 model表(例如刪除冗餘模式 「B」 和 「C」,留下模型個 更改參考 「A」 現在所有users引用models 「B」 或 「C」 需要是手動 更改,以引用model「A」