openrefine

    1熱度

    1回答

    我有一個CSV列有這樣的內容(只是一個例子): [{"qual"=>"05-Admmin "name"=>"CLARK C COHO"}, {"qual"=>"20-Soc Con", "name"=>"ALPHA S A"}, {"qual"=>"20-Soc Con", "name"=>"JACK SA"} 我想從「名稱」字段中自動提取值,並用逗號分開吧,導致如下所示:CLARCK C C

    0熱度

    2回答

    我試圖清理它有這樣的內容列一個CSV文件: Sometexthere1", "code"=>"47.51-2-01"}] 而且我想第一個引號(「),以之前刪除一切僅保存此: Sometexthere1 我知道,我可以用$`之前的一些比賽中的正則表達式得到的一切,但我不理解如何只保留字符串的第一個雙引號之前

    0熱度

    2回答

    我有一箇中等大小的製表符分隔的.txt文件 - 大約40k行。當我導入到Openrefine時,第406行將所有其餘內容(整個40,000行)放入該行第13列中的單個單元格中。 我試過grep-serching兩個不同的文本編輯器(Sublime Text 2 & TextWrangler)中的看不見的東西,看起來應該是這樣。 我用Excel轉換爲CSV也試過了,實際工作,但是: 這是一個不雅的解

    0熱度

    2回答

    我需要編輯列中的所有3000個電話號碼,以便撥號代碼位於括號內。例如由: 49 089/514 6977 - 18 到: 49(089)514 6977 - 18 林與熊貓猜測應該是可能的。我使用開放精煉?

    0熱度

    1回答

    我有一個電子表格/ CSV: Code:,101,Course Description:,"Introduction to Rocket Science", Student Name,Lecture Hours,Labs Hours,Test Score,Status John Galt,48,120,4.7,Passed James Taggart,50,120,4.9,Passed .

    0熱度

    2回答

    我嘗試在OpenRefine 2.6中使用value.match命令將列中的信息呈現分成(至少)2列。然而,這些數據相當混亂。 我有時整整日期: May 30, 1949 有時全日相結合,與其他日期和屬性: May 30, 1949, published 1979 May 30, 1949 and 1951, published 1979 May 30, 1949, printed 1980 Ma

    0熱度

    1回答

    我有一個非常大的(800行)OpenRefine數據集。一個單元格包含多個不同的值,但具有一致的結構(請參閱下面的示例),其數據通過與json數組相似的逗號分隔。我想創建一個新的多值列,其中只包含特定類別的元素,例如Creator或Subject。在下面的例子中,我想創建一個名爲Item Creator的新列,其中只包含Dana M. Ashley和John Smith,這兩個列在文本中。到目前爲

    0熱度

    1回答

    我有以下格式的表: ID Estation Y M D H N Nh h Cl 1 78357 2017 5 1 1 0 0 -9001 0 2 78357 2017 5 1 2 0 0 -9001 0 3 78357 2017 5 1 3 1 1 750 5 我想將本表數據轉換爲以下格式: ID Estation Y M D H Var Value 1 78357 2017

    0熱度

    2回答

    所以,我有一堆需要清理的.csv文件。他們都需要經歷相同的步驟,所以我已經提取了OpenRefine的操作歷史記錄,以便將其應用於其他人。 我可以在OpenRefine中逐一打開每個文件並應用提取的JSON歷史記錄。但有很多文件... 另外,我沒有足夠的內存在OpenRefine(打開文件時選擇多個)一次全部打開它們。 有沒有什麼辦法可以編輯它們全部或自動使用從OpenRefine提取的JSON?

    1熱度

    1回答

    我使用以下表達式來返回一行中所有值串聯的md5散列。 md5(forEach(row.columnNames,cn,if(isNull(cells[cn]),"",cells[cn].value)).join("|")) 這是創建一個簡單的索引來識別重複項目(我不希望在此階段刪除它們)。但是,我剛剛意識到,因爲其中一列包含數據集的唯一索引,所以無法散列每列,因爲包含此列顯然會使每個散列都是唯一