2017-09-05 61 views
0

很多時候我們需要提取一個大的隨機樣本dataset?在openrefine上做什麼最好的方法是?這對於在RPython中用於執行此操作的從業人員可能很有用。如何在Openrefine中製作隨機樣本?

在此先感謝您的任何建議!

回答

2

Open Refine並沒有內置函數,但您可以使用Python/Jython創建一個隨機整數的新列。例如,如果你有10萬行:

import random 
return random.randint(0, 100000) 

然後,您可以在此列進行排序,永久地重新排序行,並選擇例如第一千與自定義文本方面:

row.index < 1000 

編輯:我忘記了@OwenStephens的this extension增加了一個randomNumber GREL函數。隨意安裝它。

enter image description here

+0

這有很大的幫助。再次感謝!埃託雷! –

+0

不客氣。回答編輯的方式。注意:如果您有關於OpenRefine的具體問題,您也可以在專門的[Google小組]上(https://groups.google.com/forum/#!forum/openrefine)提問。 –