2016-04-21 91 views
0

我有一個豬腳本,我們在UDF幫助下做一些數據操作。DUMP在豬身上花費很長時間

讓我們來了解一個例子。

data=someoperation; 
olddata = newoperation; 
Uniondata = UNION data,olddata; 
DUMP Uniondata; 

因此,在這裏我使用DUMP來確保執行所有上述語句,而不是將數據流式傳輸到控制檯。我認爲DUMP的執行方式會導致與性能有關的問題。在這裏,要確保數據和olddata不返回任何形式的UDF。我如何確保這些語句在不使用DUMP的情況下執行。

謝謝。

回答

0

您可以使用ILLUSTRATE運算符來實現此目的。

使用ILLUSTRATE運算符來查看數據如何通過 豬拉丁語句序列進行轉換。 ILLUSTRATE允許您在小型數據集上測試您的 程序並獲得更快的週轉時間。

所以只需用ILLUSTRATE替換DUMP即可。爲了測試目的,還要對數據集進行採樣。

data=someoperation; 
data= SAMPLE data 0.01; --# sample by 1% 
olddata = newoperation; 
uniondata = UNION data,olddata; 
ILLUSTRATE Uniondata; 
0

使用LIMIT可以減小數據的大小。

A = operation1; 
B = operation2; 
A1 = LIMIT A 100; 
B1 = LIMIT B 100; 
A1B1 = UNION A1,B1; 
DUMP A1B1; 
相關問題