scalding

0熱度

1回答

我試圖解決一個問題，即我通過pipe.To所有值都具有循環模擬我的問題，我是通過抽樣問題 Input file : number 1 2 3 4 Output should be number sumOfSmaller 1 0 2 1 3 3 4 6 所以對於每

1熱度

1回答

在Scalding中對groupBy的輸出進行排序

我正在嘗試使用Scalding對groupBy語句的輸出進行排序。我的數據集看起來像這樣 Src Eqid Version Datetime Lat Lon Magnitude Depth NST Region ci 15214001 0 Tuesday, September 11, 2012 12:31:37 UTC 33.0110 -115.5330 1.3

1熱度

1回答

如何找到正在運行我的工作的確切的hadoop jar命令？

我使用CDH5.4。我正在運行一個從命令行看起來沒問題的hadoop工作（當簡單地使用hadoop jar運行時）。但是，如果我從yarn運行它，它會使用單個映射器並且無減速器靜靜地結束。我真的懷疑這兩個'跑步'運行的是同一個確切的命令。不過，我想確保這一點。所以我看日誌在：（注意它的一個scalding工作與自定義亞軍 - 一切都很好，當我從命令行運行）。 /container_1432733

0熱度

1回答

燙傷：使用不同的屬性解析嵌套的JSON文件

我有一個嵌套的JSON文件，其中每個記錄可能包含嵌套部分中的一組不同的字段。該FIEL看起來是這樣的，雖然這是真正的Avro的版本： {"type":"record", "name":"features", "namespace":"OurCode", "fields":[{"name":"key","type":"long"}, {"name":"features",

0熱度

2回答

在Scalding中生成List [String]的差異

我的Scalding作業中有一個records:TypedType[(String, util.List[String])]，其中第一個值是一個id，第二個值是一個東西列表。想象一下以下內容：我想只輸出互不相同一個給定的ID記錄 ("1", ["a","b","c"]) ("1", ["a","b","c"]) ("1", ["a","b","c"]) ("2", ["a","b"]) (

0熱度

1回答

在哪個hadoop節點下面的燙印預處理和後期處理運行？

我有以下example代碼的一些預處理之前sclading作業運行和一些後處理。由於這些預處理和後處理都在調用一些mysql數據庫，我想知道哪些hadoop節點可能會運行它們？（我需要打開從這些節點到數據庫的端口）是否可以運行預處理和後處理任何hadoopdata-node？我試着做一些研究，但找不到任何跡象，如何通過文檔/資源找到它將在哪個節點上運行？（PS的作業計劃與oozie） preP

0熱度

1回答

如何將Scalding ValuePipe加入TypedPipe？

我已經調整了燙傷KMeans示例來做KModes。問題是，當作業完成時，我需要加入具有匹配質心的聚集記錄。 KMeans代碼使用ValuePipe來保存質心。因此，爲了將質心從ValuePipe中提取出來，我將其平面化。然後我做的加盟是這樣的： HVKModes(500000,inputSets,10).waitFor(Config.default,mode) match { cas

0熱度

1回答

Scalding限制減速器輸出文件大小

我正在使用Scalding，並且我們有大約5.5GB的輸出文件大小。（例如，對於30個縮減器，有30個5.5GB文件）。有沒有辦法說，限制每個輸出文件爲512MB？我可以增加減速器的數量，但希望有更多的動力。

0熱度

1回答

尋找最大燙傷UnsortedGrouped [字符串，將[的MyStuff]

我需要做到以下幾點：組我記錄一些字符串屬性丟棄組是太大檢索在其餘每個組這裏的最大因素是什麼，我走到這一步： val records: TypedPipe[MyStuff] = ... records .groupBy(_.getThatStringProperty) .toSet .filter(_._2.size < 10) .... 我最終

5熱度

4回答

（燙）GROUPBY foldLeft使用組由值在摺疊

有像數據： pid recom-pid 1 1 1 2 1 3 2 1 2 2 2 4 2 5 需要使它： pid, recommendations 1 2,3 2 1,4,5 含義忽略來自第二柱自，和使以逗號分隔的字符串休息。它的製表符分隔數據試過的變化，但不知道如何引用的productId在foldLeft .groupBy('productId) {