scalding

    1熱度

    1回答

    我正在研究一個需要路徑導航圖的項目。 問題描述: 爲了給出項目上下文,示例UI預計看起來類似於:http://bl.ocks.org/mbostock/4063570 。不同之處在於它將用於站點導航。我的問題是在後端處理數據。 對於用戶路徑A-> B-> C-> D->電子 我預先計算的數據格式如下: Origin:Start:End:Level A A B L1 A B C L2 A C

    0熱度

    2回答

    我正在運行Cascading(實際上是Scalding)將分佈式緩存用於依賴瓶子的hadoop作業。它工作正常 拳時(意味着類路徑設置正確),但隨後開始與ClassNotFoundException的失敗: java.io.IOException: Split class cascading.tap.hadoop.io.MultiInputSplit not found at org.a

    7熱度

    2回答

    使用clone https://github.com/twitter/scalding.git正從混帳代碼和做./sbt update後,我得到: :::::::::::::::::::::::::::::::::::::::::::::: [warn] :: UNRESOLVED DEPENDENCIES :: [warn] :::::::::::::::::::::::::::::

    0熱度

    1回答

    是否有任何指針可讓Scalding與HDFS上的LZO Protobuf數據一起使用? 我想讀取存儲在二進制Protobuf中的文件,並使用Scalding在LZO中進行壓縮。 我們可以使用Elephantbird來閱讀這些文件嗎?任何指針將不勝感激! 我看過LzoTraits和LzoProtobufScheme?但我不確定我應該如何使用它來讀取數據?任何例子都會很棒!

    4熱度

    1回答

    我正在使用Scalding處理具有許多(> 22)字段的記錄。在這個過程結束時,我想寫出最後一個Pipe的字段名稱到一個文件中。我知道這是可能的,因爲Mapper和Reducer日誌顯示這些信息。我希望在工作中獲得這些信息,以此作爲窮人模式的基礎。如果這是不可能的,那麼是否有一種很好的方式來爲大型記錄使用類型安全的Pipes API(即,不訴諸任意嵌套的元組或案例類)?

    2熱度

    3回答

    我想運行燙傷示例字數統計範例。我已按照此github鏈接的步驟: - https://github.com/twitter/scalding/wiki/Getting-Started 但我得到ClassNotFoundException。以下是我的StackTrace: - [[email protected] scalding-develop]$ **sudo scripts/scald.rb

    6熱度

    1回答

    所以我的輸入數據有兩個字段/列:ID1 & ID2,和我的代碼如下: TextLine(args("input")) .read .mapTo('line->('id1,'id2)) {line: String => val fields = line.split("\t") (fields(0),fields(1)) } .groupBy('id2){.size}

    2熱度

    3回答

    我想對我的管道的所有字段應用操作。我在https://github.com/twitter/scalding/wiki/Fields-based-API-Reference 上看到, 「您可以使用'*(這裏和其他地方)來表示所有字段。」 但不知何故,我沒有成功,使其工作。有人會友好地向我展示一個例子嗎? 起初我有一些像 mySource.map('field1 -> 'field1){ numbe

    0熱度

    2回答

    我在下面的代碼中維護一個大的List:我在這裏做的是遍歷數據流並創建一個倒排索引。我使用Twitter燙傷API和dataTypePipe是TypedPipe lazy val cats = dataTypePipe.cross(cmsCats) .map(vf => (vf._1.itemId, vf._1.leafCats, vf._2)) .flatMap {

    7熱度

    2回答

    如果您想在Scalding中創建一個具有超過22個字段的管道,那麼您將受到Scala元組的限制,該元組不能超過22個項目。 有沒有辦法使用集合而不是元組?我想像下面的例子,這可悲的不起作用: input.read.mapTo('line -> aLotOfFields) { line: String => (1 to 24).map(_.toString) }.write(output