scalding

    0熱度

    1回答

    上下文:我正在閱讀文件,其中多個字段是ID列表。我需要將這些字段轉換爲管道以將它們與其他管道連接起來。 我曾嘗試: val otherPipe = pipe .project('fieldIwant) .map { p: Pipe => p.toString.split(",") } // converts pipe -> array .unique

    1熱度

    2回答

    燙flatMap元組我有,我想下面的輸入元組flatMap:(String, List[String]) E.G.輸入: ("a", ["1", "2"]) ("b", ["3", "4"]) 所需輸出: ("a", "1") ("a", "2") ("b", "3") ("b", "4") 有一種優雅的方式在滾燙/斯卡拉做到這一點?

    3熱度

    1回答

    我現在遇到一個問題,我試圖從多個文件中使用燙傷讀取並使用單個文件創建輸出。我的代碼是這樣的: def getFilesSource (paths: Seq[String]) = { new MultipleTextLineFiles(paths: _*) { override protected def createHdfsReadTap(hdfsMode: Hdfs): T

    0熱度

    1回答

    我試圖在使用YARN時讓Scalding在Zeppelin上工作。我按照文檔here中的步驟構建瞭解釋器並設置了類路徑覆蓋。當我以本地模式運行時,代碼正確執行。然而,當我通過YARN我的集羣上運行我的作業失敗: Error: java.lang.ClassNotFoundException: cascading.CascadingException 或 Error: java.lang.Cla

    1熱度

    1回答

    我有一個Spark作業,其最終輸出是Algebird布隆過濾器,我需要在另一個Spark作業中重用此布隆過濾器。 有沒有辦法使用Twitter Storehaus將這個布隆過濾器存儲在kv商店(例如:redis)中,並在其他作業(反序列化爲algebird布隆過濾器)中檢索它?

    0熱度

    1回答

    我沒有找到關於MonoidAggregator的任何文檔。 這是什麼? 使用它的一個例子: MultiAggregator( ..., Aggregator.forall[T](_.use)).andThenPresent(...) ..., ) FORALL返回MonoidAggregator。 它對子級大致相同,設置準備返回零如果_USE ==假?

    1熱度

    1回答

    我想將屬於特定類別的一組值合併到HLL數據結構中,以便稍後可以執行交叉點和聯合並計算結果這種計算的基數。 我能得到的地步,我可以用com.twitter.algebird.HyperLogLogAggregator 我需要使用com.twitter.algebird.HyperLogLogMonoid存儲爲HLL,然後幫助估計每個組的基數稍後用於計算交叉點/聯合。 val lines_pars

    0熱度

    2回答

    我想升級在CDH 4.5上運行的燙印作業到CDH 5.5.1。 該作業使用json4s來解析json數據。我在集羣上運行作業時遇到以下錯誤。它在我的本地機器上運行良好。 我正在使用scala 2.10 &燙傷0.15.0版本。 ERROR [main] cascading.flow.stream.SourceStage: caught throwable cascading.pipe.Opera

    0熱度

    1回答

    我有一個格式爲TypedPipe[(Long, Long)]的val,我該如何切換左右列?更清楚的是,如何創建一個左列的新VAL作爲右列的值,右列的值填充在左邊?

    2熱度

    2回答

    我的燙傷作業被轉換爲9個地圖縮減作業(m/r作業)。要理解每個m/r作業代表哪部分代碼並不容易。有什麼可以幫助我更好地理解我的工作嗎? //這是從我們在Tapad的內部維基粘貼的&拷貝。隨時分享您的經驗!