scalding

0熱度

1回答

上下文：我正在閱讀文件，其中多個字段是ID列表。我需要將這些字段轉換爲管道以將它們與其他管道連接起來。我曾嘗試： val otherPipe = pipe .project('fieldIwant) .map { p: Pipe => p.toString.split(",") } // converts pipe -> array .unique

1熱度

2回答

包含列表

燙flatMap元組我有，我想下面的輸入元組flatMap：(String, List[String]) E.G.輸入： ("a", ["1", "2"]) ("b", ["3", "4"]) 所需輸出： ("a", "1") ("a", "2") ("b", "3") ("b", "4") 有一種優雅的方式在滾燙/斯卡拉做到這一點？

3熱度

1回答

使用燙傷法讀取多個文件並輸出一個SINGLE文件

我現在遇到一個問題，我試圖從多個文件中使用燙傷讀取並使用單個文件創建輸出。我的代碼是這樣的： def getFilesSource (paths: Seq[String]) = { new MultipleTextLineFiles(paths: _*) { override protected def createHdfsReadTap(hdfsMode: Hdfs): T

0熱度

1回答

ClassNotFoundException在Zeppelin上燙傷在Yarn上管理

我試圖在使用YARN時讓Scalding在Zeppelin上工作。我按照文檔here中的步驟構建瞭解釋器並設置了類路徑覆蓋。當我以本地模式運行時，代碼正確執行。然而，當我通過YARN我的集羣上運行我的作業失敗： Error: java.lang.ClassNotFoundException: cascading.CascadingException 或 Error: java.lang.Cla

1熱度

1回答

Store Store algebird布盧姆過濾器和Storehaus

我有一個Spark作業，其最終輸出是Algebird布隆過濾器，我需要在另一個Spark作業中重用此布隆過濾器。有沒有辦法使用Twitter Storehaus將這個布隆過濾器存儲在kv商店（例如：redis）中，並在其他作業（反序列化爲algebird布隆過濾器）中檢索它？

0熱度

1回答

什麼是Algebird中的MonoidAggregator

我沒有找到關於MonoidAggregator的任何文檔。這是什麼？使用它的一個例子： MultiAggregator( ..., Aggregator.forall[T](_.use)).andThenPresent(...) ..., ) FORALL返回MonoidAggregator。它對子級大致相同，設置準備返回零如果_USE ==假？

1熱度

1回答

如何使用Algebird的HyperLogLogMonoid執行任意交叉點和聯合

我想將屬於特定類別的一組值合併到HLL數據結構中，以便稍後可以執行交叉點和聯合並計算結果這種計算的基數。我能得到的地步，我可以用com.twitter.algebird.HyperLogLogAggregator 我需要使用com.twitter.algebird.HyperLogLogMonoid存儲爲HLL，然後幫助估計每個組的基數稍後用於計算交叉點/聯合。 val lines_pars

0熱度

2回答

NoSuchMethodError當運行燙傷作業

我想升級在CDH 4.5上運行的燙印作業到CDH 5.5.1。該作業使用json4s來解析json數據。我在集羣上運行作業時遇到以下錯誤。它在我的本地機器上運行良好。我正在使用scala 2.10 &燙傷0.15.0版本。 ERROR [main] cascading.flow.stream.SourceStage: caught throwable cascading.pipe.Opera

0熱度

1回答

scala TypedPipe開關列

我有一個格式爲TypedPipe[(Long, Long)]的val，我該如何切換左右列？更清楚的是，如何創建一個左列的新VAL作爲右列的值，右列的值填充在左邊？

2熱度

2回答

如何將燙傷作業的步驟可視化

我的燙傷作業被轉換爲9個地圖縮減作業（m/r作業）。要理解每個m/r作業代表哪部分代碼並不容易。有什麼可以幫助我更好地理解我的工作嗎？ //這是從我們在Tapad的內部維基粘貼的&拷貝。隨時分享您的經驗！