scalding

0熱度

1回答

請幫助理解在Hadoop上運行的不完整Scalding的輸出。我從git的最新滾燙的分佈：混帳克隆https://github.com/twitter/scalding.git sbt assembly從scalding目錄之後，我試圖用命令來運行教程： scripts/scald.rb --hdfs tutorial/Tutorial0.scala 結果我得到了以下錯誤： scripts

1熱度

1回答

解析JSON嵌套輸入Scalding

我有一些JSON輸入，我需要解析和處理（這是我第一次使用JSON）。我輸入如下： {"id":"id2","v":2, "d":{"Location":"JPN"}) {"id":"id1","v":1, "d":{"Location":"USA"}} {"id":"id2","v":1, "d":{"Location":"JPN"}} {"id":"id1","v":2, "d":{"Lo

1熱度

1回答

燙傷：兩兩比較字符串？

用滾燙的，我需要：由前3個字符比較使用edit-distance指標（http://en.wikipedia.org/wiki/Edit_distance）寫在CSV文件會導致在每一個組中的所有對字符串，其中記錄string; string; distance組字符串字段要我使用map組字符串和groupBy如下面的例子： import cascading.tuple.Fields im

2熱度

1回答

燙：GROUPBY

後保留所有的領域，我做了groupBy計算的值，但似乎我的組，我失去了所有未在聚集鍵的字段： filtered.filterNot('site) {s:String => ...} .filterNot('date) {s:String => ...} aggr = filtered.groupBy('id, 'contentHost) { group => group.m

1熱度

1回答

合法代碼無法在Scalding中編譯

我正在Scalding編寫MapReduce作業，並且難以編譯對我來說看起來完全合法的代碼。 val persistenceBins = List[Int](1000 * 60 * 60, 2 * 1000 * 60 * 60, 4 * 1000 * 60 * 60) val persistenceValues = persistenceBins.map(bin: Int => (bin, ge

6熱度

1回答

斯卡拉文件名過長

我使用Scala的2.10和1.11的gradle 我的問題是，當我嘗試在Hadoop集羣中運行編譯罐子下降錯誤。我想在hadoop上運行，因爲我使用燙傷。唯一的例外是： Exception in thread "main" java.io.FileNotFoundException: /tmp/hadoop-root/hadoop-unjar6538587701808097105/com/

1熱度

1回答

Gradle內置的jar沒有找到我的主類

在工作中，我們在Scalding項目上使用gradle，並且試圖拿出最簡單的工作來將手伸出堆棧。我的類看起來如下： package org.playground import com.twitter.scalding._ class readCsv(args: Args) extends Job(args) { val csv:Csv = Csv(args("input"),

0熱度

1回答

自定義燙傷水龍頭（或Spark等價物）

我試圖通過自定義文件格式轉儲Hadoop集羣上的一些數據，通常是HBase。我想什麼做的是多了還是少了以下內容：從記錄，比如通過一些計算功能的滾燙的管道或類似項目組分佈式列表開始使使屬於同一組項目駐留在每個組在同一臺服務器上，應用轉換 - 涉及排序 - 寫在磁盤上的結果。事實上，我需要編寫一堆MapFile - 它們基本上是對SequenceFile進行排序的，還有一個索引。我想實現上

0熱度

3回答

轉換列表tuple5，防止索引越界

我試圖創建一個從斯卡拉列表元組： .map('path -> ('uri1, 'uri2, 'uri3, 'uri4, 'uri5)) {elems:List[String] => (elems(0), elems(1), elems(2), elems(3), elems(4)) //ouf of bounds! } 但elems可能有元素1和5之間，所以很明顯我會遇到超出界限

-1熱度

2回答

燙傷的NoClassDefFoundError

OSX上安裝Java，斯卡拉燙傷後，我有以下錯誤，當我嘗試運行WordCountJob文件 $ scripts/scald.rb --local WordCountJob.scala --input someInputfile.txt --output ./someOutputFile.tsv compiling WordCountJob.scala scalac -classpath /Us