scalding

    0熱度

    1回答

    請幫助理解在Hadoop上運行的不完整Scalding的輸出。 我從git的最新滾燙的分佈: 混帳克隆https://github.com/twitter/scalding.git sbt assembly從scalding目錄之後,我試圖用命令來運行教程: scripts/scald.rb --hdfs tutorial/Tutorial0.scala 結果我得到了以下錯誤: scripts

    1熱度

    1回答

    我有一些JSON輸入,我需要解析和處理(這是我第一次使用JSON)。我輸入如下: {"id":"id2","v":2, "d":{"Location":"JPN"}) {"id":"id1","v":1, "d":{"Location":"USA"}} {"id":"id2","v":1, "d":{"Location":"JPN"}} {"id":"id1","v":2, "d":{"Lo

    1熱度

    1回答

    用滾燙的,我需要: 由前3個字符 比較使用edit-distance指標(http://en.wikipedia.org/wiki/Edit_distance) 寫在CSV文件會導致在每一個組中的所有對字符串,其中記錄string; string; distance組字符串字段 要我使用map組字符串和groupBy如下面的例子: import cascading.tuple.Fields im

    2熱度

    1回答

    後保留所有的領域,我做了groupBy計算的值,但似乎我的組,我失去了所有未在聚集鍵的字段: filtered.filterNot('site) {s:String => ...} .filterNot('date) {s:String => ...} aggr = filtered.groupBy('id, 'contentHost) { group => group.m

    1熱度

    1回答

    我正在Scalding編寫MapReduce作業,並且難以編譯對我來說看起來完全合法的代碼。 val persistenceBins = List[Int](1000 * 60 * 60, 2 * 1000 * 60 * 60, 4 * 1000 * 60 * 60) val persistenceValues = persistenceBins.map(bin: Int => (bin, ge

    6熱度

    1回答

    我使用Scala的2.10和1.11的gradle 我的問題是,當我嘗試在Hadoop集羣中運行編譯罐子下降錯誤。 我想在hadoop上運行,因爲我使用燙傷。 唯一的例外是: Exception in thread "main" java.io.FileNotFoundException: /tmp/hadoop-root/hadoop-unjar6538587701808097105/com/

    1熱度

    1回答

    在工作中,我們在Scalding項目上使用gradle,並且試圖拿出最簡單的工作來將手伸出堆棧。 我的類看起來如下: package org.playground import com.twitter.scalding._ class readCsv(args: Args) extends Job(args) { val csv:Csv = Csv(args("input"),

    0熱度

    1回答

    我試圖通過自定義文件格式轉儲Hadoop集羣上的一些數據,通常是HBase。 我想什麼做的是多了還是少了以下內容:從記錄,比如通過一些計算功能的滾燙的管道或類似 項目組分佈式列表 開始 使使屬於同一組項目駐留在每個組在同一臺服務器 上,應用轉換 - 涉及排序 - 寫在磁盤上的結果。事實上,我需要編寫一堆MapFile - 它們基本上是對SequenceFile進行排序的,還有一個索引。 我想實現上

    0熱度

    3回答

    我試圖創建一個從斯卡拉列表元組: .map('path -> ('uri1, 'uri2, 'uri3, 'uri4, 'uri5)) {elems:List[String] => (elems(0), elems(1), elems(2), elems(3), elems(4)) //ouf of bounds! } 但elems可能有元素1和5之間,所以很明顯我會遇到超出界限

    -1熱度

    2回答

    OSX上安裝Java,斯卡拉燙傷後,我有以下錯誤,當我嘗試運行WordCountJob文件 $ scripts/scald.rb --local WordCountJob.scala --input someInputfile.txt --output ./someOutputFile.tsv compiling WordCountJob.scala scalac -classpath /Us