我們的堆棧是由谷歌數據PROC(星火2.0)和谷歌的BigTable(HBase的1.2.0)的,我期待與這些版本一起工作的連接器。我應該使用哪種適用於Spark 2.0的HBase連接器?
星火2.0和新的DataSet API的支持是我不明白的連接器,我發現:
- 火花HBase的:https://github.com/apache/hbase/tree/master/hbase-spark
- 火花HBase的連接器:https://github.com/nerdammer/spark-hbase-connector
- hortonworks火花/ SHC:https://github.com/hortonworks-spark/shc
該項目使用SBT編寫在Scala 2.11中。
感謝您的幫助
感謝您的幫助,這是我爲讀取所做的工作,它與'spark.sparkContext.newAPIHadoopRDD(config,classOf [TableInputFormat],classOf [ImmutableBytesWritable],classOf [Result])'工作得很好。我應該如何將這個API用於批量寫入? – ogen
只需使用saveAsNewAPIHadoopDataset(...) – ogen
看起來像hortonworks發佈了Spark 2的一個版本:https://github.com/hortonworks-spark/shc/tree/v1.0.1-2.0 – angelcervera