2015-12-02 63 views
4

有沒有人試圖使用GlusterFS或Ceph作爲Hadoop的後端?我不是在說只是用插件來縫製東西。性能比HDFS本身好嗎?是否適合生產使用。GlusterFS或Ceph作爲Hadoop的後端

此外,將對象存儲,hadoop hdfs存儲整合爲一個存儲是否是一個非常好的主意?或者最好讓他們分開。

回答

2

我曾嘗試Ceph作爲Hadoop 2.7中的「嵌入式」HDFS替換,解決了許多集成問題後,發現它比使用terasort基準中的默認複製因子的HDFS慢兩到三倍。我不知道這個原因。其他人試圖用類似的結果不同的方法:

http://www.snia.org/sites/default/files/SDC15_presentations/cloud_files/YuanZhou_big_data_analytics_on_object_store_r3.pdf

這是好主意,對象和HDFS存儲結合起來?我認爲這個問題是不正確的。既HDFS(通過臭氧和FUSE)和頭孢提供使用它們作爲對象存儲和定期POSIX文件系統,與具有Ceph的一個邊緣提供塊存儲爲好,而HDFS這是目前所討論的能力:https://issues.apache.org/jira/browse/HDFS-11118 如果是的「問題我可以同時將我的存儲作爲POSIX FS,Object,Block商店嗎?「那麼答案就是如果您的設計滿足您對可擴展性和高可用性的要求,那實際上可能是一個好主意。

3

我以前用過GlusterFS,它有一些很好的功能,但最後我選擇在Hadoop中使用HDFS分佈式文件系統。

GlusterFS的好處在於它不需要主客戶端節點。集羣中的每個節點都是平等的,所以GlusterFS中沒有單點故障。還有一件事我在GlusterFS中發現有趣的事情是它有glusterfs-client模塊http://www.jamescoyle.net/how-to/439-mount-a-glusterfs-volume,當你想要將文件存儲到glusterfs時,你不需要與GlusterFS apis進行交互,你只需要將文件複製到在glusterfs客戶端安裝音量,讓工作變得如此簡單。

但我發現,GlusterFS是很難集成到Hadoop的生態系統,如星火,MapReduce的,等..其中HDFS通過Hadoop的生態系統中所有最任何組件支持。我認爲GlusterFS很適合構建獨立於Hadoop的文件存儲之類的集羣系統。