2013-02-21 60 views
1

嗨我正在使用hadoop和cassandra集成的datastax企業。 我配置了3個cassandra節點和2個分析節點(在哪個配置單元上運行)。在cassandra集羣上使用配置單元映射減少

所以我很困惑,如果有一些數據不存在於配置單元節點上,但在cassandra節點上,它將不會在映射縮減過程中處理,或者map reduce將從cassandra節點中拉出數據並運行映射縮減。請幫助

所以我有4臺機器(複製因子3)

machine 1) cassandra node|token value=0   |data owned(25%) 
machine 2)-cassandra node|token value=2^127*.5 |data owned(33%) 
machine 3)-analytics node|token value=2^127*.25 |data owned(33%) 
machine 4) analytics node|token value=2^127*.75 |data owned(8%) 

不應該被他們擁有25%每 另外我現在認爲,數據將在所有節點未在短短3個節點被複制

回答

2

DSE將確保將數據集的完整副本複製到您指定爲分析的任何一組節點。所以這通常不是問題。如果足夠的分析節點發生故障,則可能必須轉到非分析節點才能獲取數據......但建議您最好重新使分析節點聯機。

+1

感謝您的回答。但我的數據所有者船未能正常運行。你能建議嗎? – 2013-02-27 07:33:56

+0

「DSE將確保將數據集的完整副本複製到[對分析節點]」。 這種行爲記錄在某處? – 2013-05-10 23:32:27

+0

http://www.datastax.com/docs/datastax_enterprise3.0/deploy/configuring_replication – jbellis 2013-05-27 22:19:53