cassandra上的複雜查詢

前幾天我聽說過cassandra數據庫引擎，並在其上搜索了一個很好的文檔。在學習cassandra之後，我得到了cassandra比其他數據引擎更具可擴展性。我也讀過Amazon SimpleDB，但由於SimpleDB的限制爲10GB /表，而Google Datastore比Amazon SimpleDB慢，所以我寧願不要使用它們（Google Datastore，Amazon SimpleDB）。因此，爲了讓我們的網站使用海量數據縮放特別高的寫入速率，我喜歡使用Cassandra作爲我們的數據引擎。cassandra上的複雜查詢

但在開始使用cassandra之前，我對「如何使用casssandra處理複雜數據」感到困惑。我給你下面的MySQL數據庫結構，請閱讀並給我一個很好的建議。

用戶表
hasColum ID小學
hasColum電子郵件獨特
hasColum姓
hasColum名字

分類表
hasColum ID小學
hasColum家長
hasColum類別

帖子表
hasColum ID小學
hasColum UID指數外鍵鏈接到用戶 - 掛類別 - > ID
hasColum CID指數外鍵> ID
hasColum標題
hasColum郵政指數
hasColum PunDate

評論
hasColum ID primary
hasColum UID鏈接到用戶的索引外鍵 - > ID
hasColum鏈接到Posts的ID索引外鍵 - > ID
hasColum評論

用戶組
hasColum ID初級
hasColum名稱

UserToGroup表（爲多對多關係只）
hasColum UID外鍵鏈接到用戶 - > ID
hasColum GID外鍵鏈接到Group-> ID

最後，爲了您的信息，我喜歡使用SimpleCassie PHP類http://code.google.com/p/simpletools-php/ 因此，如果您可以給我示例le使用SimpleCassie

來源

2010-04-21 Sadiqur Rahman

所以問題是，如何在使用非關係型NoSQL數據庫時有關係？出於好奇，你建立的MySQL不會擴展到什麼程度？ – Gordon 2010-04-21 11:01:36

是的，這就是問題所在。我們正在考慮開發一個應用程序（主要是一個分類網關，網站開發人員將通過API設置/獲取數據）。 – 2010-04-21 11:07:19

非規範化。見twissandra.com和http://github.com/ericflo/twissandra

來源

2010-04-21 14:55:09 jbellis

的文檔，您真的車流量方面與谷歌和亞馬遜競爭？我建議先考慮升級當前的MySQL基礎架構 - 當前在羣集中運行多少個數據庫服務器？你是否劃分數據？

來源

2010-04-21 17:33:34 symcbean

我不是在談論交通量..我更喜歡cassandra的性能......請參閱cassandra的體系結構http://wiki.apache.org/cassandra/ArchitectureOverview MySQL需要300ms才能寫入50GB數據，而cassandra需要只有0.12ms ..它是最快的數據引擎 MySQL需要350ms才能讀取50GB數據，其中cassandra只需要15ms讀取最受歡迎的網站正在遷移到cassandra以擴展和改善性能，包括Facebook，Twitter，Digg等等... – 2010-04-21 20:21:48

這些標題數字看起來令人印象深刻 - 但沒有詳細說明他們如何配置測試。此外，即使使用最新的光纖通道交換結構（即可用的最快磁盤技術），您也很幸運能夠獲得20Gb/s的持續存儲容量 - 並假定底層磁盤可以應對這種速率/數據量 - 或20,000比本頁上引用Cassandra的數字慢了很多倍。事實上，20Gb/s大概是中/高範圍非NUMA系統的內存帶寬。如果您正在查看一個非常大的數據庫集羣，這些數字可能有任何意義的唯一方法。 – symcbean 2010-04-22 12:20:09

從：

不像關係系統，在那裏你模型的實體和關係，然後只添加索引，以支持任何疑問成爲必要，卡桑德拉你需要想想你要支持查詢有效地提前，並適當地建模。由於沒有自動提供的索引，因此與查詢關係相關的查詢相比，您將更接近每個查詢的一個ColumnFamily。不要害怕相應地去規範化;

goog article here。

我希望它能幫助你。

來源

2010-05-07 20:47:30 Aito

這裏有一篇關於Twissandra（基於Cassandra的Twitter克隆）的文章，討論了基於數據訪問需求的模式設計。你可能會覺得它有用http://www.rackspacecloud.com/blog/2010/05/12/cassandra-by-example/

來源

2010-05-24 11:13:40

我會假設你會有沉重的負載和大量的數據通過你的系統，並且我會假設你已經嘗試過一個關係數據庫並在重負載下崩潰，行，10k +請求每秒等

經過這些假設我會告訴你，你需要改變你的想法。例如在你的問題中，當你考慮關係數據庫時，你寫下了非常重要的表結構。但是在專欄商店（比如cassandra/hbase/etc）它並不那麼重要，它的請求類型很重要。由於在專欄商店中，您可以隨時在新專欄中添加一個新的元數據（您不會在您的請求中使用的額外列），您不必更改您的設計。但是在關係數據庫中，你需要改變表格，甚至用pk-fk關係來獲取另一個表格。

當使用cassandra（或任何其他列數據庫）時，您應該將所有api放在您面前。

例如：

如果你有自己的API，你應該eighter getAllUserPosts($userId)

有：UserPosts的ColumnFamily或帖子的ColumnFamily輔助索引（它在背景類似的事情）。更遠你怎麼需要結果排序？是的，它也是設計中的一個關鍵點，如果你想讓它按照創建日期排序，那麼你最好在關鍵中使用TimeUID，或者使用第三方機制來爲你生成更多的uid。也許你想用他們的「最新更新」對它們進行排序，那麼你最好在它上面放一個二級索引。

根據我的經驗，我會告訴你，當你的api或數據所需要的東西很清晰時，用cassandra開發某些東西真的很酷，但是當你想要改變一個大特徵時，你會遇到一些非常大的挑戰你要小心。還要確保你理解使cassandra快速的底層「最終一致性」。由於你必須多次敲擊鍵盤上的鍵盤才能完成交易（至少我是這麼做的）。當然，在某些時候你會想要對你在cassandra上的大量數據進行大規模操作：準備好吃雲計算。 Hadoop的。

PS：我相信有很多人在這裏有cassandra的經驗和知識，然後我會幫助你比我更好地設計你的系統。我只是想分享我在生產中使用卡桑德拉的經歷和理解。

來源

2011-03-02 20:49:05 frail

cassandra上的複雜查詢

回答

相關問題