場景:假設你在200張表中有90TB的文本。這是結構化的相關數據。可比較dbpedia只有更多的數據。任何真正的關係數據庫和分佈式數據庫都可以完成這項工作。不要期望像社交網絡那麼多的更新,但是大約500read查詢/ s20updates/s但是除了那些需要的主要功能是對數據庫進行高速運行的大分析,因爲數據將通過像apache mahout這樣的機器學習被重新修改和改進不斷。哪些用於大型結構化數據的數據庫技術?
現在的第一個問題是,哪些數據庫技術首先(或等待它們繼續前進)首先使用相對低數量的Web瀏覽器來維護所有數據,但對分析/機器學習的高需求運行很快?其次,哪些其他數據庫需要跟蹤可能出現的特殊目的,哪些數據庫需要應用,哪些數據庫應該適用。
Cloudera/Brisk (Cassandra,Hive)
mysql(cluster), mariadb
Berkeley DB
drizzle, nimbusdb,
scidb (http://www.theregister.co.uk/2010/09/13/michael_stonebraker_interview/)
mongodb
datadraw
neo4j
90 TB?你的手指一定會因爲輸入所有文字而受到傷害;-) – Johan 2011-04-21 08:20:50
你會在它上面運行什麼類型的查詢?請開始你的問題。 – 2011-04-21 09:23:08
您可能想在[DBA](http://dba.stackexchange.com/)站點上提出此問題。 – 2011-04-21 11:23:50