0
如果您要從數據服務(如twitter.com)收集社交數據,您的數據策略會是什麼?什麼是好的社交數據收集策略?
這是我能想到的(我可能是錯的)。
考慮Twitter.com和完整的消防水帶訪問,我們在說什麼?
- 每天200+百萬條推文 - 每秒2314tweets的平均= 5.6MB/s。
- 當前記錄TPS(每秒推文):7000.每條推文約爲2.5KB = 7000 * 2.5KB = 17MB/sec。
我需要什麼來讀取和存儲這些數據(說暫時的)?
- 高速上網。至少30MB /秒。數據中心能夠訪問這些類型的互聯網速度嗎?一臺直接連接的專用機器?
- 可靠性:如果此機器停機,該怎麼辦? :-( - 可能是我需要多臺機器設置,但Twitter流不能通過不同的連接實時分開?
- 可擴展性:Twitter TPS可以在不久的將來拍攝嗎?需要制定更厚?在不久的將來,管道
- 更快的硬碟:有64MB高速緩存WD /希捷服務器類7200可以做高達128MB/s的 可靠性:什麼發生,如果這種硬盤驅動器出現故障磁盤簇應該怎麼辦?但是什麼配置?RAID?
- 可擴展性:對於臨時存儲,這應該工作我們但如果我需要存檔2億條推文,我可能需要一個更具可擴展性的解決方案。 Hadoop HDFS是一個好主意?
- 安全:企業會希望這臺機器坐在非軍事區外?因此,在這臺服務器類機器上臨時存儲數據(比如說5分鐘),然後將其拖入HDFS將是一個好主意?
讓我知道你的想法,夥計。如果您認爲完整的twitter firehose是一個相當不現實的場景,我們假設我正在尋找與一堆關鍵字匹配的過濾Feed(但我不能錯過任何推文)。 你會如何去構建這樣一個系統?
偉大的,請求關閉,但沒有理由!來吧 - 這個問題到底是怎麼回事? – Jay 2011-12-14 16:44:09
有些人可能會覺得它太過一般了...只是一個想法。 – home 2011-12-14 16:46:54