2011-12-14 50 views
0

如果您要從數據服務(如twitter.com)收集社交數據,您的數據策略會是什麼?什麼是好的社交數據收集策略?

這是我能想到的(我可能是錯的)。

考慮Twitter.com和完整的消防水帶訪問,我們在說什麼?

  1. 每天200+百萬條推文 - 每秒2314tweets的平均= 5.6MB/s。
  2. 當前記錄TPS(每秒推文):7000.每條推文約爲2.5KB = 7000 * 2.5KB = 17MB/sec。

我需要什麼來讀取和存儲這些數據(說暫時的)?

  • 高速上網。至少30MB /秒。數據中心能夠訪問這些類型的互聯網速度嗎?一臺直接連接的專用機器?
  • 可靠性:如果此機器停機,該怎麼辦? :-( - 可能是我需要多臺機器設置,但Twitter流不能通過不同的連接實時分開?
  • 可擴展性:Twitter TPS可以在不久的將來拍攝嗎?需要制定更厚?在不久的將來,管道
  • 更快的硬碟:有64MB高速緩存WD /希捷服務器類7200可以做高達128MB/s的 可靠性:什麼發生,如果這種硬盤驅動器出現故障磁盤簇應該怎麼辦?但是什麼配置?RAID?
  • 可擴展性:對於臨時存儲,這應該工作我們但如果我需要存檔2億條推文,我可能需要一個更具可擴展性的解決方案。 Hadoop HDFS是一個好主意?
  • 安全:企業會希望這臺機器坐在非軍事區外?因此,在這臺服務器類機器上臨時存儲數據(比如說5分鐘),然後將其拖入HDFS將是一個好主意?

讓我知道你的想法,夥計。如果您認爲完整的twitter firehose是一個相當不現實的場景,我們假設我正在尋找與一堆關鍵字匹配的過濾Feed(但我不能錯過任何推文)。 你會如何去構建這樣一個系統?

+1

偉大的,請求關閉,但沒有理由!來吧 - 這個問題到底是怎麼回事? – Jay 2011-12-14 16:44:09

+1

有些人可能會覺得它太過一般了...只是一個想法。 – home 2011-12-14 16:46:54

回答

3

您可以在DataSift的架構上閱讀this article。他們只是這樣做,