什麼是好的社交數據收集策略？

如果您要從數據服務（如twitter.com）收集社交數據，您的數據策略會是什麼？什麼是好的社交數據收集策略？

這是我能想到的（我可能是錯的）。

考慮Twitter.com和完整的消防水帶訪問，我們在說什麼？

我需要什麼來讀取和存儲這些數據（說暫時的）？

高速上網。至少30MB /秒。數據中心能夠訪問這些類型的互聯網速度嗎？一臺直接連接的專用機器？
可靠性：如果此機器停機，該怎麼辦？ :-( - 可能是我需要多臺機器設置，但Twitter流不能通過不同的連接實時分開？
可擴展性：Twitter TPS可以在不久的將來拍攝嗎？需要制定更厚？在不久的將來，管道
更快的硬碟：有64MB高速緩存WD /希捷服務器類7200可以做高達128MB/s的 可靠性：什麼發生，如果這種硬盤驅動器出現故障磁盤簇應該怎麼辦？但是什麼配置？RAID？
可擴展性：對於臨時存儲，這應該工作我們但如果我需要存檔2億條推文，我可能需要一個更具可擴展性的解決方案。 Hadoop HDFS是一個好主意？
安全：企業會希望這臺機器坐在非軍事區外？因此，在這臺服務器類機器上臨時存儲數據（比如說5分鐘），然後將其拖入HDFS將是一個好主意？

讓我知道你的想法，夥計。如果您認爲完整的twitter firehose是一個相當不現實的場景，我們假設我正在尋找與一堆關鍵字匹配的過濾Feed（但我不能錯過任何推文）。你會如何去構建這樣一個系統？

2011-12-14 Jay

偉大的，請求關閉，但沒有理由！來吧 - 這個問題到底是怎麼回事？ – Jay 2011-12-14 16:44:09

有些人可能會覺得它太過一般了...只是一個想法。 – home 2011-12-14 16:46:54

您可以在DataSift的架構上閱讀this article。他們只是這樣做，

2011-12-14 21:11:00

回答