我想抓取網站並將內容存儲在我的計算機上供以後分析。但是,我的操作系統文件系統對子目錄的數量有限制,這意味着存儲原始文件夾結構不起作用。如何存儲從網站抓取的數據
對此提出建議?
將URL映射到某個文件名,以便可以平鋪存儲?或者只是將它推入像sqlite這樣的數據庫中以避免文件系統限制?
我想抓取網站並將內容存儲在我的計算機上供以後分析。但是,我的操作系統文件系統對子目錄的數量有限制,這意味着存儲原始文件夾結構不起作用。如何存儲從網站抓取的數據
對此提出建議?
將URL映射到某個文件名,以便可以平鋪存儲?或者只是將它推入像sqlite這樣的數據庫中以避免文件系統限制?
這一切都取決於您有意抓取的文本和/或網頁的有效數量。一個通用的解決方法是
此方法的優點是DBMS保持較小狀態,但可用於SQL驅動的查詢(特設或編程性質)查詢各種條件。與在SQL服務器本身內存儲許多/大文件相關聯,通常沒有什麼收穫(並且很多頭痛)。此外,當每個頁面被處理/分析時,可以將額外的元數據(例如標題,語言,大多數重複的5個單詞,等等)添加到數據庫中。
將其存儲在數據庫中將有助於搜索內容和頁面基礎數據。您還可以嘗試內存數據庫或「存儲緩存」,如存儲加速。
我將抓取大約10GB的文本。這聽起來像是一個很好的妥協。 – hoju 2010-03-17 05:58:37
@mjv爲它讚不絕口,你能寫出如何讓hadoop hdfs介入這個解決方案之間嗎? – 2015-12-28 12:19:07