我編寫了一個程序,用於抓取網站,處理html頁面並將結果存儲在MySql數據庫中。 「結果」是指html內容,所有與他們的屬性和各種錯誤的鏈接,以防當抓取工具無法抓取時。我將這個程序用於分析目的。用於存儲/訪問大量數據的正確解決方案
一切正常,但主要問題是數據佔用太多的磁盤空間。對於每個100000個網站(每個網站最多20個網頁),我有5個MySQL表,總共大約60 GB的空間,我需要處理20-30多個網站。
當然,我不能在家用電腦上同時處理那麼多的數據,而且我只能處理它的小塊,這很耗時,效率也不高。
,所以我尋求建議或解決方案來:
1)給關係型數據庫確實
2相同的靈活性訪問數據),允許數據
我不存儲圖像,外部js或css內容。而且我無法擺脫HTML內容,因爲分析任務可能會改變 - 今天我正在提取關鍵字,明天我可能不得不做其他任何事情。 – Termos 2012-02-10 16:15:34