我有一個網站,這是相當不錯的,但信息很少。 所以我覺得像添加關於特定領域的新聞(例如政治,好萊塢等)的消息。我相信爬蟲是最好的方法嗎?我的理解是否正確,請建議您是否有其他方式獲取信息,而不使用各種來源的抓取工具。建議與最好的可定製履帶和鏟運機
其次,我從過去的2天開始進行研究,但找不到能夠做到的特定源代碼。現在我想爬蟲找到信息,規範化並存儲在mysql數據庫中。聽起來很簡單哈。但它不適合我。
由於這是非常資源和耗時的。在選擇抓取工具之前,我應該考慮哪些因素。我也想定製它,所以任何開源並且很好定製的工具都會很棒。
任何提供有關因素的信息和研究的來源都需要考慮,同時創建爬蟲或教育爬蟲將會很好。 我更喜歡用java編碼,但如果您覺得自己有某種語言,我可以使用任何其他語言編寫代碼。 我希望我已經提供了足夠的信息。請不要猶豫,如果你需要更多的信息給予建議。