我想從各種網站獲取數據。在堆棧溢出搜索後,我使用crawler4j,因爲許多人提出這一點。下面是我的理解/設計:crawler4J高效設計獲取數據
1. Get sitemap.xml from robots.txt.
2. If sitemap.xml is not available in robots.txt, look for sitemap.xml directly.
3. Now, get the list of all URL's from sitemap.xml
4. Now, fetch the content for all above URL's
5. If sitemap.xml is also not available, then scan entire website.
現在,你可以請請讓我知道,是crawler4J能夠做到步驟1,2和3 ??? 請提出任何更好的設計可用(假設沒有飼料可用) 如果是的話,請你指導我如何做。
感謝 Venkat
嗨,有什麼輸入嗎? – topblog 2012-02-25 19:21:34
任何幫助將不勝感激... – topblog 2012-02-26 02:37:59