2014-10-08 94 views
0

TL; DR版本號: 我只聽說過關於網絡爬蟲的智力交談,我不是。我只想知道,可他們也跟着像一個特定的路徑:是一個網絡爬蟲更合適?

first page (has lot of links) -->go to links specified-->go to 
links(specified, yes again)-->go to certain link-->reach final page 
and download source. 

我用Google搜索了一下,整個Scrappy來了。但我不確定是否完全理解網絡抓取工具,並且如果scrappy可以幫助我遵循我想要的特定路徑。

龍版

我想提取一組靜態網頁的一些文字。這些網頁非常簡單,只有基本的HTML。我使用pythonurllib訪問URL,提取文本並使用它。很快,我意識到我將不得不基本訪問所有這些頁面,並將URL複製到我的程序中,這很煩人。我想知道這是否更適合網絡爬蟲。我想訪問this 頁面。然後選擇只有幾個organisms(我有這些列表)。點擊它們你可以看到this頁面。如果你看下錶 - MTases active in the genomeEnzymes這是hyperlinks。叮噹作響,導致this頁面。在右側有鏈接Sequence Data。一旦點擊,它會導致頁面右下方有一個小桌子,並帶有黃色標題。它下面有一個條目DNA (FASTA STYLE。點擊視圖會導致頁面感興趣並想從頁面下載源代碼。

+0

是的,你可以。如果你更仔細地看看Scrapy的文檔,他們可以幫助你按照你想要的路徑行事。 – Beginner 2014-10-08 21:20:50

回答

0

我認爲你絕對是在尋找一個網絡爬蟲來幫助你做到這一點的正確軌道。你也可以看看Norconex HTTP Collector,我知道它可以讓你跟蹤頁面上的鏈接,而不會存儲該頁面,如果這只是一個列表頁面給你。該抓取工具允許您在鏈接被解壓縮後進行過濾。最終,您可以配置正確的過濾器,以便只有匹配所需模式的頁面才能下載,以供您處理(無論是基於爬網深度,URL模式,內容模式等)。