TL; DR版本號: 我只聽說過關於網絡爬蟲的智力交談,我不是。我只想知道,可他們也跟着像一個特定的路徑:是一個網絡爬蟲更合適?
first page (has lot of links) -->go to links specified-->go to
links(specified, yes again)-->go to certain link-->reach final page
and download source.
我用Google搜索了一下,整個Scrappy來了。但我不確定是否完全理解網絡抓取工具,並且如果scrappy可以幫助我遵循我想要的特定路徑。
龍版
我想提取一組靜態網頁的一些文字。這些網頁非常簡單,只有基本的HTML
。我使用python
和urllib
訪問URL
,提取文本並使用它。很快,我意識到我將不得不基本訪問所有這些頁面,並將URL
複製到我的程序中,這很煩人。我想知道這是否更適合網絡爬蟲。我想訪問this 頁面。然後選擇只有幾個organisms
(我有這些列表)。點擊它們你可以看到this頁面。如果你看下錶 - MTases active in the genome
有Enzymes
這是hyperlinks
。叮噹作響,導致this頁面。在右側有鏈接Sequence Data
。一旦點擊,它會導致頁面右下方有一個小桌子,並帶有黃色標題。它下面有一個條目DNA (FASTA STYLE
。點擊視圖會導致頁面感興趣並想從頁面下載源代碼。
是的,你可以。如果你更仔細地看看Scrapy的文檔,他們可以幫助你按照你想要的路徑行事。 – Beginner 2014-10-08 21:20:50