2014-09-24 38 views
0

我有一個網站我想要抓取。它包含我希望在每個頁面上提取的多個項目。我如何從一個頁面提取多個項目機智Portia/Scrapy Spider

它與在線黃頁非常相似。它包含每個項目的標題,電話號碼和類別......由於這顯然不足以將整個頁面本身收錄到其中,所以這些項目都在列表中。一些頁面包含3個項目,其他頁面包含10個左右。

- 編輯1- 我已經成功地颳了許多網站,但他們都可以到一個只包含一個項目的頁面。這在這裏是不可能的,並且由於需要不同的模板,它將多個項目作爲一個項目返回,或者只是隨機地將一個項目返回。

+0

你嘗試過什麼嗎? – Tushar 2014-09-24 10:19:53

回答

0

Portia還不支持每頁提取多個項目。有一個issue for it,有足夠的興趣,它會很快完成。同時,一個技巧是將項目嵌套在父項目中(使用「變體」),然後在後處理步驟中將它們拆分成單獨的項目。

+0

謝謝。我確實認爲也許還不可能。 我會看看變體:) – Dan 2014-09-24 16:39:11

+0

只是爲了增加我自己的經驗,我無法得到這個工作,並最終使用scrapy代替。 – 2016-04-18 14:30:01

相關問題