如何刮＃包含＃使用python scrapy

-3

我正在使用python scrapy刮一個網站。該網頁的格式爲http://www.cuponation.in/myntra-coupons#voucher-13537 它包含'＃'。在將此網頁作爲start_url進行抓取時，會忽略＃後面的部分。如何刮＃包含＃使用python scrapy

有沒有一種方法，我可以使用python scrapy

'＃'只會帶你到頁面上的某個地方。 – BrenBarn

我要說實話，我不明白是什麼造成了所有的仇恨。這似乎是一個非常簡單的問題陳述。 – Veedrac

@Veedrac，真實，但它顯示了一個非常根本的刮擦誤解，我不知道OP期望結果是什麼。 – OGHaza

雖然拼搶很平常，它忽略#後的部分用刮的＃在fullurl它。該符號通常會將您帶到id等於'憑證-13537'的網頁上的<div>標記，就是這一切。所以一旦你刮的頁面，你應該嘗試尋找類似的東西：

<div id="voucher-13537">

，這就是你要尋找的。

談到解析html文件，如果你還沒有使用它，我建議你看看BeautifulSoup4模塊。

2014-06-13 08:27:17 Rohit

提及BeautifulSoup4可能更適合OP –

回答