如何王氏蟒蛇scrapy

2015-04-07 75 views 1 likes

我有一個HTML頁面(seed)形式的提取物對（HREF，ALT）：如何王氏蟒蛇scrapy

<div class="sth1"> 
    <table cellspacing="6" width="600"> 
     <tr> 
      <td> 
       <a href="link1"><img alt="alt1" border="0" height="22" src="img1" width="92"></a> 
      </td> 
      <td> 
       <a href="link1">name1</a> 
      </td> 
      <td> 
       <a href="link2"><img alt="alt2" border="0" height="22" src="img2" width="92"></a> 
      </td> 
      <td> 
       <a href="link2">name2</a> 
      </td> 
     </tr> 
    </table> 
</div>

我想什麼做的是循環到所有<tr>的，並提取所有href, alt與python scrapy配對。在這個例子中，我應該得到：

link1, alt1 
link2, alt2

來源

2015-04-07 user706838

回答

下面是來自Scrapy Shell一個例子：

$ scrapy shell index.html 
In [1]: for cell in response.xpath("//div[@class='sth1']/table/tr/td"): 
    ...:  href = cell.xpath("a/@href").extract() 
    ...:  alt = cell.xpath("a/img/@alt").extract() 
    ...:  print href, alt 

[u'link1'] [u'alt1'] 
[u'link1'] [] 
[u'link2'] [u'alt2'] 
[u'link2'] []

其中index.html包含的問題提供的樣本HTML。

來源

2015-04-07 17:10:21 alecxe

你可以嘗試Scrapy的內置SelectorList與Python的拉鍊（）合併：

from scrapy.selector import SelectorList 

xpq = '//div[@class="sth1"]/table/tr/td[./a/img]' 
cells = SelectorList(response.xpath(xpq)) 

zip(cells.xpath('a/@href'), cells.xpath('a/img/@alt')) 
=> [('link1', 'alt1'), ('link2', 'alt2')]

來源

2015-04-08 10:33:52 Roman

相關問題

1. 如何通過蟒蛇scrapy
2. Scrapy蟒蛇以下分頁
3. 分頁（第二級） - scrapy蟒蛇
4. scrapy，網址，蟒蛇的名單，熊貓
5. 蟒蛇和scrapy bashfile順序衝突
6. 蟒蛇 - scrapy不遵循鏈接
7. META標記未在scrapy蟒蛇工作
8. 蟒蛇Scrapy網絡爬行和刮
9. 如何蟒蛇
10. 如何蟒蛇
11. Scrapy，蟒蛇，Xpath的如何匹配相應項目在HTML
12. 如何在蟒蛇
13. 如何從蟒蛇
14. 你如何蟒蛇
15. 如何從蟒蛇
16. 如何從蟒蛇
17. 如何使蟒蛇
18. 的Silverlight ItemsControl的王氏的columnHeader
19. 運行總王氏常數T-SQL
20. 錨鏈接王氏的NavBar問題
21. 的bjam王氏的Visual Studio 2010
22. 無法在蟒蛇蟒蛇
23. 通過數組循環找到蟒蛇歐氏距離
24. 如何列出蟒蛇
25. 如何產生蟒蛇
26. 如何消除蟒蛇
27. 如何通過蟒蛇
28. 如何拆分和蟒蛇
29. GAE蟒蛇：如何delete_serving_url
30. 如何刪除蟒蛇