Scrapy和框架

2013-05-28 26 views 2 likes

我需要從HTML文檔中抓取數據，其中數據有時直接位於表格內，有時位於<frameset>框架內的表格內。我直到收到HTTP響應才知道。Scrapy和框架

目前我有

# works only when data directly in the HTML 
rules = [ 
    Rule(SgmlLinkExtractor(allow=[r'/data/(\w+)-content.htm']), callback='parse_content') 
] 

# works when data inside a frame 
rules = [ 
    ??? 
]

我如何告訴scrapy使用框架，其中框架存在，並直接使用HTML它在哪裏呢？

我很困惑scrapy如何處理從幀中提取信息。是否有XPath技巧？我是否必須以某種方式與Response物體混合？

來源

2013-05-28 user124114

回答

您必須獲取框架源URL（在框架src屬性中給出），並使用該URL作爲請求URL來獲取框架中的數據。

來源

2013-06-10 13:23:47

使用此規則，如果你只是想抓住框架SRC URL格式，以及：

Rule(SgmlLinkExtractor(allow = (all_subdomains,), tags=('a', 'area', 'frame'), attrs=('href','src')))

來源

2013-11-23 22:27:24 Tony

相關問題

1. Scrapy monster.com使用scrapy框架
2. Scrapy框架的代理IP
3. scrapy框架：login-scrape-navigate
4. 使用tor與scrapy框架
5. Scrapy Shell和Scrapy Splash
6. jquery和框架
7. CoreBluetooth框架和IOBluetooth框架的區別
8. Primefaces 6.0對話框架和框架集
9. HTTP框架和web框架的區別？
10. HTML框架和框架問題
11. X框架選項和框架
12. 集成Play框架2.0和Spring框架
13. PHP框架和移動框架
14. Twitter Bootstrap框架和Zend框架
15. 找不到從Scrapy python框架下載的圖像
16. 在scrapy框架中解析JSON響應的最佳方法python
17. 以下鏈接，Scrapy網頁爬蟲框架
18. 設置Scrapy框架在Python 2.7上運行
19. 如何將scrapy框架添加到便攜式python中？
20. Zend框架和Apache
21. UML和iOS框架
22. ASP.NET IIS和框架
23. NSView框架和setContentBorderThickness：forEdge：
24. Zend框架和ReCaptcha
25. Scala庫和框架
26. DataTemplates和MVVM框架
27. xcode框架和API？
28. Play框架和JPA
29. Restkit和opencv2框架
30. CSS和框架集？