我需要從HTML文檔中抓取數據,其中數據有時直接位於表格內,有時位於<frameset>
框架內的表格內。我直到收到HTTP響應才知道。Scrapy和框架
目前我有
# works only when data directly in the HTML
rules = [
Rule(SgmlLinkExtractor(allow=[r'/data/(\w+)-content.htm']), callback='parse_content')
]
# works when data inside a frame
rules = [
???
]
我如何告訴scrapy使用框架,其中框架存在,並直接使用HTML它在哪裏呢?
我很困惑scrapy如何處理從幀中提取信息。是否有XPath技巧?我是否必須以某種方式與Response
物體混合?