我一直在尋找如何自動化和寫入文件到Scrapy(CSV)的Excel。到目前爲止,唯一可行的命令是繁瑣的,手動的方法:Scrapy |自動化和寫入Excel
scrapy crawl myscript -o myscript.csv -t csv
我希望能夠每一種格式化成更收集「行」的格式。此外,有什麼辦法可以使刮板自動化?理想情況下,我希望代碼每天運行一次,並且希望能夠在有關我的更新的更新時通知我自己。隨着更新是一個相關的職位。
我的蜘蛛正在發揮作用,這裏是代碼:
import scrapy
from scrapy.spiders import XMLFeedSpider
from YahooScrape.items import YahooScrapeItem
class Spider(XMLFeedSpider):
name = "Test"
allowed_domains = ["yahoo.com"]
start_urls = ('https://feeds.finance.yahoo.com/rss/2.0/headline?s=GOOGL',)
itertag = 'item'
def parse_node(self, response, node):
item = {}
item['title'] = node.xpath('title/text()',).extract_first()
item['pubDate'] = node.xpath('link/pubDate/text()').extract_first()
item['link'] = node.xpath('link/text()').extract_first()
item['description'] = node.xpath('description/text()').extract_first()
return item
我知道,要進一步出口/整理我的刮刀,我必須編輯管道設置(至少根據大多數我讀過的文章)。
下面是我的pipelines.py代碼:
class YahooscrapePipeline(object):
def process_item(self, item, spider):
return item
我如何可以將其設置這樣我就可以執行的代碼,它會自動地寫代碼?
更新:我正在使用ScrapingHubs API,它使用shub-module來運行我的蜘蛛。它非常方便,而且易於使用。
您可以在settings.py中啓用管道並使用它。也可以使用啓動CSV Feed Exporter – Verz1Lka