scrapy-pipeline

0熱度

2回答

我有一個NPI列表，我想從npidb.org中提取提供者的名稱 NPI值存儲在csv文件中。我能夠通過在代碼中粘貼URL來手動完成。然而，如果我有一份我希望提供商名稱的NPI列表，我無法弄清楚如何做到這一點。這裏是我當前的代碼： import scrapy from scrapy.spider import BaseSpider class MySpider(BaseSpider):

0熱度

1回答

Scrapy正則表達式自定義管道

這是我的Scrapy定製的正則表達式管道代碼： for p in item['code']: for search_type, pattern in RegEx.regexp.iteritems(): s = re.findall(pattern, p) if s: return item else: r

1熱度

3回答

scrapy csvpipeline根據蜘蛛名稱或ID導出csv

我有兩個不同的蜘蛛在運行。我正在尋找寫2個不同的csv文件命名的蜘蛛名稱。 spider1.csv從spider1數據和S pider2.csv數據從spider2 這裏是我的CsvPipeline類： class CsvPipeline(object): def __init__(self): self.file = open("ss.csv", 'wb') self.ex

-1熱度

2回答

從Scrapy爬行中刪除「＃」鏈接

我是網站上的running this spider。它工作正常，但我遇到的一個問題是有許多帶有「＃」作爲鏈接的hrefs。如何跳過或放棄這些＃鏈接？我正在輸出指向當前文件的鏈接，並使用lstrip轉儲文件「」。我也試過i.replace，但它仍然在文件中留下一條空行。

0熱度

1回答

Scrapy不調用分配的管道

我有一段代碼來測試scrapy。我的目標是使用scrapy，而無需從終端調用scrapy命令，因此我可以在其他位置嵌入此代碼。的代碼如下： from scrapy import Spider from scrapy.selector import Selector from scrapy.item import Item, Field from scrapy.crawler import

1熱度

1回答

Scrapy管道爲每個start_url更新mysql

我有一個蜘蛛，它從MySQL數據庫中讀取start_urls並從每個頁面中刪除未知數量的鏈接。我想使用pipelines.py來更新數據庫，但我不知道如何讓start_url回到SQL UPDATE語句的管道中。這是蜘蛛代碼的作品。 import scrapy import MySQLdb import MySQLdb.cursors from scrapy.http.request im

0熱度

1回答

Scrapy管道SQL語法錯誤

我有抓住的URL從MySQL數據庫，並使用這些網址作爲start_urls刮，進而抓住任何數量的來自刮頁面新鏈接蜘蛛。當我設置的管道均START_URL和新的刮網址中插入到一個新的數據庫或當我設的管線更新與新刮的URL使用START_URL作爲WHERE條件已經存在的數據庫，我得到一個SQL語法錯誤。當我只插入一個或另一個，我沒有得到這個錯誤。這裏是spider.py import scrap

0熱度

1回答

Scrapy Pipeline未知數量的結果

我有一個scrapy蜘蛛，它從MySQL數據庫獲取start_urls。當它刮擦每個頁面時，它會返回未知數量的鏈接，這意味着它可能具有零個鏈接或每個頁面最多可鏈接10個鏈接。因爲這個數字是未知的，我不知道如何最好讓管道更新數據庫與所有可能的刮傷的鏈接，所以我倒是將start_url和scraped鏈接轉儲到一個新的數據庫。但是，如果我正在使用新的數據庫，我想將每個start_url的searcht

0熱度

1回答

python scrapy管道突然不起作用

這非常奇怪，我用它的管道編寫了scrapy代碼並抓取了大量的數據，它總是運行良好。今天，當我重新運行相同的代碼時，它突然不起作用。下面是詳細信息：我的蜘蛛 - base_url_spider.py import re from bs4 import BeautifulSoup from scrapy.linkextractors import LinkExtractor from scra

0熱度

2回答

從scrapy處理ImagesPipeline（或MediaPipeline）Retreive http返回代碼

我有一個工作的spider抓取圖像URL並將它們放置在scrapy.Item的image_urls字段中。我有一個從ImagesPipeline繼承的自定義管道。當一個特定的URL返回一個非200的http響應代碼（如說401錯誤）。例如，在日誌文件中，我發現 WARNING:scrapy.pipelines.files:File (code: 404): Error downloading fi