目前我與scrapy,這是一個基於Python的網頁抓取框架內工作。使用XPATH從html中提取數據。 (我是python的新手)要包裝數據scrapy使用項目,例如在python處理字符串了奇怪的引號
item = MyItem()
item['id'] = obj.select('div[@class="id"]').extract()
當ID印像print item['id']
我獲得以下輸出
[u'12346']
我的問題是,這種輸出並不總是以相同的形式。有時候,我得到這樣
"[u""someText""]"
出現這種情況只與文本的輸出,但實際上並沒有什麼speciall相比於被corretly處理就像ID其他文本。
有誰知道引號是什麼意思?就像我所說的那樣,someText像所有其他文本數據一樣被抓取,例如from
<a>someText</a>
任何想法?
編輯:
我的蜘蛛抓取博客中的所有頁面。這裏是確切的輸出
[u'41039'];[u'title]
[u'40942'];"[u""title""]"]
...
與
item['title'] = site.select('div[@class="header"]/h2/a/@title').extract()
提取我注意到,總是相同的博客文章有這個引號。所以他們不會隨機出現。但是文本沒有什麼特別之處。例如。這個稱號產生引號
<a title="Xtra Pac Telekom web'n'walk Stick Basic für 9,95" href="someURL">
Xtra Pac Telekom web'n'walk Stick Basic für 9,95</a>
所以,我首先想到的是,這是因爲一些特殊的字符,但有任何的arent。
只有當項目被寫入到CSV,當我把它們打印在cmd中沒有引號這happeny。
有什麼建議嗎?
這是否總是發生的字符串?你能把它分解成一個可以發佈的特定測試用例嗎? – idbrii
您複製並粘貼了這些確切的輸出嗎?你打印某些東西的報告者和其他人的普通版本嗎? –