我目前正在使用urllib2,pyquery和json的混合來刮取網站,現在我發現我需要從JavaScript中提取一些數據。一個想法是使用JavaScript引擎(如V8),但這似乎是我需要的矯枉過正。我會使用正則表達式,但表達式似乎很複雜。從JavaScript中提取數據(Python Scraper)
的JavaScript:
(function(){DOM.appendContent(this, HTML("<html>"));;})
我需要提取<html>
,但我不完全知道如何做到這一點。 <html>
本身可以包含太陽下的每個角色,因此[^"]
將不起作用。
有什麼想法?
如果它包含一個```,是否需要轉義? – Jens 2011-01-28 07:32:18
是的,這會增加複雜性。 – skeggse 2011-03-09 18:42:46