beautifulsoup

0熱度

4回答

我需要拔出所有的「節點組」元素出一個XML文件： <Database> <Get> <Data> <NodeGroups> <NodeGroup> <AssociateNode ConnID="6748763_2" /> <AssociateNode ConnID="6748763_1" /> <Data Dat

2熱度

1回答

用BeautifulSoup選擇特定的子元素

我正在閱讀BeautifulSoup來屏幕上刮一些相當沉重的HTML頁面。通過BeautifulSoup的文檔，我似乎無法找到一種簡單的方法來選擇子元素。由於HTML： <div id="top"> <div>Content</div> <div> <div>Content I Want</div> </div> </div> 我希望有一個簡單的方法

2熱度

1回答

Pamie和python-win32問題

目前正在製作一些網頁剪貼腳本。，我選擇PAMIE來使用我的腳本。其實即時通訊新的python和編程。所以我不知道，如果我使用PAMIE，它使腳本與win32-python相關真的很有幫助。好的我的問題是，雖然即時通訊製作腳本，我遇到兩個probelm。首先，我想讓我的腳本一起工作Beautifulsoup和PAMIE。或它也可以..如果可以一起工作本地Internet Explore

4熱度

1回答

BeautifulSoup with Jython

我只是試着用Jython（2.5.1）運行BeautifulSoup（3.1.0.1），我驚訝地發現它比CPython慢了很多。用CPython解析一個頁面（http://www.fixprotocol.org/specifications/fields/5000-5999）花了不到一秒（準確地說是0.844秒）。 Jython花費了564秒 - 差不多是700倍。任何人都可以確認此結果嗎？

10熱度

2回答

BeautifulSoup - 提取屬性值

如果美麗的湯給我一個錨標記是這樣的： <a class="blah blah" id="blah blah" href="link.html"></a> 我將如何檢索href屬性的值？

1熱度

1回答

在BeautifulSoup上使用md5的結果

我試圖在網頁上使用md5算法來避免看到重複。有沒有一種簡單的方法可以將美麗的結果轉換爲可由md5消化的字符串？非常感謝

1熱度

2回答

在BeautifulSoup中匹配標籤

我想從美麗的結果中統計'湯'中的標籤數量。我想用正則表達式，但遇到了麻煩。伊夫嘗試的代碼如下： reg_exp_tag = re.compile("<[^>*>") tags = re.findall(reg_exp_tag, soup(cast as a string)) 但re不會允許reg_exp_tag，給正則表達式的錯誤的一個意想不到的一端。任何幫助將不勝感激！感謝

2熱度

4回答

BeautifulSoup被省略身體頁的

BeautifulSoup newbe ...需要幫助下面是代碼示例... from mechanize import Browser from BeautifulSoup import BeautifulSoup mec = Browser() #url1 = "http://www.wines.com/catalog/index.php?cPath=21" url2 = "http

7熱度

2回答

BeautifulSoup - 簡單的方法來獲得免費的HTML內容

我使用這個代碼，以查找頁面中所有相關鏈接： soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+')) 而且它的工作非常好。不幸的是，在一個標籤有很多嵌套標籤，如字體,b和不同的東西...我想只得到文本內容，沒有任何其他的HTML標籤。鏈接例子： <A HREF="notizia.php?idn=1134" OnMouseOver=

2熱度

5回答

我應該用什麼純粹的Python庫來抓取一個網站？

我目前有一些Ruby代碼用來刮一些網站。我使用的是Ruby，因爲那時我正在使用Ruby on Rails作爲網站，而且這很有意義。現在我試圖將其移交給Google App Engine，並且一直卡住。我已經將Python Mechanize移植到Google App Engine中，但它不支持使用XPATH進行DOM檢查。我試過了內建的ElementTree，但它在我碰到'& mdash'時