beautifulsoup

    0熱度

    4回答

    我需要拔出所有的「節點組」元素出一個XML文件: <Database> <Get> <Data> <NodeGroups> <NodeGroup> <AssociateNode ConnID="6748763_2" /> <AssociateNode ConnID="6748763_1" /> <Data Dat

    2熱度

    1回答

    我正在閱讀BeautifulSoup來屏幕上刮一些相當沉重的HTML頁面。通過BeautifulSoup的文檔,我似乎無法找到一種簡單的方法來選擇子元素。 由於HTML: <div id="top"> <div>Content</div> <div> <div>Content I Want</div> </div> </div> 我希望有一個簡單的方法

    2熱度

    1回答

    目前正在製作一些網頁剪貼腳本。 ,我選擇PAMIE來使用我的腳本。 其實即時通訊新的python和編程。 所以我不知道,如果我使用PAMIE,它使腳本與win32-python相關真的很有幫助。 好的我的問題是, 雖然即時通訊製作腳本,我遇到兩個probelm。 首先,我想讓我的腳本一起工作Beautifulsoup和PAMIE。 或它也可以..如果可以一起工作本地Internet Explore

    4熱度

    1回答

    我只是試着用Jython(2.5.1)運行BeautifulSoup(3.1.0.1),我驚訝地發現它比CPython慢​​了很多。用CPython解析一個頁面(http://www.fixprotocol.org/specifications/fields/5000-5999)花了不到一秒(準確地說是0.844秒)。 Jython花費了564秒 - 差不多是700倍。 任何人都可以確認此結果嗎?

    10熱度

    2回答

    如果美麗的湯給我一個錨標記是這樣的: <a class="blah blah" id="blah blah" href="link.html"></a> 我將如何檢索href屬性的值?

    1熱度

    1回答

    我試圖在網頁上使用md5算法來避免看到重複。有沒有一種簡單的方法可以將美麗的結果轉換爲可由md5消化的字符串? 非常感謝

    1熱度

    2回答

    我想從美麗的結果中統計'湯'中的標籤數量。我想用正則表達式,但遇到了麻煩。 伊夫嘗試的代碼如下: reg_exp_tag = re.compile("<[^>*>") tags = re.findall(reg_exp_tag, soup(cast as a string)) 但re不會允許reg_exp_tag,給正則表達式的錯誤的一個意想不到的一端。 任何幫助將不勝感激! 感謝

    2熱度

    4回答

    BeautifulSoup newbe ...需要幫助 下面是代碼示例... from mechanize import Browser from BeautifulSoup import BeautifulSoup mec = Browser() #url1 = "http://www.wines.com/catalog/index.php?cPath=21" url2 = "http

    7熱度

    2回答

    我使用這個代碼,以查找頁面中所有相關鏈接: soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+')) 而且它的工作非常好。不幸的是,在一個標籤有很多嵌套標籤,如字體,b和不同的東西...我想只得到文本內容,沒有任何其他的HTML標籤。鏈接 例子: <A HREF="notizia.php?idn=1134" OnMouseOver=

    2熱度

    5回答

    我目前有一些Ruby代碼用來刮一些網站。我使用的是Ruby,因爲那時我正在使用Ruby on Rails作爲網站,而且這很有意義。 現在我試圖將其移交給Google App Engine,並且一直卡住。 我已經將Python Mechanize移植到Google App Engine中,但它不支持使用XPATH進行DOM檢查。 我試過了內建的ElementTree,但它在我碰到'& mdash'時