html-parsing

    0熱度

    1回答

    我使用Jsoup的parseBodyFragment()和parse()方法來處理由腳本,無腳本和樣式標記組成的代碼塊。目標不是清理它們 - 只需要select(),分析並輸出它們。 select()部分工作得很好。 但問題是它會自動編碼src屬性的url參數。所以,當輸入是這樣的: <noscript> <img height="1" width="1" style="display:none

    1熱度

    1回答

    我想在文本文件中使用python [data scraping]導出任何網頁的頁面對象。另外,我正在爲元素提供硬編碼的Selenium Web驅動程序語法。 我可以通過使用id屬性來實現此目的。 例如我發現有text類型的屬性id和輸入的所有網頁元素: from htmldom import htmldom URL = "https://www.fundsindia.com/content/js

    0熱度

    1回答

    我使用PHP和xpath來解析一些HTML頁面:在上一期(rif。Parsing an HTML page using curl and xpath in PHP)中,我已經解決了如何解析頁面來提取一些值。 現在我已經在另一個頁面中,在獲取我想要解析的值之前,我必須選擇一個值(圖片中的Venezia ...,組合框「Provincia」中的... ...) ),然後點擊一個按鈕(圖片中的「CERC

    0熱度

    1回答

    我傳遞HTML字符串從我的後臺,我現在用的反應-HTML解析器我的html字符串轉換成反應成分反應成分。但得到錯誤。 ERROR在./~/entities/maps/entities.json 模塊解析失敗:/Users/PrashantKumarKatariya/teabox_web/teabox_django/static/node_modules/entities/maps/entities

    0熱度

    1回答

    我想提取所有鏈接http://example.com/1並忽略2 <br><br>標籤與beautifulsoup之後的所有鏈接。 <div class="compost"> <br><b><a target="_blank" href="http://example.com/1"><span id="s_index18" class="select_index"></span>text 2</

    1熱度

    1回答

    在學習了很多關於StackOverflow的文章和一些問題之後,我知道我需要爲此目的編寫一個定製的解析器插件,並且我也知道如何做到這一點,但我被困在如何進行。 事實上,我對系統的「流程圖」感到困惑,這可能需要對Nutch抓取和解析機制進行深入研究。從哪兒開始?定製HTML解析過程,然後解析相關頁面上的img標籤,最後使用JSoup等工具完成該過程。 例如,讓我必須抓取網絡並收集某個特定品牌商品的所

    2熱度

    1回答

    中解析http [s] weboages,直到最近我才能從網站here解析表數據。我注意到傳輸協議從http改爲https,我相信這是原因,舊的代碼不再工作。我得到這個錯誤:IOError: Error reading file 'https:/....我的代碼基本上是 import lxml.html page = lxml.html.parse(url) table = [page.xpa

    0熱度

    1回答

    的基本上我們有一個網站,有一堆不同的項目數據,並佈置成能夠描述在樹中的項目狀結構(http://www.isoldwhat.com/getcats/fullcategorytree.php)。我們希望打破所有類別並將它們導出到Json文件。我遇到的問題是要打開每個類別,我需要點擊它並讓它重新加載。我想我必須模仿每個類別的點擊次數。解析這些數據的最佳方法是什麼?我可能會使用一些jQuery,但我打開

    0熱度

    1回答

    我想創建一個json文件,可以打破樹形結構中所有類別的項目列表,並維護類別所在的嵌套順序(從本網站http://www.isoldwhat.com/getcats/fullcategorytree.php)。目前,我有以下代碼來解析所有類別的: #!/usr/bin/env python import sys import urllib2 from pprint import pprint

    0熱度

    1回答

    我有一些我正在使用BeautifulSoup解析的HTML。我使用下面的代碼獲得所有的類別了DOM的: def dataList(element): categoryList = [] try: for ul in categorySoup('ul', recursive=False): for li in ul('li', recursive=Tru