html-parsing

0熱度

1回答

我使用Jsoup的parseBodyFragment()和parse()方法來處理由腳本，無腳本和樣式標記組成的代碼塊。目標不是清理它們 - 只需要select()，分析並輸出它們。 select()部分工作得很好。但問題是它會自動編碼src屬性的url參數。所以，當輸入是這樣的： <noscript> <img height="1" width="1" style="display:none

1熱度

1回答

如何使用python爲Web元素生成Xpath（在運行時在我的腳本中）？

我想在文本文件中使用python [data scraping]導出任何網頁的頁面對象。另外，我正在爲元素提供硬編碼的Selenium Web驅動程序語法。我可以通過使用id屬性來實現此目的。例如我發現有text類型的屬性id和輸入的所有網頁元素： from htmldom import htmldom URL = "https://www.fundsindia.com/content/js

0熱度

1回答

解析，在PHP中使用curl和xpath，在表單之前使用HTML頁面

我使用PHP和xpath來解析一些HTML頁面：在上一期（rif。Parsing an HTML page using curl and xpath in PHP）中，我已經解決了如何解析頁面來提取一些值。現在我已經在另一個頁面中，在獲取我想要解析的值之前，我必須選擇一個值（圖片中的Venezia ...，組合框「Provincia」中的... ...）），然後點擊一個按鈕（圖片中的「CERC

0熱度

1回答

反應-HTML解析器意外錯誤

我傳遞HTML字符串從我的後臺，我現在用的反應-HTML解析器我的html字符串轉換成反應成分反應成分。但得到錯誤。 ERROR在./~/entities/maps/entities.json 模塊解析失敗：/Users/PrashantKumarKatariya/teabox_web/teabox_django/static/node_modules/entities/maps/entities

0熱度

1回答

解析2標籤美麗蟒python

我想提取所有鏈接http://example.com/1並忽略2 標籤與beautifulsoup之後的所有鏈接。 <div class="compost"> <a target="_blank" href="http://example.com/1">text 2</

1熱度

1回答

如何使用Nutch解析和檢索圖像

在學習了很多關於StackOverflow的文章和一些問題之後，我知道我需要爲此目的編寫一個定製的解析器插件，並且我也知道如何做到這一點，但我被困在如何進行。事實上，我對系統的「流程圖」感到困惑，這可能需要對Nutch抓取和解析機制進行深入研究。從哪兒開始？定製HTML解析過程，然後解析相關頁面上的img標籤，最後使用JSoup等工具完成該過程。例如，讓我必須抓取網絡並收集某個特定品牌商品的所

2熱度

1回答

在python

中解析http [s] weboages，直到最近我才能從網站here解析表數據。我注意到傳輸協議從http改爲https，我相信這是原因，舊的代碼不再工作。我得到這個錯誤：IOError: Error reading file 'https:/....我的代碼基本上是 import lxml.html page = lxml.html.parse(url) table = [page.xpa

0熱度

1回答

數據解析了多重嵌套網頁

的基本上我們有一個網站，有一堆不同的項目數據，並佈置成能夠描述在樹中的項目狀結構（http://www.isoldwhat.com/getcats/fullcategorytree.php）。我們希望打破所有類別並將它們導出到Json文件。我遇到的問題是要打開每個類別，我需要點擊它並讓它重新加載。我想我必須模仿每個類別的點擊次數。解析這些數據的最佳方法是什麼？我可能會使用一些jQuery，但我打開

0熱度

1回答

BeautifulSoup遞歸解析數據和維護結構時輸出

我想創建一個json文件，可以打破樹形結構中所有類別的項目列表，並維護類別所在的嵌套順序（從本網站http://www.isoldwhat.com/getcats/fullcategorytree.php）。目前，我有以下代碼來解析所有類別的： #!/usr/bin/env python import sys import urllib2 from pprint import pprint

0熱度

1回答

美麗的湯：如何判斷何時嵌套html的遞歸解析

我有一些我正在使用BeautifulSoup解析的HTML。我使用下面的代碼獲得所有的類別了DOM的： def dataList(element): categoryList = [] try: for ul in categorySoup('ul', recursive=False): for li in ul('li', recursive=Tru