lxml

0熱度

1回答

我有一個非常簡單的任務：使用ssh，我想創建一個隧道，將流量從本地機器轉發到遠程機器上的特定端口。我可以在命令行中執行此操作： ssh -N -L 123:127.0.0.1:456 [email protected] 然後，如果我運行： telnet localhost 123 它登錄到remotehost和運行 telnet 127.0.0.1 456 相當於我已經成功地做這與沿線

2熱度

2回答

無法在Excel文件中正確寫入提取的項目？

我已經在python中編寫了一些代碼來解析網頁中的標題和鏈接。最初，我嘗試解析左側欄中的鏈接，然後通過追蹤每個鏈接從每個頁面上刮取上述文檔。我完美無瑕地做到了這一點。我試圖將不同頁面中的不同鏈接的文檔保存在一個excel文件中。但是，它創建了幾個「表格」，從我的腳本的標題變量中提取所需部分作爲表格名稱。我面臨的問題是 - 保存數據時，鏈接中每個頁面的最後一條記錄都保存在Excel表格中，而不是全部

13熱度

2回答

字符串變量作爲lxml.builder

我通過建立HTML表格從列表中lxml.builder，並努力使表中的細胞在下列方式產生列表中的一個鏈接的href： with open('some_file.html', 'r') as f: table = etree.parse(f) p_list = list() rows = table.iter('div') p_list.append([c.text for c i

1熱度

1回答

安裝lxml後導入lxml失敗

我正在嘗試使用lxml庫。我在Windows 7上使用Pycharm與python 3.6.1。我已經使用「pip install lxml-3.8.0-cp36-cp36m-win32.whl」安裝了lxml-3.8.0-cp36-cp36m-win32.whl。lxml顯示在外部庫> site-packages文件夾中，但解釋器無法解析它。有什麼建議麼？ import lxml from et

0熱度

1回答

Python網絡抓取：使用多個標籤提取一個屬性

我試圖在聯機書籤服務上從我的帳戶中抓取數據。帶有書籤的頁面組織如下： <!DOCTYPE html> <html lang="en"> <body> <div id="item1" class="outer_block"> <div class="title">Bookmark 1</div> <div class="link"> <a href="https

1熱度

2回答

lxml和CDATA和＆

我有一個具有CDATA的XML，其中包含具有與＆符號的URL的標記。我應該使用lxml來讀取這些標籤，但我得到一個錯誤。 Traceback (most recent call last): File "<stdin>", line 1, in <module> File "src\lxml\lxml.etree.pyx", line 3228, in lxml.etree.f

0熱度

1回答

如何從lxml錯誤中獲取更多信息？

因爲我無法使用XSL IDE，所以我使用lxml編寫了一個超簡單的Python腳本，用給定的XSL轉換來轉換給定的XML文件，並將結果寫入文件。如下（有刪節）： p = XMLParser(huge_tree=True) xml = etree.parse(xml_filename, parser=p) xml_root = xml.getroot() print(xml_root.tag)

1熱度

2回答

當表缺少thead元素時使用beautifulsoup/lxml檢測HTML表中的標頭

我想在表中沒有<thead>元素時檢測HTML表頭。（MediaWiki，驅動維基百科，does not support <thead> elements。）我想用這個在BeautifulSoup和lxml中都使用python。比方說，我已經有一個table對象，我想擺脫它的thead對象，tbody對象和tfoot對象。目前，parse_thead執行以下操作時<thead>標籤存在：在B

4熱度

3回答

LXML XPath返回一個空列表

<!DOCTYPE html><html xmlns="http://www.w3.org/1999/xhtml" class="pc chrome win psc_dir-ltr psc_form-xlarge" dir="ltr" lang="en"> <title>Some Title</title> </html> 如果我運行： from lxml import etree ht

0熱度

2回答

使用lxml，我如何閱讀嵌套元素內的文本？

我正在嘗試搜索大約500個XML文檔的某些特定短語，並輸出包含任何這些短語的任何元素的ID。目前，這是我的代碼： from lxml import etree import os import re files = os.listdir('C:/Users/Me/Desktop/xml') search_words = ['House divided', 'Committee divid