html-parsing

4熱度

4回答

我與C＃.net工作我有一個問題，我加載與XDocument.xDoc.Load(file) XML文件中，但由於我的內容我也有XML失敗標籤：例子：<root><abc><deg></abc></root> 我的問題是，Load功能對待<deg>爲不匹配的「</deg>」 XML標籤... 我的問題是，如何以最簡單的方式替換「deg」的「<」和「>」與匹配的「<」「>」？ N

1熱度

2回答

將空白添加到網頁源以便我可以閱讀它

我很好奇我正在查看的網頁。我使用「視圖 - 頁面源代碼」並獲取一個帶有html的窗口。我把它剪切並粘貼到記事本++中。我手動解析通過添加空白，使其可讀。有沒有更好的方法來做最後一步？我希望已經寫了一些能夠自動執行這個過程的東西，給用戶一個可讀的源文件版本。感謝您的任何幫助。 - 比爾

0熱度

4回答

Java庫，用於分析HTML

（我已經看到了類似的問題，但我認爲他們沒有滿足我的特定需求，所以......）我想知道是否有一個Java庫，用於分析現實世界（閱讀：不完整，格式不正確）的HTML。通過分析，我的意思的東西，如：在HTML塊找出最突出的顏色改變這種顏色到其他顏色（因此，必須支持HTML的修改以及）修剪掉不需要的標籤固定了HTML導致一個良好的HTML片段中最後兩個的部分由庫，如傑里科，和jTidy完成。

0熱度

2回答

PHP正則表達式：獲取HTML標籤組之間的信息？

我一直在編程一個字解擾器。我需要解析一組標籤和另一組標籤之間的信息，並將所有匹配放入數組中。開始標記是： <tr> <td></td><td><li> 和結束標記是： </li></td> </tr> 我知道有一些正則表達式，但我不熟悉PHP。

0熱度

1回答

索引html的文本內容

我想從html文件中提取文本以進行索引，並儘可能快地完成。我不想從頭開始創造一些東西，而是希望看到我能爲自己找到多少。目前我只是輸出html2text，它的工作原理，但是在python和試圖美化文本之間，我相信速度可以提高。因此，在Linux/unix優先的情況下，哪種（c/C++）庫最適合這種類型的任務？

5熱度

2回答

GAE的HTML解析器

通常我使用lxml來滿足我的HTML解析需求，但在Google App Engine上不可用。明顯的替代方案是BeautifulSoup，但我發現它很容易在格式錯誤的HTML上扼殺。目前我正在測試libxml2dom並且獲得了更好的結果。您發現哪種純Python HTML解析器性能最好？我的優先考慮是能夠處理糟糕的HTML速度。

3熱度

1回答

如何從HtmlAgility Pack獲得某種形式的輸入？ Lang：C＃.net

代碼可以比我更好地解釋這個問題。我還包括了我試圖做到這一點的替代方法。如果可能的話，請解釋爲什麼這些其他方法不起作用。我已經用完了想法，可悲的是HtmlAgilityPack沒有太多例子。我目前正在瀏覽尋找更多想法的文檔。我注意到的一件事是.nextSibling屬性，並認爲我可以使用while循環遍歷表單，直到找不到下一個兄弟或表單的結尾。總之，這裏的代碼： using System; u

3熱度

1回答

使用XPath選擇下一個鏈接

我必須編寫一個XPath表達式來獲取html標記中的錨標記的href屬性，該標記緊跟在標記爲「當前頁」的標記之後（在示例中#notimportant/2）。 <dd> <a href="#notimportant/1" class="current-page">1</a> <a href="#notimportant/2">2</a> <a href="#notimp

0熱度

1回答

加載本地.html文件的字符串轉換爲表格視圖單元

iPhone OS開發我需要設置的UITableView細胞爲字符串，我從當地的「file.html」文件中獲取的名稱。我知道我需要解析HTML，但目前我並不擔心這一點。如果有人能夠給我看一些快速代碼，可以設置HTML文件中的第一行文本並將其設置爲NSString變量，我想我可以找出其餘部分。我真的很感激任何幫助。謝謝。

3熱度

3回答

HTML解析器的PHP像Java

我一直在開發Java程序，通過使用各種HTML解析器像耶利哥，NekoHtml等解析網頁的HTML源代碼現在我想開發PHP語言解析器。因此，在開始之前，我想知道是否有任何可用的PHP解析器，我可以使用PHP來解析HTML代碼