html-parsing

    4熱度

    4回答

    我與C#.net工作 我有一個問題, 我加載與XDocument.xDoc.Load(file) XML文件中,但由於我的內容我也有XML失敗標籤: 例子:<root><abc><deg></abc></root> 我的問題是,Load功能對待<deg>爲不匹配的 「</deg>」 XML標籤... 我的問題是,如何以最簡單的方式替換「deg」的「<」和「>」與匹配的「<」「>」? N

    1熱度

    2回答

    我很好奇我正在查看的網頁。 我使用「視圖 - 頁面源代碼」並獲取一個帶有html的窗口。 我把它剪切並粘貼到記事本++中。 我手動解析通過添加空白,使其可讀。 有沒有更好的方法來做最後一步?我希望已經寫了一些能夠自動執行這個過程的東西,給用戶一個可讀的源文件版本。 感謝您的任何幫助。 - 比爾

    0熱度

    4回答

    (我已經看到了類似的問題,但我認爲他們沒有滿足我的特定需求,所以......) 我想知道是否有一個Java庫,用於分析現實世界(閱讀:不完整,格式不正確)的HTML。通過分析,我的意思的東西,如: 在HTML塊 找出最突出的顏色改變這種顏色到其他顏色(因此,必須支持HTML的修改以及) 修剪掉不需要的標籤 固定了HTML導致一個良好的HTML片段中最後兩個 的部分由庫,如傑里科,和jTidy完成。

    0熱度

    2回答

    我一直在編程一個字解擾器。我需要解析一組標籤和另一組標籤之間的信息,並將所有匹配放入數組中。開始標記是: <tr> <td></td><td><li> 和結束標記是: </li></td> </tr> 我知道有一些正則表達式,但我不熟悉PHP。

    0熱度

    1回答

    我想從html文件中提取文本以進行索引,並儘可能快地完成。我不想從頭開始創造一些東西,而是希望看到我能爲自己找到多少。 目前我只是輸出html2text,它的工作原理,但是在python和試圖美化文本之間,我相信速度可以提高。 因此,在Linux/unix優先的情況下,哪種(c/C++)庫最適合這種類型的任務?

    5熱度

    2回答

    通常我使用lxml來滿足我的HTML解析需求,但在Google App Engine上不可用。明顯的替代方案是BeautifulSoup,但我發現它很容易在格式錯誤的HTML上扼殺。目前我正在測試libxml2dom並且獲得了更好的結果。 您發現哪種純Python HTML解析器性能最好?我的優先考慮是能夠處理糟糕的HTML速度。

    3熱度

    1回答

    代碼可以比我更好地解釋這個問題。我還包括了我試圖做到這一點的替代方法。如果可能的話,請解釋爲什麼這些其他方法不起作用。我已經用完了想法,可悲的是HtmlAgilityPack沒有太多例子。我目前正在瀏覽尋找更多想法的文檔。 我注意到的一件事是.nextSibling屬性,並認爲我可以使用while循環遍歷表單,直到找不到下一個兄弟或表單的結尾。 總之,這裏的代碼: using System; u

    3熱度

    1回答

    我必須編寫一個XPath表達式來獲取html標記中的錨標記的href屬性,該標記緊跟在標記爲「當前頁」的標記之後(在示例中#notimportant/2)。 <dd> <a href="#notimportant/1" class="current-page">1</a> <a href="#notimportant/2">2</a> <a href="#notimp

    0熱度

    1回答

    iPhone OS開發 我需要設置的UITableView細胞爲字符串,我從當地的「file.html」文件中獲取的名稱。 我知道我需要解析HTML,但目前我並不擔心這一點。 如果有人能夠給我看一些快速代碼,可以設置HTML文件中的第一行文本並將其設置爲NSString變量,我想我可以找出其餘部分。 我真的很感激任何幫助。 謝謝。

    3熱度

    3回答

    我一直在開發Java程序,通過使用各種HTML解析器像耶利哥,NekoHtml等解析網頁的HTML源代碼 現在我想開發PHP語言解析器。因此,在開始之前,我想知道是否有任何可用的PHP解析器,我可以使用PHP來解析HTML代碼