html-parsing

    3熱度

    4回答

    因爲我是一個非英語母語的人,所以我使用了很多字典。 現在我正在學習C#,我當時就想,如果我獲准籌建,這將在我的機器上運行的應用程序,但它會使用谷歌/ babefish翻譯服務,或任何其他翻譯/字典在線工具。每次瀏覽瀏覽器需要時間並搜索單詞的翻譯。 如果是合法的,你認爲這種類型的應用程序是什麼?在這一點上,我看到一些問題,重新查詢速度BC查詢,解析頁面等。

    2熱度

    3回答

    我想解析HTML(可以假設爲XML,通過Tidy轉換)並獲取所有文本節點(這意味着Body標籤中可見的節點)以及它們在XML文件中的位置。位置意味着平面XML文件中的文本位置。

    4熱度

    2回答

    您是否知道HTML敏捷包的任何擴展,它允許以jQuery樣式(而不是XPath)查詢HtmlDocument對象(由HAP創建)?

    1熱度

    3回答

    我最近試圖從一箇舊博客(SharePoint)導入一堆博客文章到我當前的博客(WordPress)。當導入完成後,許多令人討厭的<div>標籤和其他HTML使其成爲帖子的內容,這使我的網站呈現的方式變得糟糕。 我能夠查看MySQL數據庫中的違規行,並想知道是否有辦法選擇性地刪除可能導致問題的HTML文本。我可能通過解析文本在C#中破解了這一點,但我想弄清楚如何才能做到這一點。 如果您希望看到全文樣

    1熱度

    2回答

    如果我有HTML,看起來像: <td class="blah">&nbs;<a href="http://.....">????</a> </td> 我能得到????值使用xpath? 它會是什麼樣子?

    8熱度

    4回答

    我正在編寫一個應用程序來抓取我的一組網頁。我不想採用整個頁面的源代碼,而是想把所有的內容都存儲起來並存儲起來,並且能夠將頁面作爲純文本存儲在數據庫中。該內容將用於其他應用程序,而不是由用戶閱讀,因此不需要它是完全人性化的。 起初,我正在考慮使用正則表達式,但我無法控制網頁的有效性,並且很有可能沒有正則表達式會給我內容。 如果我有一個字符串內的源代碼,我該如何將該源代碼字符串轉換爲C#中的內容?

    39熱度

    8回答

    解析是我在開發過程中遇到的很多問題,但作爲初級應用,我認爲在需要的時候,我會在某個時刻獲得解決方案。在我目前的項目中,我被告知要爲某個函數找到並使用HTML解析器,我在網上找到了一對,但是HTML解析器實際上做了什麼?解析一個對象意味着什麼?

    17熱度

    2回答

    我試圖解析來自該網站的信息(HTML表格):http://www.511virginia.org/RoadConditions.aspx?j=All&r=1 目前我使用BeautifulSoup,我有這個樣子的 from mechanize import Browser from BeautifulSoup import BeautifulSoup mech = Browser() ur

    6熱度

    2回答

    我有一個DotNetNuke皮膚,它有一個長度超過3,500行的單個CSS文件。它包含YUI,Telerik,Cluetip的樣式以及網站的實際定製。舊開發人員不斷添加樣式,從不清理舊的未使用的樣式。 我想清理該文件並將其更加可管理的大小。我首先想到了通過代碼庫進行掃描,但這是5500個文件,其中混合使用了CSS,.ascx和.cs文件以及jQuery應用樣式有時來自生成的代碼,有時來自js文件。

    2熱度

    1回答

    分裂一個帶有鏈接的逗號分隔的列表我有一個逗號在HTML文檔中的表格單元格分隔列表,但一些在列表中的項目鏈接: <table> <tr> <td>Names</td> <td>Fred, John, Barry, <a href="http://www.example.com/">Roger</a>, James</td> </tr> </table>