html-parsing

3熱度

4回答

因爲我是一個非英語母語的人，所以我使用了很多字典。現在我正在學習C＃，我當時就想，如果我獲准籌建，這將在我的機器上運行的應用程序，但它會使用谷歌/ babefish翻譯服務，或任何其他翻譯/字典在線工具。每次瀏覽瀏覽器需要時間並搜索單詞的翻譯。如果是合法的，你認爲這種類型的應用程序是什麼？在這一點上，我看到一些問題，重新查詢速度BC查詢，解析頁面等。

2熱度

3回答

如何從XML文件中獲取文本中的文本？

我想解析HTML（可以假設爲XML，通過Tidy轉換）並獲取所有文本節點（這意味着Body標籤中可見的節點）以及它們在XML文件中的位置。位置意味着平面XML文件中的文本位置。

4熱度

2回答

HTML敏捷包vs jquery

您是否知道HTML敏捷包的任何擴展，它允許以jQuery樣式（而不是XPath）查詢HtmlDocument對象（由HAP創建）？

1熱度

3回答

從數據庫文本字段中刪除文本

我最近試圖從一箇舊博客（SharePoint）導入一堆博客文章到我當前的博客（WordPress）。當導入完成後，許多令人討厭的<div>標籤和其他HTML使其成爲帖子的內容，這使我的網站呈現的方式變得糟糕。我能夠查看MySQL數據庫中的違規行，並想知道是否有辦法選擇性地刪除可能導致問題的HTML文本。我可能通過解析文本在C＃中破解了這一點，但我想弄清楚如何才能做到這一點。如果您希望看到全文樣

1熱度

2回答

可以使用xpath獲取html定位標記的值嗎？

如果我有HTML，看起來像： <td class="blah">&nbs;<a href="http://.....">????</a> </td> 我能得到????值使用xpath？它會是什麼樣子？

8熱度

4回答

解析HTML以獲取使用C＃的內容

我正在編寫一個應用程序來抓取我的一組網頁。我不想採用整個頁面的源代碼，而是想把所有的內容都存儲起來並存儲起來，並且能夠將頁面作爲純文本存儲在數據庫中。該內容將用於其他應用程序，而不是由用戶閱讀，因此不需要它是完全人性化的。起初，我正在考慮使用正則表達式，但我無法控制網頁的有效性，並且很有可能沒有正則表達式會給我內容。如果我有一個字符串內的源代碼，我該如何將該源代碼字符串轉換爲C＃中的內容？

39熱度

8回答

什麼是解析？

解析是我在開發過程中遇到的很多問題，但作爲初級應用，我認爲在需要的時候，我會在某個時刻獲得解決方案。在我目前的項目中，我被告知要爲某個函數找到並使用HTML解析器，我在網上找到了一對，但是HTML解析器實際上做了什麼？解析一個對象意味着什麼？

17熱度

2回答

BeautifulSoup HTML表格解析

我試圖解析來自該網站的信息（HTML表格）：http://www.511virginia.org/RoadConditions.aspx?j=All&r=1 目前我使用BeautifulSoup，我有這個樣子的 from mechanize import Browser from BeautifulSoup import BeautifulSoup mech = Browser() ur

6熱度

2回答

查找網站上使用的所有CSS樣式

我有一個DotNetNuke皮膚，它有一個長度超過3,500行的單個CSS文件。它包含YUI，Telerik，Cluetip的樣式以及網站的實際定製。舊開發人員不斷添加樣式，從不清理舊的未使用的樣式。我想清理該文件並將其更加可管理的大小。我首先想到了通過代碼庫進行掃描，但這是5500個文件，其中混合使用了CSS，.ascx和.cs文件以及jQuery應用樣式有時來自生成的代碼，有時來自js文件。

2熱度

1回答

與beautifulsoup

分裂一個帶有鏈接的逗號分隔的列表我有一個逗號在HTML文檔中的表格單元格分隔列表，但一些在列表中的項目鏈接： <table> <tr> <td>Names</td> <td>Fred, John, Barry, <a href="http://www.example.com/">Roger</a>, James</td> </tr> </table>