html-parsing

1熱度

2回答

我正在通過使用我的抓取工具挖掘網頁內容來進行一些分析。網頁通常包含文章主體周圍的混亂（例如廣告，不必要的圖像和無關鏈接），從而將用戶從實際內容中分散出來。據我瞭解，提取合理的內容是一個難題，因爲沒有標準定義新聞報道/博客文章/論壇評論/文章在網頁中的實際位置。我能找到一些這樣的開源解決方案：https://metacpan.org/pod/HTML::ContentExtractor 但我很好

49熱度

4回答

如何在PHP中使用preg_replace時獲得匹配結果？

我想抓住幾個單詞的大寫字母，並將它們包裹在span標籤中。我使用preg_replace作爲提取和包裝目的，但它不輸出任何內容。 preg_replace("/[A-Z]/", "<span class=\"initial\">$1</span>", $str)

12熱度

4回答

如何使用DOM解析器

我是新來的DOM解析PHP：我有一個HTML文件，我想解析。它有一堆這樣的DIVs： <div id="interestingbox"> <div id="interestingdetails" class="txtnormal"> <div>Content1</div> <div>Content2</div> </div> </div> <di

13熱度

6回答

如何從html標籤中刪除屬性？

如何使用php從標籤中去除所有/任何屬性，如段落標籤？ <p class="one" otherrandomattribute="two">到<p>

3熱度

1回答

用nutch 1.0和自定義插件解析html數據

我正在嘗試爲nutch 1.0編寫一個自定義插件。這個插件應該解析html數據並從文檔中濾除相關信息。我有一個基本的插件工作，它擴展了HtmlParserResult對象，並在每次執行解析時執行。我的問題是兩個面臨此刻：我不明白Nutch的解析不夠好，工作流程/ pipline。我在nutch網站上找不到關於此的信息。我不明白DOM解析是如何完成的，我看到Nutch有一組DOM對象，並且Ht

2熱度

1回答

如何解析HTML和CSS來了解頁面的佈局（Java）

我需要找到解析HTML和CSS佈局，以便能夠將其轉換爲屬性語言，瞭解簡單的HTML和內聯CSS每個html元素我如何接近這樣的任務？

6熱度

4回答

如何獲取HTML標籤的內容？

嘿所以我想要做的就是抓住第一段的內容。該字符串$blog_post包含以下格式有很多段落： <p>Paragraph 1</p><p>Paragraph 2</p><p>Paragraph 3</p> 我遇到的問題是，我寫一個正則表達式的第一<p>標籤和第一閉合</p>標籤之間搶的一切。然而，它抓住了第一個<p>標籤和最後關閉</p>標籤，這導致我抓住一切。這裏是我當前的代碼： if (pr

4熱度

6回答

轉換爲HTML字符串中的HTML實體

我試圖將包含HTML標記的HTML字符串中的>字符的所有實例轉換爲與其等效的HTML實體>。我用這個解決方案得到的最遠距離是使用正則表達式。這是我到目前爲止有： public static readonly Regex HtmlAngleBracketNotPartOfTag = new Regex("(?:<[^>]*(?:>|$))(>)", RegexOptions.Compiled |