html-parsing

    1熱度

    2回答

    我正在通過使用我的抓取工具挖掘網頁內容來進行一些分析。網頁通常包含文章主體周圍的混亂(例如廣告,不必要的圖像和無關鏈接),從而將用戶從實際內容中分散出來。 據我瞭解,提取合理的內容是一個難題,因爲沒有標準定義新聞報道/博客文章/論壇評論/文章在網頁中的實際位置。 我能找到一些這樣的開源解決方案:https://metacpan.org/pod/HTML::ContentExtractor 但我很好

    49熱度

    4回答

    我想抓住幾個單詞的大寫字母,並將它們包裹在span標籤中。我使用preg_replace作爲提取和包裝目的,但它不輸出任何內容。 preg_replace("/[A-Z]/", "<span class=\"initial\">$1</span>", $str)

    12熱度

    4回答

    我是新來的DOM解析PHP: 我有一個HTML文件,我想解析。它有一堆這樣的DIVs: <div id="interestingbox"> <div id="interestingdetails" class="txtnormal"> <div>Content1</div> <div>Content2</div> </div> </div> <di

    13熱度

    6回答

    如何使用php從標籤中去除所有/任何屬性,如段落標籤? <p class="one" otherrandomattribute="two">到<p>

    3熱度

    1回答

    我正在嘗試爲nutch 1.0編寫一個自定義插件。這個插件應該解析html數據並從文檔中濾除相關信息。我有一個基本的插件工作,它擴展了HtmlParserResult對象,並在每次執行解析時執行。 我的問題是兩個面臨此刻: 我不明白Nutch的解析不夠好,工作流程/ pipline。我在nutch網站上找不到關於此的信息。 我不明白DOM解析是如何完成的,我看到Nutch有一組DOM對象,並且Ht

    2熱度

    1回答

    我需要找到解析HTML和CSS佈局,以便能夠將其轉換爲屬性語言, 瞭解簡單的HTML和內聯CSS每個html元素 我如何接近這樣的任務?

    6熱度

    4回答

    嘿所以我想要做的就是抓住第一段的內容。該字符串$blog_post包含以下格式有很多段落: <p>Paragraph 1</p><p>Paragraph 2</p><p>Paragraph 3</p> 我遇到的問題是,我寫一個正則表達式的第一<p>標籤和第一閉合</p>標籤之間搶的一切。然而,它抓住了第一個<p>標籤和最後關閉</p>標籤,這導致我抓住一切。 這裏是我當前的代碼: if (pr

    4熱度

    6回答

    我試圖將包含HTML標記的HTML字符串中的>字符的所有實例轉換爲與其等效的HTML實體>。我用這個解決方案得到的最遠距離是使用正則表達式。 這是我到目前爲止有: public static readonly Regex HtmlAngleBracketNotPartOfTag = new Regex("(?:<[^>]*(?:>|$))(>)", RegexOptions.Compiled |