html-parsing

    0熱度

    1回答

    我正在使用TinyMCE將內容發佈到我的網站。我有這個問題,即使我將光標放在內容的末尾,我也只能在另一個元素(例如段落)中插入圖像。 所以,當我發佈的內容,我目前正與標記落得像: <p>Text content <img src="blah" /></p><p>Another paragraph</p> 我注意到,WordPress和TinyMCE的示例站點都以上述方式插入圖像。 我一直無法找

    2熱度

    4回答

    我有一個字符串(部分HTML),我想替換字符串:-)進入設置高亮:wink:。但是這個替換不應該發生在<pre>內,而是在任何其他標籤中(或者甚至不在標籤內)發生。 例如,我想更換 :-)<pre>:-)</pre><blockquote>:-)</blockquote> 到: :wink:<pre>:-)</pre><blockquote>:wink:</blockquote> 我已經用

    6熱度

    7回答

    我有這個字符串包含一大塊html,我試圖從href =「...」中提取鏈接。字符串的一部分。在href可能是下列形式之一: <a href="..." /> <a class="..." href="..." /> 我真的不有一個問題,正則表達式,但由於某種原因,當我使用下面的代碼: String innerHTML = getHTML(); Pattern p = Patter

    5熱度

    5回答

    自從我問如何使用正則表達式來解析html,並得到了一點(正確如此)之後,我一直在研究HTML::TreeBuilder,HTML::Parser,HTML::TokeParser和HTML::Elements Perl模塊。 我有HTML這樣的: <div id="listSubtitlesFilm"> <dt id="a1"> <a href="/45/subtitles-6

    2熱度

    5回答

    我試圖從xhtml文檔中檢索具有其內容的特定標記,但它匹配錯誤的結束標記。 在下面的內容: <cache_namespace name="content"> <content_block id="15"> some content here <cache_namespace name="user"> <content_block id="welcom

    0熱度

    3回答

    Java中最簡單的方法是在格式不正確的HTML頁面中檢索具有特定類型的所有元素?所以,我想要做這樣的事情: public static void main(String[] args) { // Read in an HTML file from disk // Retrieve all INPUT elements regardless of whether the HTML

    7熱度

    2回答

    我使用這個代碼,以查找頁面中所有相關鏈接: soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+')) 而且它的工作非常好。不幸的是,在一個標籤有很多嵌套標籤,如字體,b和不同的東西...我想只得到文本內容,沒有任何其他的HTML標籤。鏈接 例子: <A HREF="notizia.php?idn=1134" OnMouseOver=

    0熱度

    2回答

    如何從提取的網頁中提取數據? 其中java腳本會隨着時間更新數據。 是否有可能編寫可從網頁Java腳本訪問變量的用戶腳本? 請建議可能的方法來實現這一點。

    2熱度

    4回答

    我必須從一個網站自動化文件下載活動(類似於,比方說,yahoomail.com)。要訪問包含此文件下載鏈接的頁面,我必須登錄,從一個頁面跳轉到另一個頁面以提供諸如日期等參數,最後點擊下載鏈接。 我想到的三種方法: 使用華廷和開發定期執行一些代碼華廷通過頁面來遍歷並下載該文件一個窗口服務。 使用的AutoIt(沒有太多的想法) 使用一個簡單的HTML解析技術(這裏還有幾個問題例如,如何做一個登錄後保

    1熱度

    3回答

    我試圖解析HTML文件,對該格式的字符串: <a href="/userinfo/userinfo.aspx?ID=305157" target="main">MyUsername</a> O22</td> 我想要檢索的信息,其中「305157」,「MyUserName輸入」和「O22」的第一個字母(可無論是T,K還是O)。 我使用這個正則表達式; <a href="/userinfo/use