html-parsing

    0熱度

    1回答

    假設有一個用戶輸入包含HTML和可能鏈接的文本,我希望啓用鏈接並使already_tag_closed URL完好無損。 (我知道有很多的要求正則表達式的URL模式的問題,但我不能找到這個解決方案) 例如: String urlRegex = "((https?|ftp|gopher|telnet|file):((//)|(\\\\))+[\\w\\d:#@%/;$()~_?\\+-=\\\\\\

    0熱度

    1回答

    當試圖解析一個html頁面時,我們可以得到NA值。因此,當我們嘗試使用列表中的數據構建數據框時,缺少值將無法實現。 有什麼簡單的方法可以成功。請看下面的例子: library(rvest) library(RCurl) library(XML) pg <- getURL("https://agences.axa.fr/ile-de-france/paris/paris-19e-75019"

    0熱度

    1回答

    我正在創建一個閱讀列表應用程序,並且我想將用戶添加鏈接的閱讀時間傳遞給閱讀列表中的表格單元格,該數字來自該頁面的字數。我發現了幾個解決方案,分別是Parsehub,Parse和Mercury,但它們似乎更適合需要更高級的東西從url中獲取的用例。在Swift中有更簡單的方法來計算url的字數嗎?

    0熱度

    1回答

    我有一個外部網站的HTML,我需要用jQuery解析。我只對主div內的文本感興趣(如代碼中所述)。 問題是,如果我使用$('#main').text()我得到的div內的所有文本,甚至從嵌套的div。 <div id="main"> <div><h1>....</h1></div> <div>Other Text</div> I only want to par

    -3熱度

    1回答

    我在NetBeans 8.2的工作得到這個webpage 我成功地得到了一切,除了章的全部內容,因爲它是Ajax調用 我用Jsoup lib和它是否能夠嘗試不同的圖書館像的HtmlUnit 擺脫Ajax調用的所有內容告訴我,即使有不同的庫

    0熱度

    1回答

    我試圖用BeautifulSoup來解析「https://openlibrary.org/」。 我想選擇「流行書籍」部分中的所有書籍,所以我嘗試先選擇id =「popular_carousel」。這裏是我的代碼: url="https://openlibrary.org/" import urllib2 response = urllib2.urlopen(url) source_cod

    0熱度

    1回答

    我想從http://www.espn.com/nba/hollinger/teamstats加載表到JTable。用JSoup解析表後,我設法加載表頭,但是我有加載數據行的問題。首先,我只嘗試了奇數行,但JSoup只加載了最後一個奇數行,我不知道如何加載所有這些行。 我試圖從第一行加載使用。第一(),但只加載第一行,沒有別的。 這裏是我的代碼: Document doc = null; try

    0熱度

    1回答

    我有我需要的一個非常愚蠢的解析器下面。我想創建一個方法,它將HTML頁面的URL(例如:http://www.dictionary.com/browse/example)作爲參數,並使用此解析器向我顯示所遇到的所有數據。我不需要有人給我解決方案。但是,建議將不勝感激。謝謝。 from html.parser import HTMLParser class MyHTMLParser(HTMLPa

    1熱度

    2回答

    我試圖使用urllib從這個URL獲取內容:「https://blockexplorer.com/block-index/0」。但是,當瀏覽器加載此鏈接時,它將重定向到另一個鏈接「https://blockexplorer.com/block/000000000019d6689c085ae165831e934ff763ae46a2a6c172b3f1b60a8ce26f」。 這裏是我的代碼: im

    3熱度

    3回答

    我想使用Python的庫BeautifulSoup來解析當前月相的一些數據。 from bs4 import BeautifulSoup import urllib2 moon_url = "http://www.moongiant.com/phase/today/" try: rqest = urllib2.urlopen(moon_url) moon_Soup