html-parsing

    0熱度

    1回答

    我正在嘗試構建抓取頁面上所有鏈接並將其添加到文件的網絡抓取工具。 我的Python代碼中包含執行以下操作的方法: - 打開一個給定的網頁(urllib2的模塊被使用) 檢查該HTTP報頭內容類型包含text/html 將原始HTML響應轉換爲可讀代碼並將其存儲到html_string變量。 然後,它創建一個Link_Finder類,它具有屬性基url(Spider_url)和page url(pa

    0熱度

    2回答

    我有由不同的機構發表的文章1,000個網址列表,當然,每個人都有自己的HTML佈局提取網站的文章內容。 我寫一個Python代碼從每個URL只提取正文。可以這樣通過完成僅看< P> </p>段落標記? 我會被丟失了一些內容?或通過這種方式包含不相關的內容? 感謝

    -1熱度

    2回答

    頁 我試圖以檢索動態地從網頁使用golang加載文本檢索的文本。 文本檢索是該頁面的: https://www.protectedtext.com/testretrieve?1234 本文由一個密碼加密,然後在客戶端解密並在頁面上動態加載。 我已經通過選擇「文本域」對象與goquery試過,但我不能因爲它是動態加載的文本。 我怎樣才能做到這一點?通過在Go中執行JS?它的工作在我的鉻控制檯,但如何

    2熱度

    1回答

    閱讀所有相關的線程後,我找不到任何顯示正則表達式能夠從html內容中提取完整的json對象,所以我希望有人可以幫助我得到正確的正則表達式來解決問題。 例如JSON的即時通訊尋求提取看起來是這樣的: "taxonomy": {"page":"/products/1/","price":"350.00","country_code":"gb","brand":"apple"}, 我試着提取了整個「

    0熱度

    1回答

    關於HTML/DOM解析器的正確行爲,HTML5規範應該如何處理該HTML文件中是否遇到NULL字節的字符?

    1熱度

    1回答

    我在嘗試使用葡萄牙語對web頁面進行webscrape時存在一些編碼問題。這是我的代碼: library("RCurl") library("XML") html = getURL("http://sei.cade.gov.br/sei/institucional/pesquisa/documento_consulta_externa.php?u0r2HDE7WIdiBH3O1y0Dr6k

    0熱度

    1回答

    我正在使用rvest從內部網站的HTML表格中抓取數據。行的顏色是有意義的,所以我想提取BGCOLOR屬性作爲我最終表中的列,但當然html_table()只提取內容。 這是我到目前爲止。下面是html表格的一個片段。我怎樣才能包含一個顏色列? html_nodes(samplepage,"table") tbl_content <- samplepage %>% html_nodes

    0熱度

    2回答

    我想解析日本網站上東京房屋銷售的一些數據。 的代碼如下: library(XML) library(bitops) library(RCurl) library(httr) orgURL1 = 'http://www.stepon.co.jp/search/list/?pageNo=2&limit=100&prefCityCd=13_101&prefCityCd=13_103&prefC

    0熱度

    2回答

    我有表分析,其裝有AJAX一個問題: Document doc = Jsoup.connect("http://lfl.ru/club553").get(); 這就是我得到: <div class="tournament_stats_table_tournament_3442 tournament-stats-table" style="display: block;" url="/?ajax

    0熱度

    2回答

    我有html網頁,我想將此網頁下載爲pdf。所以我把這個網頁轉換爲字符串,我必須發送到服務。也就是說,我有不變的字符串HTML。我無法爲分割字符串html添加指標。當基於64位字符串圖像的html網頁太大時,我必須使用頭像圖像url來更改此基本64字符串(因爲它太大而無法使用json發送數據)。我有更改base 64字符串的短html字符串,然後我可以發送到服務端下載pdf。我有一個HTML字符串