html-parsing

2熱度

1回答

我有工作正常以下時，有沒有孩子的h4標籤： if (BS.find('div', {"id" : "table_content"}).find('h4', text=re.compile(".*Super Users.*"))): print "Found Super Users!" 然而，當h4標籤有小孩，打印從不發生。我已經嘗試使用調試以下內容： for h4 in BS.fin

0熱度

1回答

如何從網站獲取圖像源 - Swift和Kanna

我目前正在嘗試使用Kanna和Swift解析來自website的圖像鏈接。但是，當我嘗試使用doc.css或doc.xcpath時，它不起作用。我已經使用doc.css解析標題和日期，但是，我不確定如何解析圖像源。如果可能的話，如果你可以在你的答案中包含一個在我的UIImageView中使用圖像鏈接的方法（通過IBOutlet鏈接），我希望它。下面是我嘗試過的代碼，也是網站本身的檢查元素功能的

1熱度

1回答

jsoup - 如何從維基百科文章的文本中獲取鏈接

我剛剛開始探索Jsoup並面臨以下問題：當我嘗試從僅屬於維基百科英文版的https://en.wikipedia.org/wiki/Knowledge中提取鏈接時，正常工作。 Document document = Jsoup.connect("https://en.wikipedia.org/wiki/Knowledge").timeout(6000).get(); Elements

0熱度

2回答

帕爾斯和HTML網頁內容中提取網址，而無需使用BeautifulSoup或urlib庫

我是新的蟒蛇，我非常抱歉，如果我的問題是非常基本的。在我的程序中，我需要分析一個html網頁並提取其中的所有鏈接。假設我的網頁內容，如下面： <html><head><title>Fakebook</title><style TYPE="text/css"></styl

0熱度

1回答

PHP簡單的HTML DOM解析器 - 環

我就開始玩簡單的HTML末日解析器和我有一些麻煩：的HTML代碼如下： <div class="players"> <ul class="dane"> <li> <div class="name">Messi</div> <div class="value">Barcelona</div> </li> <li>

0熱度

1回答

無法使用節點的HTMLParser

我嘗試使用下面的代碼閱讀Slashdot的RSS訂閱閱讀RSS提要： var htmlparser = require("htmlparser"); var sys = require("sys"); var handler = new htmlparser.RssHandler(function (error, dom) { if(error) throw error;

0熱度

1回答

使用Nokogiri替換HTML佔位符標記

我的特殊用例是構建具有佔位符值的HTML電子郵件模板，這些模板稍後將替換爲實際數據。例子： hello <span class='placeholder' data-slug='contact.name'>contact.name</span> ...變成「你好，約翰的」佔位符被替換時。我有這些佔位符的50+，並正在使用引入nokogiri更換使用實時數據的佔位符： placehold

0熱度

2回答

從頁面獲取所有鏈接美麗的湯

我正在使用beautifulsoup獲取頁面中的所有鏈接。我的代碼是： import requests from bs4 import BeautifulSoup url = 'http://www.acontecaeventos.com.br/marketing-promocional-sao-paulo' r = requests.get(url) html_content = r

0熱度

1回答

如何使用BeautifulSoup來獲取裏面的內容過線標籤

我想從HTML片段提取內容（「_ The_important_content_」）如下： <div class=" a:2 c:gray m:da " > _The_important_conten

1熱度

1回答

使用CMD或JavaScript批量查找和刪除HTML文件的部分

假設我在該文件夾中有一組文本.html文件。我需要處理每個文件並刪除特定HTML標記的內容，包括標記本身。處理後必須重寫文件。例子：刪除所有<script>塊刪除所有<div class="test-class">塊包括內部內容正則表達式的工具，如sed -i -e 's/REGEX//g' *.html不利於HTML處理。所以我正在尋找解決方案，主要基於例如在XPATH上的HTML解析