使用Nokogiri解析JavaScript隱藏的HTML

我試圖用Nokogiri來解析這個ASCAP網站來檢索一些歌曲/藝術家信息。下面是什麼我想查詢使用Nokogiri解析JavaScript隱藏的HTML

https://mobile.ascap.com/aceclient/AceClient/#ace/writer/1628840/JAY%20Z

我似乎無法正常訪問DOM因爲源似乎背後某種JavaScript來隱藏一個例子。我對網絡抓取很陌生，所以想要找到一種方法來解決這個問題一直很困難。我嘗試使用Charles來查看是否從另一個站點獲取數據，並使用XHelper生成準確的XPath查詢。

這將返回零，它應該返回「1，2你們大家」

page = Nokogiri::HTML(open('https://mobile.ascap.com/aceclient/AceClient/#ace/writer/1628840/JAY%20Z')) 

puts page.xpath('/html/body/div[@id="desktopSearch"]/div[@id='ace']/div[@id="aceMain"]/div[@id="aceResults"]/ul[@id="ace_list"]/li[@class="nav"][1]/div[@class="workTitle"]').text

來源

2014-12-04 Christopher Changchien

該網站看起來像Javascript飼料。您需要使用可以使用JS處理頁面的東西，然後讀取生成的DOM。 [本教程關於Capybara + PhantomJS]（http://www.chrisle.me/2012/12/scraping-html5-sites-using-capybara-phantomjs/）可能對您有用。 – 2014-12-04 02:23:27

不要將我們指向一個鏈接作爲數據的一個例子。鏈接腐爛和中斷。相反，請在問題中提供一個最簡單的HTML示例。還有什麼可以阻止答案。 – 2014-12-04 03:16:17

對不起@thetinman，我無法展示一個例子，像我描述的描述那樣的b/c，當您查看源代碼時，HTML實際上並沒有顯示出來。 – 2014-12-12 19:28:47

使用谷歌督察工具記錄XMLHTTPRequests，並很容易找出數據實際加載的位置。感謝@NickVeys！

來源

2014-12-12 20:08:41

第1步蜘蛛/拼搶的時候，是要關閉瀏覽器的JavaScript，然後看在頁面。你看到的那個點是Nokogiri看到的。如果你想要的數據是可見的，那麼你可以通過解析器獲得數據。

此時，不要依賴瀏覽器的XPath或CSS選擇器列表，當您檢查元素以向您顯示所需節點的路徑時。瀏覽器在顯示頁面時會進行大量修復，而源視圖通常會反映這些內容，包括顯示動態檢索的數據。換句話說，瀏覽器正在向你介紹它最初從頁面中檢索的內容。要解決該問題，請在命令行上使用wget，curl或nokogiri http://some_URL來檢索原始頁面，然後找到所需的節點。

如果你沒有看到你想要的節點，那麼你將需要使用其他工具，如Watir套件中的某些東西，它可以讓你驅動一個理解JavaScript的瀏覽器。瀏覽器可以檢索頁面，解釋JavaScript並檢索任何動態頁面內容。那麼你應該能夠得到這個標記並將它傳遞給Nokogiri。

來源

2014-12-04 03:47:57

使用Nokogiri解析JavaScript隱藏的HTML

回答

相關問題