2017-02-28 80 views
-1

我是網絡小說的狂熱讀者。我主要在我的手機上閱讀。令我煩惱的不是每個網站都有一個黑暗/光線切換器,沒有無襯線/襯線字體切換器,和/或可以選擇更改字體大小。有些網站甚至沒有下一個/上一個章節按鈕。所以我的計劃是製作一個我自己的小網站,我可以一個接一個地閱讀我想要的所有選項。現在我知道如何更改主題,切換字體和大小。然而,讓章節自己被證明是相當困難的。HTML Text Scraping

首先,我想使用jquery,但雖然我可以更改寬度,高度並未因不明原因而改變。 例如$( 「#siteloader」)HTML( '')。隨着CSS寬度/高度100%。

我也不知道如何去除無用的混亂,只剩下鏈接和文本。所以我決定嘗試一種不同的方法。

我知道有一個網站叫做textise,它只留下文本。我想創造類似的東西。我發現了關於網絡抓取。不過,我無法找到使用jquery從網站上抓取文本。我已經找到一個PHP圖像刮板來作爲例子,但我沒有玩過PHP。

所以我的問題是沒有人知道一個例子/教程有人做了類似於我想要的jQuery中的東西?

無論如何,如果有人能夠幫助我,我會非常感激,這是我第一次在這裏問一個問題,所以如果我做錯了任何事情,請告訴我,所以我知道我可以在未來的問題中改變什麼。

+0

你不能只用PHP刮文本。你可以使用[cURL](http://php.net/manual/en/book.curl.php)之類的東西,然後使用像[SimpleDOM](http://simplehtmldom.sourceforge.net/)這樣的庫進行解析。只提取你需要的部分。 – BenM

+0

歡迎來到Stack Overflow!請閱讀[問]和[什麼是主題](http://stackoverflow.com/help/on-topic)和[什麼不是](http://stackoverflow.com/help/dont-ask)。尋求外部資源是無關緊要的。 –

+1

Firefox有一個選項,稱爲「[reader view](https://www.google.gr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0ahUKEwiQ3bb-grXSAhWCvBQKHW-MC40QFggaMAA&url=https%3A%2F %2Fsupport.mozilla。org%2Fen-US%2Fkb%2Ffirefox-reader-view-clutter-free-web-pages&usg = AFQjCNEWkqDoN09MlGV31oAk2qaq8y1cQw&sig2 = Qm01uDayYhkO8BTfaeddsw&cad = rja)「這可能對你有幫助。 – tgogos

回答

0

我工作的東西類似,可能對您有用。使用Httprequest,您可以從外部資源獲取HTML。我用它來提取某個圖像。

$.ajaxPrefilter(function (options) { 
    if (options.crossDomain && jQuery.support.cors) { 
    var http = (window.location.protocol === 'http:' ? 'http:' : 'https:'); 
    options.url = http + '//cors-anywhere.herokuapp.com/' + options.url; 
    } 
}); 

var url = 'https://www.smashingmagazine.com/2017/01/redesigning-the-paris-metro-map/'; 

$.get(
    url, 
    function (data) { 
     var html = $(data); 
     var article = html.find('article'); 
     console.log(article); 
     $('#content').html(article); 
}); 

在這個例子中,我搜索文章標籤。問題是,您可能想要從中提取「網絡小說」的頁面可能不包含文章標記。

https://jsfiddle.net/PaulvdDool/bra6v6rL/15/

我遇到了同樣的問題,提取圖像。最好的結果是在meta標籤中聲明的og:image。但是,否則我需要從文章中提取第一張圖片,或者在標題中使用圖片。
我發現很多資源都使用文章標籤或ID爲content的div。我只是重複了所有這些可能性;如果沒有og:圖片,請搜索文章標籤,如果沒有文章標籤,請查看是否存在編號爲content等的div。如果所有其他的都會失敗,那麼糟糕,沒有圖像。
您可能想要做類似的事情。

我鼓勵你自己試試這個。實踐。提高你的技能。但我只想提一提,您還可以使用Pocket或Instapaper等後期應用程序。