2017-08-17 48 views
0

我有由不同的機構發表的文章1,000個網址列表,當然,每個人都有自己的HTML佈局提取網站的文章內容。 我寫一個Python代碼從每個URL只提取正文。可以這樣通過完成僅看< P> </p>段落標記? 我會被丟失了一些內容?或通過這種方式包含不相關的內容?如何與不同的佈局

感謝

回答

0

對於一些文章,你會被遺漏的內容,以及別人對你將包括不相關的內容。由於每個網站佈局可能會有很大差異,因此實際上無法從URL中抓取文章正文。

你可以嘗試的一件事是抓取包含在身體標記內的多個連續的p標籤中的文本,但仍然不能保證你只會得到文章的正文。

如果您將URL列表打破爲每個不同站點的列表,那將會容易得多,您可以根據具體情況定義文章正文的內容。

0

要回答你的問題,這是極不可能,你只能得到文章內容定位<p></p>標籤。你會得到很多不必要的內容,需要花費大量的精力來過濾,保證。

嘗試找到這些網站的RSS feed。這將使得抓取目標數據比解析整個HTML頁面容易得多。