如何與不同的佈局

我有由不同的機構發表的文章1,000個網址列表，當然，每個人都有自己的HTML佈局提取網站的文章內容。我寫一個Python代碼從每個URL只提取正文。可以這樣通過完成僅看< P> </p>段落標記？我會被丟失了一些內容？或通過這種方式包含不相關的內容？如何與不同的佈局

感謝

2017-08-17 Ramy Baly

對於一些文章，你會被遺漏的內容，以及別人對你將包括不相關的內容。由於每個網站佈局可能會有很大差異，因此實際上無法從URL中抓取文章正文。

你可以嘗試的一件事是抓取包含在身體標記內的多個連續的p標籤中的文本，但仍然不能保證你只會得到文章的正文。

如果您將URL列表打破爲每個不同站點的列表，那將會容易得多，您可以根據具體情況定義文章正文的內容。

2017-08-17 18:04:34 bphi

要回答你的問題，這是極不可能，你只能得到文章內容定位<p></p>標籤。你會得到很多不必要的內容，需要花費大量的精力來過濾，保證。

嘗試找到這些網站的RSS feed。這將使得抓取目標數據比解析整個HTML頁面容易得多。

2017-08-17 18:03:56

回答