2017-07-19 89 views
2

我有一大堆RSS提要,我需要每秒更新一次或更少。是否有任何解決方案,例如部分檢查或更改,檢查文件大小或修改RSS源以僅顯示上一篇新聞文章以減少帶寬?這個問題真的是通用的解決方案,但特定於RSS源,請隨時添加我可能錯過的另一個標籤。RSS訂閱1秒鐘以內更新

+1

您是否提供並控制這些rss-feeds的來源?如果您嘗試請求這種規模的數據,第三方可能會阻止您。 – Stefan

+0

@Stefan即使必須完成y 5秒以避免阻塞,這是可以忍受的,但由於需要一次加載和處理它們,所以絕對數量的RSS提要使得這種情況變得不可能。 – CodeCamper

+0

我們在談論多少種飼料?你的服務器配置是什麼?你的帶寬是多少?您的解決方案是否可擴展? – Stefan

回答

0

不是一個真正的答案,而是需要長時間評論。

帶寬

讓我們做一些計算:一個典型的RSS提要可繞200kB的地方(圖片除外)。每秒輪詢1000次將需要200MB/s的帶寬。這可以通過專業的互聯網連接進行。但是,你需要一次連接多個連接,所以你需要一個多線程設置。如果處理時間需要很多CPU處理能力,這種設置最終會使它更容易在多臺服務器上進行擴展。

請注意,這是沒有圖像。

看看這些規格並注意諸如skiphoursttl之類的東西。提供有關輪詢服務的提示。

https://cyber.harvard.edu/rss/rss.html

處理

RSS項通常有一個pubDate,你可以用它來排除在你的處理流程的項目。這不應該是一個瓶頸。如果您將數據保存到數據庫中,您可能需要深入瞭解以優化它。

潛在的問題

  • 阻塞由於過度調用飼料(尤其是如果他們使用的pubDate(我知道CNN傾向於這樣做)請求的日期/時間內
  • Advertisments。
+0

是否有任何具體的例子或一般提示過度調用。每5秒鐘或每小時或每天500次以上?好奇的是,如果我們知道任何這樣做的熱門網站,以及限制將會避免擊中他們的限制。 – CodeCamper

+0

完全取決於Feed的所有者。我知道這並不能幫助你,而且使用限制很少容易訪問。但是如果我們看看instagram(我知道,不是RSS提要),你會發現一個例子:https://www.instagram.com/developer/limits/ – Stefan