2010-09-21 113 views
0

對不起,因爲我們來了,所以現在可能會混淆一半。我正在詢問有關如何從默認情況下未啓用RSS的頁面獲取RSS訂閱源的建議或指導。但這不是問題本身。問題是,在該頁面上,我被要求輸入用戶名和密碼。所以嘛,否則將是東西......在沒有任何東西的情況下獲取RSS

問題:

獲取不啓用一個RSS feed,並看到「新聞」,我們需要先登錄一個論壇的RSS。

可能的解決方案浮現在腦海:

  1. 有它提供英語服務,以獲得RSS網頁上的他們是不是哪裏幾個網站。這很好,但問題是,當這些網站沒有提供用戶名和密碼登錄到我想要獲取信息的網頁時,所以這些類型的網站被排除在外。
  2. 我沒有通過網址登錄,所以把網址列在論壇上面(第1項)的網站上,用戶名和密碼變量直接來自url規範:www.forosinrss/login.php?usuario = me & password = your pff,我反彈論壇,告訴我我我們沒有得到正確的數據。另一個問題是密碼是md5加密的,所以我不能使用URL登錄(fk T_T)。
  3. 嘗試使用「SELECT * FROM DB Internet」,換句話說,使用YQL。但它出來的幾乎和他們發現無法插入和登錄到用戶和密碼一樣多,也爲論壇生成一個cookie並不開心,我投了票。

我需要建議,建議,提示或投訴。

+0

您需要通過腳本下載頁面,並使用可處理CURL等身份驗證的庫,然後解析頁面。如果你還不知道,那將是一次漫長的攀登。 – Erik 2010-09-21 04:14:48

+0

這是一個好主意。感謝您的時間和您的迴應。 – user453445 2010-09-21 04:23:30

回答

0

如果您感覺很勇敢,請使用類似cURL或fsockopen的方式下載頁面,然後使用XSLT樣式表將頁面從html轉換爲rss。

0

曾幾何時我在PHP寫的應用程序與OK-ISH結果要做到這一點:

  • 使用捲曲,以獲得頁面,並保留一份副本
  • 運行自定義過濾器的正則表達式來選擇實際上很重要的一些頁面(有些網站有廣告動態文本或只顯示當前日期和時間)
  • 超時後,使用curl重新獲取頁面並運行相同的過濾器
  • 運行diff old_page,new_page並將結果傳送到rss模板

系統工作正常,但在繁瑣的過濾頁面向下,我想從飼料的內容和它打破了很多,因爲這些類型的網站往往是手工編輯的,所以你不能保證任何一致性。

相關問題