2010-02-21 61 views
0

我們使用Google CSE(自定義搜索引擎)付費服務爲我們網站上的內容建立索引。該網站主要由與包含文件組裝在一起的PHP頁面構建而成,但是有一些動態頁面將數據庫中的信息導入單個頁面模板(例如新版本)。我們的問題是我可以設置數據庫中的內容的過期日期,所以說「id = 2」會帶來「此內容已過期」的通知。但是,如果ID 2附有上傳的PDF,則PDF文件將保留在搜索索引中。當商品過期時從Google刪除上傳的文件

我知道我可以編寫一個清理腳本,讓cron運行它,查看數據庫,找到過期的內容,檢查是否有上傳的文件被附加,並重新命名或刪除它們,但必須有更好的解決方案(我希望)。

請讓我知道你是否曾經遇到過這種情況,以及你的建議。

感謝, D.

回答

0

我們最終什麼事做了捆綁檢查腳本上傳腳本,一旦完成當前上傳,舊文件是「無關聯」和DB記錄被刪除。

對我們來說,這是有效的,因爲它是一種「添加/刪除一個」的情況,我們希望一組項目以滾動順序出現。

0

有遺憾的是沒有辦法給你在這個時候,直截了當地回答:我們不知道該怎樣你的PDF進行「連接」到你的網頁或你的數據庫是如何構成的知識。

最好的解決方案是創建一個robots.txt文件,該文件可以阻止要刪除的特定PDF文件的URL。谷歌將在下一次通過時將其從索引中刪除(通常在大約一小時內)。

http://www.robotstxt.org/

+0

我沒有想過寫入機器人文件...可能工作。這些文件通過上傳腳本上傳,並將值存儲在數據庫中以獲取文件名。所有文件都轉到同一個目錄,所以像http://www.domainname.com/uploads/pdffilehere.pdf這樣的路徑就是路徑,而「pdffilehere.pdf」將存儲在數據庫的「url」列中。 – Don 2010-02-21 06:53:19