2012-01-31 71 views
0

我正在創建一個網站,其管理員上傳文件只能提供給網站的付費會員。但我想要的是搜索引擎抓取或索引文檔,以便它出現在搜索引擎的搜索結果中。文件包括DOC,DOCX和PDF。允許搜索引擎索引文檔,但只允許訪問付費會員。可能?

例如我有一個文件,有這樣的文字:「快速的棕色狐狸跳過懶惰的狗」。現在有人Google的「棕色狐狸」。假設我有積分榜,我希望結果出現在Google結果中。當用戶點擊它時,我希望用戶登錄一個頁面,而不是文檔,其中有一個文本預覽,其中鏈接是查看完整文檔的成員。

我計劃在文檔上傳時,頁面上文檔的預覽將被保存到數據庫中。所以它很容易看到並且可以抓取。對於整個文檔,我只能想到允許抓取整個文檔。但我認爲,如果我允許搜索引擎抓取,那麼我也會爲用戶提供訪問權限。如果我使用htaccess來防止直接訪問文檔,那麼我也會關閉爬蟲。

我也考慮過提取所有文檔文本並將其放入數據庫中,但是我在某處讀到,很難區分用戶和蜘蛛,並且使用用戶代理是一個壞主意,因爲它非常容易欺騙。

所以我很困惑,我應該如何去做這件事。任何幫助將不勝感激。 提前謝謝!

回答

1

不,不可能。任何用戶都可以通過更改其用戶代理來僞裝成搜索引擎。

您可以執行基於IP地址的限制或啓發式檢測,但您可能會意外阻止抓取工具。

也許你應該每天給用戶一些免費的頁面瀏覽量,或者考慮一種不同的貨幣化方法。

+0

謝謝!這些免費的觀點引起了我的注意。我會沿着這些路線嘗試一些事情 – salmanhijazi 2012-01-31 10:56:54

+0

如果用戶從搜索引擎轉到您的網頁,期望他們在搜索引擎中找到的內容,他們當然不會在您的網站上留下內容,因爲您已經完成了該內容當天分配的頁面瀏覽量。如果必須的話,以這種方式保護您的內容,但我認爲這不會成爲您可行的商業模式。 – Brad 2012-01-31 14:51:24

1

要做的最好的事情是允許您的頁面索引,並附有相關的內容片段,可供公衆查看。

不要試圖通過向用戶代理提供特定內容來欺騙搜索引擎。即使只使用搜索引擎功能進行緩存,用戶也可以輕鬆解決這個問題。專家交流是這個臭名昭着的。這些技巧不值得你花時間。

總之,老實說,你的網頁。如果必須的話,爲每個人顯示一些內容,並且只允許擁有帳戶的用戶訪問全部內容。

+0

謝謝!這就是我已經計劃好的,但現在我對此充滿信心。 – salmanhijazi 2012-01-31 10:56:27