我正在創建一個網站,其管理員上傳文件只能提供給網站的付費會員。但我想要的是搜索引擎抓取或索引文檔,以便它出現在搜索引擎的搜索結果中。文件包括DOC,DOCX和PDF。允許搜索引擎索引文檔,但只允許訪問付費會員。可能?
例如我有一個文件,有這樣的文字:「快速的棕色狐狸跳過懶惰的狗」。現在有人Google的「棕色狐狸」。假設我有積分榜,我希望結果出現在Google結果中。當用戶點擊它時,我希望用戶登錄一個頁面,而不是文檔,其中有一個文本預覽,其中鏈接是查看完整文檔的成員。
我計劃在文檔上傳時,頁面上文檔的預覽將被保存到數據庫中。所以它很容易看到並且可以抓取。對於整個文檔,我只能想到允許抓取整個文檔。但我認爲,如果我允許搜索引擎抓取,那麼我也會爲用戶提供訪問權限。如果我使用htaccess來防止直接訪問文檔,那麼我也會關閉爬蟲。
我也考慮過提取所有文檔文本並將其放入數據庫中,但是我在某處讀到,很難區分用戶和蜘蛛,並且使用用戶代理是一個壞主意,因爲它非常容易欺騙。
所以我很困惑,我應該如何去做這件事。任何幫助將不勝感激。 提前謝謝!
謝謝!這些免費的觀點引起了我的注意。我會沿着這些路線嘗試一些事情 – salmanhijazi 2012-01-31 10:56:54
如果用戶從搜索引擎轉到您的網頁,期望他們在搜索引擎中找到的內容,他們當然不會在您的網站上留下內容,因爲您已經完成了該內容當天分配的頁面瀏覽量。如果必須的話,以這種方式保護您的內容,但我認爲這不會成爲您可行的商業模式。 – Brad 2012-01-31 14:51:24