2010-05-05 48 views
2

我創建了一個關於某個啤酒品牌的網站,並且必須包含年齡驗證頁。驗證腳本以PHP編寫,並使用會話來存儲驗證變量。該腳本的工作方式不管形式爲哪一個鏈接,您都會嘗試進入該網站,它會首先將您帶到驗證頁面。驗證非常簡單。有2個按鈕:「我在21歲以下」和「我21歲以上」。如果你點擊後者,你可以瀏覽網站。年齡驗證表格和抓取工具

經過一段時間,我發現網絡抓取工具無法通過驗證頁面。我使用Google網站站長工具查看了網站,唯一掃描的文本內容來自驗證頁面。

我在某處讀到爬蟲無法提交表單按鈕,這是真的嗎?考慮到年齡驗證頁面無用的事實,也許我應該將其作爲起始頁面,但不要繞過它,例如,從鏈接到子頁面?

回答

2

只要您的年齡驗證頁面檢測到主要爬蟲用戶代理並重定向到主內容頁面。您可以在同一代碼塊中自動設置所需的變量。

4

爲什麼不讓按鈕鏈接而不是提交按鈕。

+2

使「我不是21」表單按鈕,但「我是21」鏈接。這樣的網絡爬蟲不會成爲未成年人。 – 2010-05-05 19:36:18

+0

+1發情。有趣和功能。 – webbiedave 2010-05-05 19:37:31

+0

應用少量的CSS,它們看起來就像按鈕。 – 2010-05-05 19:41:37