儘管HTML Scraping從我所能看到的很好的文檔中可以看出,並且我理解它的概念和實現,但是從隱藏在認證後面的內容中抓取的最佳方法是什麼形式。我指的是從我合法訪問的內容中獲取內容,所以我正在尋找一種自動提交登錄數據的方法。Perl:HTML從認證網站上刮掉
我所能想到的就是設置一個代理,從手動登錄中捕獲吞吐量,然後設置一個腳本來欺騙吞吐量作爲HTML抓取執行的一部分。就語言而言,它可能會在Perl中完成。
有沒有人有過這方面的經驗,或只是一個普遍的想法?
編輯 這一直是answered before但與.NET。雖然它驗證我認爲應該如何完成,但有沒有人有Perl腳本來做到這一點?