得到了我要解析網站的情況。每個網站必須有它自己的「解析器」,並可能是它自己的方式處理餅乾/等。比較多處理與扭曲的問題
我試圖讓我的頭,這將是一個更好的選擇。
選擇I: 我可以創建一個多處理函數,其中(masterspawn)應用程序獲取輸入url,並且它跨越masterspawn應用程序中的進程/函數,然後處理所有的設置/讀取/解析該網頁/網址。
這種方法將有一個主應用程序運行,並反過來創建內部函數的多個實例。應該快,是/否?
選擇II: 我可以創建一個「Twisted」類型的服務器,它基本上與Choice I做同樣的事情。不同之處在於使用「Twisted」也會帶來一些開銷。我試圖評估扭曲,關於它是一個「服務器」,但我不需要它來執行URL的抓取。
選擇三: 我可以使用scrapy。我不想走這條路,因爲我不想/不需要使用scrapy似乎有的開銷。正如我所說,每個目標網址需要自己的解析功能,以及處理餅乾...
我的目標是基本上有「架構」的解決方案分佈在多個框,其中每個客戶端框接口與一個主服務器分配要解析的URL。
感謝在這個任何意見..
-Tom