我正在考慮開始一個涉及屏幕抓取各種網站的小項目,我想將這些網站的數據存儲在服務器上的SQL數據庫中。屏幕抓取和SQL數據庫
幾年前,我使用C#和稱爲'screen-scraper'的軟件爲我完成了大部分艱苦的工作,但我不認爲這個解決方案儘管如此最終工作,所以我想這次做得更好。由於我現在不記得的原因,我永遠不能在服務器上運行screen-scraper,並且總是不得不離開我自己的另一臺計算機來進行自己的抓取,然後將數據從這裏上傳到服務器..(也許我只是一個白癡)。
雖然我沒有以前的Python經驗,但我已經聽說過關於Python和Beautiful Soup的非常好的事情。
我最終希望能夠在服務器端運行所有的東西,所以python腳本在某些服務器上24/7全天候運行,以某種頻率更新SQL數據庫。其他代碼也將在服務器上運行,並由用戶調用數據庫中的數據操作等。
我對C語言有更多的經驗,但我不介意學習一些Python,如果它是值得的。我只是想確保我正朝着正確的方向前進..
** SQL **是結構化查詢語言 - 許多數據庫系統使用的語言 - SQL是** NOT **數據庫產品......類似這樣的東西通常是特定於供應商的 - 所以我們確實需要知道你在用什麼數據庫系統.... – 2012-04-22 13:55:46
好吧對不起,我上次使用SQL和C#一起(我不記得是在查詢什麼類型的數據庫,我真的不介意我最終結束了什麼系統使用,只要它可以在服務器上運行,就像我說的那樣,並且與選擇的語言進行良好的交互以進行實際的抓取... – fpghost 2012-04-22 14:42:16
fpghost,我看到你有一個關於* Mathematica *的帖子被刪除(因爲它不是如果你想幫助我們加入Mathematica.SE,特別是[Mathematica Chat](http://chat.stackexchange.com/rooms/2234/mathematica)。 – 2012-07-30 17:57:32