web-scraping

    -1熱度

    1回答

    我在我的PC(Windows 10)上安裝了獨立的Visual Basic應用程序。其中應用程序正在連接遠程服務器(IP爲192.1xx.x.xxx)。 當我運行應用程序時,它給出了一個錯誤; 用戶連接失敗。缺少服務器/數據庫。無法連接MySql主機。 我有在應用程序中使用的VBScripts和MySQL數據庫。我不太瞭解VB使用腳本構建應用程序。任何人都可以指導我重建它嗎? 或 如何更改我的My

    9熱度

    5回答

    Iam構建購物比較引擎,我需要構建一個爬行引擎來執行日常數據收集過程。 我決定在C#中構建爬網程序。我對HttpWebRequest/HttpWebResponse類有很多不好的經驗,並且他們被稱爲是高度bug並且對於大型爬行不穩定。所以我決定不建立在他們身上。即使在框架4.0中,它們也是越野車。 我以自己的親身經歷說話。 如果他們知道任何優秀的開源爬蟲框架,比如java有nutch和apache

    7熱度

    3回答

    我想知道Mozenda Screen Scraper是如何編碼的? http://www.mozenda.com/screen-scraper 我顯示了一個瀏覽器,其中用戶可以選擇他想要放棄的領域,它創建一個腳本爬出來的。 抓取腳本生成部分對我來說很清楚,我想知道它是否記錄了用戶在瀏覽器中執行的用戶操作。 我想用C#做類似的事情。

    19熱度

    4回答

    我需要一個功能強大的Web刮板庫來從Web上挖掘內容。這可以是免費的或者免費的,對我來說都可以。請爲我提供一個圖書館或更好的方式來挖掘數據並存儲在我的首選數據庫中。我已經搜索,但我沒有找到任何好的解決方案。我需要專家的好建議。請幫助我。

    11熱度

    2回答

    我正在尋找一個良好的付費/免費的網頁抓取庫與.NET支持,它具有良好的JavaScript處理支持,並提供非常好的性能。 它應該有自己的瀏覽器引擎,並希望它自己的JS編譯器。 如果該產品是專爲網絡抓取而開發的,那麼對我們來說這將是一個巨大的優勢。 我嘗試過Watin和Selenium,但是他們都彈出了我們不想要的瀏覽器窗口。我想要一個沒有瀏覽器窗口彈出的無聲應用程序。 這裏需要專家和寶貴建議的幫助

    1熱度

    1回答

    我想刮谷歌閱讀器,但我有問題......我想登錄谷歌閱讀器,並得到一個有效的cookie ...然後嘗試進入此頁: 'http://www.google.es/reader/atom/user/-/state/com.google/reading-list' 如果我的cookies工作,我登錄我只需要把"user/-/"它將我的谷歌閱讀器的XML版本進入裏面.... 它在理論上...我登錄谷歌

    2熱度

    4回答

    我需要編寫一個腳本,它需要一個鏈接並解析鏈接頁面的HTML,以拉取標題和其他一些數據,如可能的簡短描述,就像鏈接到Facebook上的某些內容時一樣。 當用戶添加一個鏈接到該網站,所以可以看到命中一個體面的數量,當客戶端啓動網站將會被調用。 我很好奇,如果我應該這樣做在服務器端使用PHP或使用JavaScript終端用戶側?我一直在編寫邏輯,試圖找出標記的哪些區域充滿了潛在的內容,這讓我懷疑如果我

    0熱度

    3回答

    我只是有幾個關於這個話題的問題。 有人可以解釋的優點和使用下列語言來編寫刮刀的缺點: 的Java/Groovy的 的Perl 比索 硒 的Python 我是也想知道在刮臉時可能會遇到什麼樣的問題,以及我應該如何處理它。例如,我遇到了片段身份,還沒有找到處理它的方法。 (我正在使用htmlunit) 只是爲那些對這個話題有所瞭解的人尋找一些指針。

    0熱度

    2回答

    出於測試目的,我想寫使用WWW ::機械化一個腳本,將通過https://api.gowalla.com/signin 登錄到Gowalla的,我可以看到登錄表單沒有「名稱」屬性,但它有一個「id」屬性。 機器人有一個「submit_form」方法,可以獲取作爲參數的名稱,但我沒有看到它接受作爲參數的id。 所以那會是那麼 $w->form_id('form_signin'); $w->subm

    6熱度

    5回答

    使用這種交換實現的最大威脅是什麼?除了線程安全和優化不佳之外。什麼時候失敗(反例)? template<typename T> void swapViaMemory(T& left, T& right) { if(&left == &right) { return ; } unsigned int tSize = sizeof(T); unsigned char*