web-scraping

    4熱度

    2回答

    我盡了最大努力通過代碼添加評論,但我有點卡在某些部分。 // create a new instance of the HtmlDocument Class called doc 1: HtmlDocument doc = new HtmlDocument(); // the Load method is called here to load the variable result whi

    0熱度

    2回答

    我正在使用jQuery腳本來驗證表單域。這很好,但我想更改一個字段的驗證來檢查IP地址。 我想用正則表達式是: \b(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[

    1熱度

    6回答

    我不確定是否比另一個更好用,即。 Java,PHP或Perl。

    1熱度

    1回答

    AJAX形式 BTW ...本網站僅與Internet Explorer工程.... 我試圖取消一個網站的客戶端,這樣我可以爲他們自動執行任務。基本上,它會抓住不同的報告,尋找轉身時間,並通過電子郵件發送給客戶。我的報廢程序工作正常,我遇到的問題是使用Mechanize登錄到網站,因爲登錄表單正在使用AJAX。我有四處尋找解決方案,但似乎無法找到我正在尋找什麼。 下面是HTML表單和(從我能告訴的

    0熱度

    1回答

    嘿,這個問題有點含糊不清,所以我很抱歉...我只是尋求幫助,讓我朝正確的方向發展。 我想開發一些bot /腳本/程序,可以抓取一些API我有鍵和解析XML到CSV或Excel文件,所以我可以檢查它,然後將其導入到我的數據庫。 例如,我有一個meetup.com的開發者帳戶。我想構建一個殭屍程序,可以抓取即將到來的Meetup事件的整個數據庫,並將xml解析爲excel文檔中的給定列。 我的編程經驗

    0熱度

    2回答

    我怎麼能有我的蜘蛛內在的東西,將獲取某些URL通過HtmlXPathSelector提取從頁面的東西嗎?但是URL是我想在代碼中以字符串形式提供的內容,而不是要遵循的鏈接。 我想是這樣的: req = urllib2.Request('http://www.example.com/' + some_string + '/') req.add_header('User-Agent', 'Mozil

    38熱度

    8回答

    鑑於新聞文章的網頁(來自任何主要新聞來源,如時間或bloomberg),我想確定該網頁上的主要文章內容,並拋出其他misc元素如廣告,菜單,側邊欄,用戶評論。 這樣做的一般方法是什麼,可以在大多數主要新聞網站上使用? 數據挖掘有哪些好的工具或庫? (最好是基於python的)

    0熱度

    2回答

    我們運行多個Windows/IIS/.Net站點(每個服務器最多30個站點)。通過包含設置的配置文件爲每個客戶定製每個站點。 我的任務是編寫一個小工具,將'grep'在特定配置設置(或設置)的某個服務器上的所有配置文件,並返回一個漂亮的表格網頁顯示的值。這將節省很多羣體的時間,尤其是因爲大多數羣組無法訪問生產服務器,但他們需要知道客戶當前如何配置。 我有一個工作代碼,可以從一個起始路徑找到所有.c

    -1熱度

    3回答

    我有一個HTML頁我想在HTML頁面,當我點擊一些鏈接,我可以水平移動一些div ... 像 1 2 3 4 5 6 7 __________________________________________________________________ ___________________________________________________

    23熱度

    5回答

    我希望能夠選擇/高亮顯示頁面上的元素,並找到自己的選擇是這樣的: div.firstRow div.priceAvail> DIV> div.PriceCompare> div.BodyS 我知道你可以在做一個檢查元素後看到底部的選擇,但是我怎樣才能將這個路徑複製到剪貼板?在Firebug中,我認爲你可以做到這一點,但是沒有看到使用Chrome開發人員工具執行此操作的方法,並且搜索擴展沒有啓用任何