scraperwiki

    0熱度

    1回答

    某些網站要求我們有一個特定的IP地址來顯示某些信息,例如。廣告的國家X.我想知道是否有可能使用我的ruby腳本@scraperwiki代理(最好是紅寶石一個)來得到結果,就好像我在該國的X.現在腳本得到的結果英國,如果我使用HTTP代理,我可以看到我想從正確檢索數據的網站。問題是Scraperwiki不會返回網頁,就像它在X國家一樣。

    0熱度

    3回答

    我正在使用ScraperWiki構建一個簡單的屏幕抓取工具,從一家在線商店獲取鏈接。該商店有多個頁面,因此我想從第一個頁面獲取所有鏈接,在尋呼機中找到「下一個」按鈕,轉到該網址,從那裏找到所有鏈接,轉到下一頁,等等。等等。 這就是我所在的地方。該ScraperWiki使用簡單的HTML DOM和CSS選擇器: <?php require 'scraperwiki/simple_html_dom.

    1熱度

    1回答

    我喜歡硒,我喜歡scraperwiki,但不知何故,我不能讓他們一起正常工作。我試圖在兩種方法打開一個網站,硒對scraperwiki,這兩種方法已經從教程得到: import selenium sel = selenium.selenium("localhost",4444,"*firefox", "http://www.google.com") sel.open("http://googl

    1熱度

    5回答

    我有兩個功能可以正常工作,但是當我將它們嵌套在一起時似乎會失效。 def scrape_all_pages(alphabet): pages = get_all_urls(alphabet) for page in pages: scrape_table(page) 我想系統地刮一些搜索結果。因此get_all_pages()會爲字母表中的每個字母創建一個URL

    0熱度

    2回答

    我懷疑這是一個微不足道的查詢,但希望有人可以幫助我一個查詢我已經在我想要構建的刮板中使用lxml。 https://scraperwiki.com/scrapers/thisisscraper/ 我通過教程3個行由行,到目前爲止,試圖提取下一個頁面鏈接已經得到。我可以使用cssselect來識別鏈接,但我無法弄清楚如何隔離href屬性而不是整個錨標籤。 任何人都可以幫忙嗎? def scrape_

    1熱度

    1回答

    不知道這是sqlite中的自定義函數的副作用,但我試圖使用查詢來提供表單。 (這裏有一個粗略的演示http://www.thisisstaffordshire.co.uk/images/localpeople/ugc-images/275796/binaries/GPformMap4.html) 輕微的問題是,如果我使用某些方面使用查詢,查詢返回的數據: https://api.scraperwi

    1熱度

    3回答

    我試圖從this頁面中去除一些模糊的文本。我想保留錨定的鏈接,但失去了休息和a.intro。我以爲我可以使用類似unwrap()的東西去掉層,但我得到一個錯誤:TypeError: 'NoneType' object is not callable 對於踢,我試圖運行文檔示例代碼本身,因爲我看不到我的版本是如何不同。 markup = '<a href="http://example.com/">

    0熱度

    1回答

    當我執行刮刀,使用這種方法,它加載的網址: $html = scraperWiki::scrape("foo.html"); 所以每次我新的代碼添加到刮刀和想嘗試它會再次加載html,這需要相當長的時間。 無論如何要保存$ html,所以它只是第一次加載?

    0熱度

    1回答

    我想知道,如果從ScraperWiki的simple_html_dom庫: require 'scraperwiki/simple_html_dom.php'; 相同或使用相同的方法,因爲這一個: PHP Simple HTML DOM Parser 我想知道這一點,因爲這將是一個簡單的方法來嘗試在當地的ScraperWiki刮板。

    0熱度

    1回答

    我試圖使用ScraperWiki的工具來抓取一個基於ASP的網站。 我想從BBSmates.com網站的特定地區代碼中獲取BBS列表。該網站一次顯示20個BBS搜索結果,因此我需要進行表單提交以便從結果頁面轉到下一頁。 這blog post幫助我開始。我認爲下面的代碼會抓取314區域代碼的論壇列表的最後一頁(第79頁)。 但是,我得到的回覆是FIRST頁面。 url = 'http://bbsma