scraperwiki

0熱度

1回答

某些網站要求我們有一個特定的IP地址來顯示某些信息，例如。廣告的國家X.我想知道是否有可能使用我的ruby腳本@scraperwiki代理（最好是紅寶石一個）來得到結果，就好像我在該國的X.現在腳本得到的結果英國，如果我使用HTTP代理，我可以看到我想從正確檢索數據的網站。問題是Scraperwiki不會返回網頁，就像它在X國家一樣。

0熱度

3回答

刮刀函數中的PHP變量

我正在使用ScraperWiki構建一個簡單的屏幕抓取工具，從一家在線商店獲取鏈接。該商店有多個頁面，因此我想從第一個頁面獲取所有鏈接，在尋呼機中找到「下一個」按鈕，轉到該網址，從那裏找到所有鏈接，轉到下一頁，等等。等等。這就是我所在的地方。該ScraperWiki使用簡單的HTML DOM和CSS選擇器： <?php require 'scraperwiki/simple_html_dom.

1熱度

1回答

如何讓硒在scraperwiki上工作

我喜歡硒，我喜歡scraperwiki，但不知何故，我不能讓他們一起正常工作。我試圖在兩種方法打開一個網站，硒對scraperwiki，這兩種方法已經從教程得到： import selenium sel = selenium.selenium("localhost",4444,"*firefox", "http://www.google.com") sel.open("http://googl

1熱度

5回答

什麼是pythonic方式來捕捉錯誤，並繼續在這個循環？

我有兩個功能可以正常工作，但是當我將它們嵌套在一起時似乎會失效。 def scrape_all_pages(alphabet): pages = get_all_urls(alphabet) for page in pages: scrape_table(page) 我想系統地刮一些搜索結果。因此get_all_pages()會爲字母表中的每個字母創建一個URL

0熱度

2回答

Scraperwiki scrape查詢：使用lxml提取鏈接

我懷疑這是一個微不足道的查詢，但希望有人可以幫助我一個查詢我已經在我想要構建的刮板中使用lxml。 https://scraperwiki.com/scrapers/thisisscraper/ 我通過教程3個行由行，到目前爲止，試圖提取下一個頁面鏈接已經得到。我可以使用cssselect來識別鏈接，但我無法弄清楚如何隔離href屬性而不是整個錨標籤。任何人都可以幫忙嗎？ def scrape_

1熱度

1回答

sqlite查詢返回錯誤 - 無法解決爲什麼

不知道這是sqlite中的自定義函數的副作用，但我試圖使用查詢來提供表單。（這裏有一個粗略的演示http://www.thisisstaffordshire.co.uk/images/localpeople/ugc-images/275796/binaries/GPformMap4.html）輕微的問題是，如果我使用某些方面使用查詢，查詢返回的數據： https://api.scraperwi

1熱度

3回答

bs4文檔有什麼問題？我無法運行解包（）示例代碼

我試圖從this頁面中去除一些模糊的文本。我想保留錨定的鏈接，但失去了休息和a.intro。我以爲我可以使用類似unwrap()的東西去掉層，但我得到一個錯誤：TypeError: 'NoneType' object is not callable 對於踢，我試圖運行文檔示例代碼本身，因爲我看不到我的版本是如何不同。 markup = '<a href="http://example.com/">

0熱度

1回答

ScraperWiki：如何因此它只被載入保存的HTML一旦

當我執行刮刀，使用這種方法，它加載的網址： $html = scraperWiki::scrape("foo.html"); 所以每次我新的代碼添加到刮刀和想嘗試它會再次加載html，這需要相當長的時間。無論如何要保存$ html，所以它只是第一次加載？

0熱度

1回答

ScraperWiki：simple_html_dom庫

我想知道，如果從ScraperWiki的simple_html_dom庫： require 'scraperwiki/simple_html_dom.php'; 相同或使用相同的方法，因爲這一個： PHP Simple HTML DOM Parser 我想知道這一點，因爲這將是一個簡單的方法來嘗試在當地的ScraperWiki刮板。

0熱度

1回答

爲什麼一個ASPX站點的ScraperWiki只返回同一頁搜索結果？

我試圖使用ScraperWiki的工具來抓取一個基於ASP的網站。我想從BBSmates.com網站的特定地區代碼中獲取BBS列表。該網站一次顯示20個BBS搜索結果，因此我需要進行表單提交以便從結果頁面轉到下一頁。這blog post幫助我開始。我認爲下面的代碼會抓取314區域代碼的論壇列表的最後一頁（第79頁）。但是，我得到的回覆是FIRST頁面。 url = 'http://bbsma