2012-04-25 116 views

回答

2

在這種特殊情況下,infowindow中的數據被嵌入到html本身的script標籤中,所以從URL中下載html,然後創建一個正則表達式來提取infowindow的內容(在這種情況下名爲contentString的變量)很容易做到。

雖然有些網站並不簡單,但需要採用各種方法來收集信息。動態網站可能會通過使用ajax調用來填充信息窗口的內容,或者內容可能包含在單獨的腳本或json文件中。如果您決定刮掉這些網站中的每一個網站的內容,您可能必須爲每個網站做一些自定義編碼。

+0

你介意看看這些例子。我似乎無法弄清楚信息的存儲位置。 [example1](http://www.hm.com/se/store-locator#store=SE432) [example2](http://www.ahlens.se/stores/index.html#:2fe05c6e- 1c9c-4937-bf92-3eca7a751237) – Michael 2012-04-26 07:59:27

+1

示例1的數據來自http://www.hm.com/rest/storelocator/stores/1.0/locale/sv_SE/store/SE454/的restful ajax調用,其中「商店ID「是查詢字符串的最後部分)。示例2來自http://www.ahlens.se/system/modules/com.gridnine.opencms.modules.ahlens2/providers/store-details.jsp?__locale=sv,但它似乎需要cookie以便結果將被正確返回(您可以通過運行Fiddler並導航到瀏覽器中的示例url)輕鬆地看到這兩個結果。 – javram 2012-04-27 04:25:55

+0

我有幾個網站,我不知道如何獲取信息。我可以和Javram聯繫嗎?你在我的用戶信息中收到了我的郵件。 – Michael 2012-05-02 09:23:28

相關問題