我寫它利用HtmlAgilityPack庫,以刮位於頁面C#代碼:World's Largest Urban Areas (Page 2)。不幸的是,頁面包含格式不正確的內容。麻煩刮網頁格式錯誤的內容
我就如何湊這個頁面中的僵局。目前的代碼,我(下出現)凍結在解析HTML:
HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
CityNodes = (from node in cityRecords.Descendants()
where node.Name == "td"
select node).ToList();
的目標是分析每個與每個數據點的頁面上列出的每一個城市;而已。尋找關於如何修改上述代碼或使用另一個免費提供的庫的建議。
謝謝!
你應該偏離屏幕抓取。您已經遇到問題,爲什麼它的不良做法 - 如果不是不誠實或違法。嘗試尋找一個地理/人口普查api - 那麼你所要做的就是實現一個簡單的REST客戶端。 – Skawful 2009-12-15 16:03:02
感謝您輸入Skawful - 我完全同意。不過,我花了相當多的時間尋找這一點,並沒有運氣。現在看到有人在接下來的5分鐘內指出一個API :)。 我還應該補充說,這對於我學習支持技術來說更是一個練習。 – BigBrother 2009-12-15 18:49:30