我試圖從不同網站獲取PDF鏈接的列表。首先,我使用Web客戶端類來下載頁面源代碼。然後我使用sgmlReader將HTML轉換爲XML。所以對於一個特定的網站,我會得到一個如下所示的標籤:XML:使用C搜索元素以查找特定文本#
<p><a href="pub/1985_to_1997_Board_Action_Summary.pdf">1985 to 1997 Board Action Summary</a></p>
我需要抓取所有包含「.pdf」的鏈接。很顯然,並非所有網站的佈局都是相同的,所以只需要搜索<p>
標籤,就不會變得足夠動態。我寧可不使用linq,但如果必須的話,我會。提前致謝。
XMLDocument類沒有「根」方法。我需要使用不同的課程嗎? – broke 2012-03-08 16:51:27
是的,我指的是XDocument。如果我沒有記錯的話,你可以從XmlDocument實例創建一個XDocument。 – 2012-03-08 17:00:50
如果「a」恰好是小寫字母,這很好。如果它的資本是「A」,它就會中斷。 – broke 2012-03-08 17:35:45