2017-05-29 62 views
0

我需要檢索只在一個網站的HREF第一級網頁HREF的只有1級。例如:http://www.example.com/是,我需要打開網站和read.I打開頁面,收集HREF的,我得到的所有環節如/公司/組織/公司/ globallocations,/公司/編輯部,/接觸,/網站地圖等等。收集在使用Python

下面是Python代碼。

req = urllib2.Request(domain) 
response = urllib2.urlopen(req) 
soup1 = BeautifulSoup(response,'lxml') 
for link in soup1.find_all('a',href = True): 
    print link['href'] 

我期望的輸出,

/公司/接觸,/網站地圖爲網站www.example.com

請幫助和建議我一個解決方案。

回答

0

第一級概念不清楚,如果你相信一個/是第一級HREF鏈接,只是簡單地計算在HREF文本多少/,並決定保留它或刪除它。

如果我們考慮網頁的角度來看,主頁中的所有鏈接,應該認爲是第一級。在這種情況下,您可能需要創建一個級別計數器來計算爬蟲進入的級別/深度,並在特定級別停止。

希望有所幫助。

+0

謝謝@中黛。我的意思是第一層與一個**/**鏈接。同樣可以收集嗎?收集www.example.com/company而不是www.company.com/company/organization。 – NiviSRa

+0

正如我所說,如果你確定規則如此簡單,只需刪除最後一個**/something **。這很容易在Python中完成,甚至可以使用'os.path.dirname(url)'來獲取沒有**/something **的第一部分。 –