收集在使用Python

我需要檢索只在一個網站的HREF第一級網頁HREF的只有1級。例如：http://www.example.com/是，我需要打開網站和read.I打開頁面，收集HREF的，我得到的所有環節如/公司/組織/公司/ globallocations，/公司/編輯部，/接觸，/網站地圖等等。收集在使用Python

下面是Python代碼。

req = urllib2.Request(domain) 
response = urllib2.urlopen(req) 
soup1 = BeautifulSoup(response,'lxml') 
for link in soup1.find_all('a',href = True): 
    print link['href']

我期望的輸出，

/公司/接觸，/網站地圖爲網站www.example.com

請幫助和建議我一個解決方案。

來源

2017-05-29 NiviSRa

的第一級概念不清楚，如果你相信一個/是第一級HREF鏈接，只是簡單地計算在HREF文本多少/，並決定保留它或刪除它。

如果我們考慮網頁的角度來看，主頁中的所有鏈接，應該認爲是第一級。在這種情況下，您可能需要創建一個級別計數器來計算爬蟲進入的級別/深度，並在特定級別停止。

希望有所幫助。

來源

2017-05-29 04:23:50

謝謝@中黛。我的意思是第一層與一個**/**鏈接。同樣可以收集嗎？收集www.example.com/company而不是www.company.com/company/organization。 – NiviSRa

正如我所說，如果你確定規則如此簡單，只需刪除最後一個**/something **。這很容易在Python中完成，甚至可以使用'os.path.dirname（url）'來獲取沒有**/something **的第一部分。 –

收集在使用Python

回答

相關問題