0
我需要檢索只在一個網站的HREF第一級網頁HREF的只有1級。例如:http://www.example.com/是,我需要打開網站和read.I打開頁面,收集HREF的,我得到的所有環節如/公司/組織/公司/ globallocations,/公司/編輯部,/接觸,/網站地圖等等。收集在使用Python
下面是Python代碼。
req = urllib2.Request(domain)
response = urllib2.urlopen(req)
soup1 = BeautifulSoup(response,'lxml')
for link in soup1.find_all('a',href = True):
print link['href']
我期望的輸出,
/公司/接觸,/網站地圖爲網站www.example.com
請幫助和建議我一個解決方案。
謝謝@中黛。我的意思是第一層與一個**/**鏈接。同樣可以收集嗎?收集www.example.com/company而不是www.company.com/company/organization。 – NiviSRa
正如我所說,如果你確定規則如此簡單,只需刪除最後一個**/something **。這很容易在Python中完成,甚至可以使用'os.path.dirname(url)'來獲取沒有**/something **的第一部分。 –