我想了解/優化索引網站的邏輯。我是新來的HTML/JS方面的東西,所以我一直在學習。在爲網站建立索引時,我會根據每個網頁上的鏈接遞歸地深入網站。一個問題是頁面具有重複的URL和文本,如頁眉和頁腳。對於這些URL,我有一個我已經處理的URL列表。我能做些什麼來識別每頁上重複的文字?我希望我的解釋清楚。我目前有代碼(在Python中)獲取該網站的有用URL列表。現在我正在嘗試索引這些頁面的內容。是否有首選邏輯來識別或跳過這些頁面上的重複文本(如標題,頁腳和其他信息)。我正在使用BeautifulSoup +請求模塊。解析網頁索引
@johnthexiii - 有沒有辦法告訴什麼是編輯一職? – R11 2013-03-21 16:33:56
點擊我名字上方的藍色時間戳,我刪除了簽名(所以不喜歡那些),你拼錯了一個單詞。 – John 2013-03-21 16:40:32
謝謝。不知道,所以不喜歡簽名。 – R11 2013-03-21 16:42:52