我在抓取新聞網站以提取所有鏈接,包括新聞網站中典型的存檔鏈接。該網站here有一個加載更多網站文章的按鈕View More Stories
。現在下面從網站中提取網址,包括存檔鏈接
def find_urls():
start_url = "e.vnexpress.net/news/business"
r = requests.get("http://" + start_url)
data = r.text
soup = BeautifulSoup(data, "html.parser")
links = soup.findAll('a')
url_list = []
for url in links:
all_link = url.get('href')
if all_link.startswith('http://e.vnexpress.net/news/business'):
url_list.append(all_link)
return set(url_list)
成功後,該代碼加載不少URL,但我怎麼加載更多這裏是按鈕
<a href="javascript:void(0)" id="vnexpress_folder_load_more" data-page="2"
data-cate="1003895">
View more stories
</a>
的片斷有人能幫助我。謝謝。
加載更多故事來自'發佈'請求。因此,首先建立下一頁網址,然後執行「發佈」請求,這是您的下一頁網址http://e.vnexpress.net/news/business?cate_id=1003895&page=2。你需要傳遞2個參數'cate_id'和'page' –
@akashkarothiya你能給我更多的解釋嗎?問候! – Jeremiah