web-crawler

    4熱度

    2回答

    我有以下的代碼,部分工作, class ThreadSpider(CrawlSpider): name = 'thread' allowed_domains = ['bbs.example.com'] start_urls = ['http://bbs.example.com/diy'] rules = ( Rule(LinkExtractor(

    2熱度

    2回答

    我想爬一組從URL生成器收到的隨機的網站,使用Selenium的ChromeDriver與Crawljax做對捕獲的DOM狀態靜態代碼分析。 是機器做爬行這種潛在的不安全? 我擔心的是隨機生成的一個網站是惡意和JavaScript從ChromeDriver的執行(這是用來捕捉新的DOM州)感染運行測試莫名其妙的機器。我應該在某種沙箱環境中運行嗎? - 編輯 - 如果它的事項,履帶完全用Java實現

    1熱度

    3回答

    我試圖抓取產品視頻鏈接(它是由另一個Web服務動態生成的,位置在左側的產品圖像下)。您可以查看以下鏈接, https://www.tokopedia.com/chocoapple/ready-stock-bnib-iphone-128gb-7-plus-jet-black-garansi-apple-1-tahun-10?src=topads 谷歌瀏覽器「檢查元素」顯示div標籤。但是相同的標籤不

    0熱度

    1回答

    我試圖抓取來自LinkedIn,其使用個人數據抓取實踐數據。但是我無法在沒有登錄的情況下抓取數據。所以我用了兩種方法來模擬登錄。一種方法是從HttpClient獲取cookie,它將嘗試進行模擬登錄以獲取cookie。另一種是直接添加cookie。但我都失敗了。我不知道原因。 我使用Framework Webmagic進行數據爬行。通常,直接添加Cookie將是一個簡單的方法。但我不知道我是否添加

    0熱度

    1回答

    如何調試風暴爬行? 我的意思是你寫了一些模塊,你想檢查它。你可以編寫單元測試,但你想在系統上檢查它(可能是本地系統),你怎麼做? 我想Julien會正確回答這個問題。

    1熱度

    2回答

    我已經在Python中編寫了一個腳本,用於從craigslist中刪除五個項目的「名稱」和「電話」。我面臨的問題是,當我運行我的腳本時,它只給出三個結果而不是五個結果。更具體地說,由於前兩個鏈接在他們的頁面中沒有附加鏈接(聯繫信息),所以他們不需要再打開任何附加頁面的請求。然而,沒有(聯繫信息)鏈接的這兩個鏈接無法通過我的第二個函數中的「if ano_page_link:」語句滲透並且從不打印。我

    1熱度

    1回答

    我想抓取網頁上的視頻鏈接,https://www.tokopedia.com/chocoapple/ready-stock-bnib-iphone-128gb-7-plus-jet-black-garansi-apple-1-tahun-10?src=topads 有些鏈接是通過「webyclip」在加載頁面後加載數據的服務。在加載所有JavaScript和AJAX後,我想要更新頁面的HTML源代

    2熱度

    1回答

    這是我要刮的網頁: http://www.nalpdirectory.com/Page.cfm?PageID=34。我想模擬提交表單#resultDisplayOptionsForm與#customDisplayNum設置爲全部,這將帶給我一個網頁與所有列出的項目。 這是我的代碼片段: def parse(self, response): yield scrapy.FormRequest

    3熱度

    1回答

    我是BeautifulSoup4的新手,並且遇到了一個似乎很基本的問題。我只能通過身份證找到,但不能按班上課。例如,我在看它有HTML在它下面的部分站點: 現在,以下工作: page_soup.findAll('div', {'id': 'page-content'}) 而下面發現什麼: page_soup.findAll('div', {'class': 'main-container'})

    0熱度

    1回答

    我想從網站刮表數據。我想要的數據是隱藏在onclick事件的後面。 <a class="text" onclick="javascript:openPAOnSR_RS('some_sku', 'brandname','divId', 'some_args','OPC Page Details');cmTagAndLink('Open Link','OPC Page Details',null,nu