html-parsing

    0熱度

    1回答

    我知道如何在頁面分頁時循環,但我希望在一個循環函數中抓取多個信息/ html_nodes,但我不確定是否可以設置它。到目前爲止,我嘗試了以下。這基本上是一個jobsearch網站,我想要公司名稱,公司名稱和公開職位的數量。 我用sprintf來得到第1-14頁。 urlingtek <- sprintf("https://www.jobindex.dk/virksomhedsoversigt/ka

    0熱度

    1回答

    輸入URL http://py4e-data.dr-chuck.net/comments_42.html 當我運行這段代碼,預期的輸出是包含數字,是標籤這是內部列表在程序中被解析。但我所得到的是列表中的最後一個數字。 請更正程序,以顯示在所有標籤目前號碼的列表被解析 from urllib.request import urlopen from bs4 import BeautifulSoup

    3熱度

    1回答

    我是BeautifulSoup4的新手,並且遇到了一個似乎很基本的問題。我只能通過身份證找到,但不能按班上課。例如,我在看它有HTML在它下面的部分站點: 現在,以下工作: page_soup.findAll('div', {'id': 'page-content'}) 而下面發現什麼: page_soup.findAll('div', {'class': 'main-container'})

    0熱度

    2回答

    我有HTML這樣的: <div>Lorem ipsum <b>dolor sit</b> amet.</div> 我怎樣才能找到一個簡單的基於文本的比賽在這個HTML我的搜索字符串ipsum dolor?我需要匹配的開始和結束XPath節點指針,以及指向這些開始和結束節點內部的字符索引。我使用Nokogiri來處理DOM,但任何Ruby解決方案都可以。 難度: 我不能node.traverse

    0熱度

    1回答

    我想在Java中使用JSOUP在輸入字段中廢棄在網頁中輸入的值。輸入字段中的值已被服務器添加。 在JavaScript中,我們用它來選擇由ID的元素,然後很容易地得到使用.value所示在下面的圖片的值。 這是HTML的樣子 我想知道如何與JSOUP和Java做到這一點。

    1熱度

    2回答

    我想解析一個使用Jsoup的HTML文件。 HTML中有某些文本不在標籤下。 <li class="inactive"> <span class="status label">inactive</span> <a href="/officers/144662696" class="officer inactive" title="more info on MILLTOWN CO

    0熱度

    1回答

    我使用lxml 這是一個職位 <article id="post-4855" class="post-4855 post type-post status-publish format-standard hentry category-uncategorized"> <header class="entry-header"> <h1 class="entry-title"><a h

    -1熱度

    1回答

    我需要從whoscored.com數據,但是當我輸入驗證碼 import requests from bs4 import BeautifulSoup as soup url = "https://www.whoscored.com/Statistics" page_html = requests.get(url) page_soup = soup(page_html.content, '

    0熱度

    2回答

    我正在嘗試更新morningstar的網站的基金規模。我以前的IE自動化嘗試沒有成功,所以我切換到XML httpRequest(工作速度也快得多)。現在,我無法從我從網站獲得的文檔中打印出正確的線條。我希望代碼在第一個「td」 - 標籤被稱爲「基金規模(Mil)」的「tr」 - 標籤內給我第三個「td」 - 標籤。所以代碼循環遍歷所有「td」標籤的標題,並且如果發現"{line heading}

    0熱度

    2回答

    我需要解析HTML代碼轉換成字符串,因爲我以後使用它作爲電子郵件的我身上內容: 有沒有一種方法來分析這樣的html代碼: <div class="alert alert-success" role="alert"> <h4 class="alert-heading">Well done!</h4> <p>You have successfully subscribed!</p>