0
我有一個html數據集,如下所示,我想解析並轉換成可以使用的表格格式。使用R解析HTML數據
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>
<div class="brewery" id="brewery">
<ul class="vcard simple">
<li class="name"> Bradley Farm/RB Brew, LLC</li>
<li class="address">317 Springtown Rd </li>
<li class="address_2">New Paltz, NY 12561-3020 | <a href='http://www.google.com/maps/place/317 Springtown Rd++New Paltz+NY+United States' target='_blank'>Map</a> </li>
<li class="telephone">Phone: (845) 255-8769</li>
<li class="brewery_type">Type: Micro</li>
<li class="url"><a href="http://www.raybradleyfarm.com" target="_blank">www.raybradleyfarm.com</a> </li>
</ul>
<ul class="vcard simple col2"></ul>
</div>
<div class="brewery">
<ul class="vcard simple">
<li class="name">(405) Brewing Co</li>
<li class="address">1716 Topeka St </li>
<li class="address_2">Norman, OK 73069-8224 | <a href='http://www.google.com/maps/place/1716 Topeka St++Norman+OK+United States' target='_blank'>Map</a> </li>
<li class="telephone">Phone: (405) 816-0490</li>
<li class="brewery_type">Type: Micro</li>
<li class="url"><a href="http://www.405brewing.com" target="_blank">www.405brewing.com</a> </li>
</ul>
<ul class="vcard simple col2"></ul>
</div>
</body>
下面是我用過的代碼。我面臨的問題是它使用Rvest轉換爲文本文件,但似乎無法使其成爲任何有用的格式。
library(dplyr)
library(rvest)
url<-html("beer.html")
selector_name<-".brewery"
fnames<-html_nodes(x = url, css = selector_name) %>%
html_text()
head(fnames)
fnames
這將是一個正確的做法或者我應該使用一些其他的包都要經過每格和內部元素做。
的放出來,我想看看它是
No. Name Address Type Website
謝謝。
非常感謝@austensen。我得到的唯一的錯誤是在整個文件中爲類型運行這個錯誤。在我們嘗試替換空白類型值時會做些什麼。 '錯誤:列'類型'必須是長度1或7263,而不是7147' – SNT
哦,聽起來像,與你的例子不同,有一些啤酒廠在你的真實數據中缺少類型字段,您的數據幀長度不同。我不得不多想一些如何解決這個問題。 – austensen