2017-04-25 70 views
-1

我很想將此文本文件中的數據轉換爲我可以加載到MySQL Workbench數據庫中的格式。從R中的模式中提取數據

https://sbir.nasa.gov/SBIR/abstracts/17-1.html

我要運行一些R代碼裏面,這將使我的企業的名稱命名

「小企業的關注每一行後:(公司名稱,郵件地址,城市/州/ ZIP ,電話)」

例如,我在尋找一個看起來像這樣的輸出:

Transition45 Technologies公司 ATSP創新

等那我可以加載到數據庫列。

希望是有道理的,我是比較新的這一點。謝謝。

+1

請_edit_您的問題,並告訴我們一個你想要做的最小樣本。你的源文件很混亂,我不確定你當前的邏輯是否可行。另外,我可能不會使用R,因爲我會使用Java或者Perl之類的東西。 –

回答

0

您的問題/問題是不明確的。

如果我是正確的,你想提取地址細節,在後面寫下「小企業關注:(公司名稱,郵件地址,城市/州/郵編,電話)」,對吧?如果是這樣,那麼

url <- "https://sbir.nasa.gov/SBIR/abstracts/17-1.html" 

abstracts_page <- readLines(url) 
abstracts_page <- gsub("<.*?>", "", abstracts_page) 
abstracts_page <- gsub("\\t+", "", abstracts_page) 

address_header_index <- grep("SMALL BUSINESS CONCERN:", abstracts_page) 

address_list <- lapply(address_header_index, function(i) { 
    return(abstracts_page[(i + 2):(i + 6)]) 
}) 

address_list <- data.frame(do.call("rbind", address_list)) 

head(address_list) 

#           X1         X2     X3 
# 1   Transition45 Technologies, Inc.    1739 North Case Street  Orange,&nbsp;CA 
# 2       ATSP Innovations     60 Hazelwood Drive Champaign,&nbsp;IL 
# 3   Cornerstone Research Group, Inc.    2750 Indian Ripple Road  Dayton,&nbsp;OH 
# 4 Interdisciplinary Consulting Corporation  5745 Southwest 75th Street, #364 Gainesville,&nbsp;FL 
# 5     CFD Research Corporation 701 McMillian Way Northwest, Suite D Huntsville,&nbsp;AL 
# 6   LaunchPoint Technologies, Inc.  5735 Hollister Avenue, Suite B  Goleta,&nbsp;CA 

#   X4    X5 
# 1 92865-4211 (714) 283-2118 
# 2 61820-7460 (217) 417-2374 
# 3 45440-3638 (937) 320-1877 
# 4 32608-5504 (352) 283-8110 
# 5 35806-2923 (256) 726-4800 
# 6 93117-6410 (805) 683-9659 
+0

不建議使用[html上的正則表達式](http://stackoverflow.com/a/1732454/1422451)。 – Parfait

+0

不錯的建議@Parfait,謝謝.. +1 – nurandi

+0

@nurandi你真不可思議。回答了我的問題,然後是一些。謝謝。 – ebilk