2016-01-20 84 views
0

我在R編程。我需要從http:地址下載一組文件。文件的命名格式是指日期/時間段,但也包含不可識別的附加編號。例如,對於第一組數字下面的文件,指2014年10月24日上午05:10的日期,但第二批數字不可識別。網頁上的所有文件均遵循此標準格式。r部分名稱下載url文件

http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/PUBLIC_MCCDISPATCH_201410240510_0000000258279329.zip

我的問題是:我如何下載文件,只有部分名稱的信息?

例如,如果我想下載有關我知道URL前綴低於6:30時間段的文件,但不會不知道,在他之後的數字:http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/PUBLIC_MCCDISPATCH_201410240630_??????????????.zip

+1

你不能告訴網站;給我一些文件。相反,您需要獲取目錄列表(http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/)並搜索正確的文件 - 並且有代碼來處理如果有的話不止一個這樣的文件等 - 請嘗試這樣做,然後詢問與您的代碼有關的具體問題,而不是「我該如何做X」。 –

+0

這不是一個真正的R特定的事情。由於安全原因,網絡未被定義爲支持部分文件匹配。這是必須在服務器上設置的。或者服務器將不得不給你一個可用文件的清單。 – MrFlick

回答

0

你實際上是祝你好運。因爲你有一個目錄列表。基本上,你必須下載鏈接列表,然後grep他們。以下是你如何去做這件事。

library(XML) 
url <- "http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/" 
parsed <- htmlParse(url) 
links <- xpathSApply(parsed, "//@href") 

現在您已經有了一個URL列表,您可以搜索並選擇合適的URL。

提示:grep("pattern",links)

+0

謝謝您的評論。對不起,應該提到它是在一個目錄結構中。 – Fenderman2014