2017-06-01 46 views
0

你好新來的R所以我提前道歉,如果這是一個簡單的修復。R-script讀NOAA的固定寬度大數據文件FTP只抓取部分表格

我試圖每天從NOAA的數據庫中獲取一次降水數據,這個函數完美工作了幾個月,但NOAA增加了表的大小,現在我只返回部分表:從第一行開始但每條線都有不同的結束線。看起來好像數據在整個表加載之前就被刮掉了。如果有任何關於如何抓住整個桌子的建議,那就太棒了。

這是我過去使用過的代碼,但現在一次運行會抓取所有代碼行,而另一些則會停止一半/四分之一等。

Temp = read.fwf("ftp://ftp.ncdc.noaa.gov/pub/data/ghcn/daily/all/USW00054779.dly", 
       widths = c(11, 4, 2, 4, rep(c(5, 1, 1, 1),31))) 

預先感謝您!

+0

您應該添加更多的細節:https://stackoverflow.com/help/how-to-ask – Markus

回答

0
ghcn_url <- "ftp://ftp.ncdc.noaa.gov/pub/data/ghcn/daily/all/USW00054779.dly" 
ghcn_fil <- basename(ghcn_url) 

if (!file.exists(ghcn_fil)) download.file(ghcn_url, ghcn_fil) 

tmp <- read.fwf(ghcn_fil, widths = c(11, 4, 2, 4, rep(c(5, 1, 1, 1), 31))) 

這具有一種到遠程服務器事件的另一個好處你的數據處理(或其他問題)強制目標文件的再處理(即你可以再次讀取本地副本VS搶吧) 。

這也不是網頁抓取。它正在讀取一個固定寬度的文件。你應該改變標題。