2012-03-27 80 views
0

嗨,我是R新手,我正在構建兩個來自Web的指南,我想出瞭如何自動化腳本進行數據挖掘,而不是追加數據然後每次寫代碼運行。我想附加它可以讓任何一個人指向正確的方向。簡單的R項目

這裏是腳本這樣

# loading the package is required once each session 
require(XML) 

# initialize a storage variable for Twitter tweets 
mydata.vectors <- character(0) 

# paginate to get more tweets 
for (page in c(1:15)) 
{ 
    # search parameter 
    twitter_q <- URLencode('#google OR #apple') 
    # construct a URL 
    twitter_url = paste('http://search.twitter.com/search.atom?q=',twitter_q,'&rpp=100&page=', page, sep='') 
    # fetch remote URL and parse 
    mydata.xml <- xmlParseDoc(twitter_url, asText=F) 
    # extract the titles 
    mydata.vector <- xpathSApply(mydata.xml, '//s:entry/s:title', xmlValue, namespaces =c('s'='http://www.w3.org/2005/Atom')) 
    # aggregate new tweets with previous tweets 
    mydata.vectors <- c(mydata.vector, mydata.vectors) 
} 

# how many tweets did we get? 
length(mydata.vectors) 
+0

究竟是哪個位被'寫入'了?從你的代碼看來,'mydata.vectors'將包含你到目前爲止所有的結果。 – 2012-03-27 02:45:07

回答

2

我想你想要的是結果保存到運行之間的磁盤。所以,像這樣開頭:

if (!file.exists('path/to/file')) 
    mydata.vectors <- character(0) 
else 
    load('path/to/file') 

而且像這樣結尾:

save(mydata.vectors, file='path/to/file') 

應該做的伎倆。當然,你可以通過保存文件類型等來獲得更復雜的結果。

+0

感謝我現在想弄清楚如何爲每個條目添加時間戳,然後再阻止兩次複製相同的推文=) – pyCthon 2012-03-27 03:21:38