簡單的R項目

嗨，我是R新手，我正在構建兩個來自Web的指南，我想出瞭如何自動化腳本進行數據挖掘，而不是追加數據然後每次寫代碼運行。我想附加它可以讓任何一個人指向正確的方向。簡單的R項目

這裏是腳本這樣

# loading the package is required once each session 
require(XML) 

# initialize a storage variable for Twitter tweets 
mydata.vectors <- character(0) 

# paginate to get more tweets 
for (page in c(1:15)) 
{ 
    # search parameter 
    twitter_q <- URLencode('#google OR #apple') 
    # construct a URL 
    twitter_url = paste('http://search.twitter.com/search.atom?q=',twitter_q,'&rpp=100&page=', page, sep='') 
    # fetch remote URL and parse 
    mydata.xml <- xmlParseDoc(twitter_url, asText=F) 
    # extract the titles 
    mydata.vector <- xpathSApply(mydata.xml, '//s:entry/s:title', xmlValue, namespaces =c('s'='http://www.w3.org/2005/Atom')) 
    # aggregate new tweets with previous tweets 
    mydata.vectors <- c(mydata.vector, mydata.vectors) 
} 

# how many tweets did we get? 
length(mydata.vectors)

來源

2012-03-27 pyCthon

究竟是哪個位被'寫入'了？從你的代碼看來，'mydata.vectors'將包含你到目前爲止所有的結果。 – 2012-03-27 02:45:07

我想你想要的是結果保存到運行之間的磁盤。所以，像這樣開頭：

if (!file.exists('path/to/file')) 
    mydata.vectors <- character(0) 
else 
    load('path/to/file')

而且像這樣結尾：

save(mydata.vectors, file='path/to/file')

應該做的伎倆。當然，你可以通過保存文件類型等來獲得更復雜的結果。

來源

2012-03-27 02:57:27 blindjesse

感謝我現在想弄清楚如何爲每個條目添加時間戳，然後再阻止兩次複製相同的推文=） – pyCthon 2012-03-27 03:21:38

簡單的R項目

回答

相關問題