在下面的代碼我正在過濾日誌包含404 HTTP狀態代碼,但現在,如果我要篩選日誌包含400-405任何HTTP狀態代碼。有沒有什麼辦法來篩選RDD包含特定模式
JavaRDD<String> IPList = sc.textFile("/home/bhaumik/Documents/access_log", 1)
.filter(new Function<String, Boolean>() {
@Override
public Boolean call(String v1) throws Exception {
// TODO Auto-generated method stub
return v1.contains(" 404 ");
}
});
那麼有什麼選擇嗎?
鑑於是我的樣本日誌記錄
64.242.88.10 - - [07/Mar/2004:20:55:43 -0800] "GET /mailman/listinfo/hs_support HTTP/1.1" 200 6294
64.242.88.10 - - [07/Mar/2004:20:56:56 -0800] "GET /twiki/bin/view/TWiki/WebTopicList HTTP/1.1" 200 14070
64.242.88.10 - - [07/Mar/2004:20:58:27 -0800] "GET /twiki/bin/attach/TWiki/WebPreferences HTTP/1.1" 401 12846
64.242.88.10 - - [07/Mar/2004:21:03:48 -0800] "GET /twiki/bin/view/TWiki/TWikiFAQ HTTP/1.1" 200 12050
64.242.88.10 - - [07/Mar/2004:21:06:05 -0800] "GET /twiki/bin/oops/TWiki/DefaultPlugin?template=oopsmore¶m1=1.5¶m2=1.5 HTTP/1.1" 200 11281
添加日誌的樣品將在增加了更爲正確答案提供幫助。 – gfelisberto
你可以看到我更新的問題。 –