2017-08-28 102 views

回答

0

我不認爲你可以手動解析gzip文件。您最好的選擇是使用the index找出每條記錄的偏移量和長度。有關更多信息,請參見api documentationthe guides

如果您手動解析WARC文件,請首先解壓縮.gz文件。

WARC records are separated by two newlines

一個WARC格式的文件是一個或多個WARC 記錄的簡單拼接。一條記錄由一條記錄標題和一條記錄 內容塊和兩條換行符組成。 (換行符是其他 Internet標準的CRLF。)

+0

即使我解壓縮.gz文件,我沒有辦法分別獲取每個記錄。有沒有辦法? –

+0

正如我剛剛提到的,*每個記錄由兩條換行符*分隔。如果你需要更多的幫助,那麼我需要更多關於你想要做什麼的信息。爲什麼你必須手動進行? –

+0

謝謝。我必須創建該文件的rdd。 spark中的默認分隔符是不是warc所具有的。因此,我得到了比文件更多的記錄數。 –

0

WARC文件中沒有明確的記錄分隔符。記錄始終以'\ r \ n \ r \ n'結尾,但這也用於將記錄標頭與記錄正文分開,並可能發生在HTML文檔中的任何位置。 WARC記錄的長度由記錄標題中的Content-Length定義。

要使用PySpark處理常見爬網WARC文件,請參閱cc-pyspark

相關問題