warc.gz文件的兩個記錄之間的分隔符

我想解析從常見爬網下載的warc.gz文件。我有一個要求，我必須手動解析新聞warc.gz文件。兩個記錄之間的分隔符是什麼？warc.gz文件的兩個記錄之間的分隔符

我不認爲你可以手動解析gzip文件。您最好的選擇是使用the index找出每條記錄的偏移量和長度。有關更多信息，請參見api documentation和the guides。

如果您手動解析WARC文件，請首先解壓縮.gz文件。

一個WARC格式的文件是一個或多個WARC 記錄的簡單拼接。一條記錄由一條記錄標題和一條記錄內容塊和兩條換行符組成。（換行符是其他 Internet標準的CRLF。）

2017-08-29 12:27:00

即使我解壓縮.gz文件，我沒有辦法分別獲取每個記錄。有沒有辦法？ –

正如我剛剛提到的，*每個記錄由兩條換行符*分隔。如果你需要更多的幫助，那麼我需要更多關於你想要做什麼的信息。爲什麼你必須手動進行？ –

謝謝。我必須創建該文件的rdd。 spark中的默認分隔符是不是warc所具有的。因此，我得到了比文件更多的記錄數。 –

WARC文件中沒有明確的記錄分隔符。記錄始終以'\ r \ n \ r \ n'結尾，但這也用於將記錄標頭與記錄正文分開，並可能發生在HTML文檔中的任何位置。 WARC記錄的長度由記錄標題中的Content-Length定義。

要使用PySpark處理常見爬網WARC文件，請參閱cc-pyspark。

2017-09-11 09:58:17

回答