我想解析從常見爬網下載的warc.gz文件。我有一個要求,我必須手動解析新聞warc.gz文件。兩個記錄之間的分隔符是什麼?warc.gz文件的兩個記錄之間的分隔符
0
A
回答
0
我不認爲你可以手動解析gzip文件。您最好的選擇是使用the index找出每條記錄的偏移量和長度。有關更多信息,請參見api documentation和the guides。
如果您手動解析WARC文件,請首先解壓縮.gz文件。
WARC records are separated by two newlines:
一個WARC格式的文件是一個或多個WARC 記錄的簡單拼接。一條記錄由一條記錄標題和一條記錄 內容塊和兩條換行符組成。 (換行符是其他 Internet標準的CRLF。)
0
WARC文件中沒有明確的記錄分隔符。記錄始終以'\ r \ n \ r \ n'結尾,但這也用於將記錄標頭與記錄正文分開,並可能發生在HTML文檔中的任何位置。 WARC記錄的長度由記錄標題中的Content-Length
定義。
要使用PySpark處理常見爬網WARC文件,請參閱cc-pyspark。
相關問題
- 1. 替換|字符之間的記錄與管道分隔文件中的值
- 2. 反覆提取文本文件兩個分隔符之間的線,巨蟒
- 3. 分隔符之間的Grep?
- 4. 使用Mercurial記錄兩個文件之間的代碼轉換
- 5. 使用Perl,如何從兩個可能的記錄分隔符的文件中讀取記錄?
- 6. 在兩個分隔符之間提取數據的DB2查詢
- 7. 如何提取Perl中兩個行分隔符之間的行?
- 8. 提取兩個分隔符之間的數據
- 9. 從SQL導出帶分隔符的文本文件,每個記錄有第二個分隔符
- 10. 如何更改文本文件中的記錄分隔符?
- 11. 刪除變量和分隔符之間的字符在文件
- 12. 分隔符和csv文件中的值之間的空格
- 13. fgets和sscanf記錄從帶有分隔符的文件
- 14. xsd中的文件記錄分隔符驗證
- 15. 如何在包含空行的兩個分隔符之間剝離文本?
- 16. Python:兩個字符之間的分割
- 17. 以分隔符分隔的列中拆分記錄
- 18. PHP preg_replace在2個分隔符之間
- 19. 如何獲得兩個字符串之間用短語分隔?
- 20. 如何獲得兩個分隔符巨蟒之間串
- 21. 如何在兩個數字之間設置分隔符,而無需在Python中的同一行上設置兩個單詞之間的分隔符?
- 22. 兩個日期之間的所有日期,間隔30分鐘
- 23. 在Git中的分支之間沒有記錄的文件
- 24. MySql查詢兩個日期時間範圍之間的每個時間間隔的記錄
- 25. 網格列之間的分隔符
- 26. WPF。 GridViewColumnHeaders之間的分隔符
- 27. 拆分使用兩個分隔符之一,但保留分隔符
- 28. 正則表達式在分隔符之間查找兩個以上的字符
- 29. 在兩個分隔符之間提取字符串的最可靠方法
- 30. 計算按月分隔的兩個日期之間的天數
即使我解壓縮.gz文件,我沒有辦法分別獲取每個記錄。有沒有辦法? –
正如我剛剛提到的,*每個記錄由兩條換行符*分隔。如果你需要更多的幫助,那麼我需要更多關於你想要做什麼的信息。爲什麼你必須手動進行? –
謝謝。我必須創建該文件的rdd。 spark中的默認分隔符是不是warc所具有的。因此,我得到了比文件更多的記錄數。 –