2016-12-28 51 views
0

這是我在stackoverflow上的第一篇文章。我最近加入了Coursera的數據科學課程。作爲Coursera的一名學生,我必須標記幾個包含降價問題的作業。該任務要求每個人創建一個文本文件,這個文件可以在GitHub上的回購站中查看。該文件必須被格式化爲次標題(##),其具有以下內容'這是一個降價文件'。在大多數人的文件中,以下內容顯示爲'2行,27個字節'。GitHub - 文本文件中的Markdown語言 - 行數

但是,在2個分配中,我看到以下內容:'1行,n個字節'(n是各種字節)。我知道字節發生了變化,因爲不是每個人都把'這是一個降價文件' - 有人省略了'a'等。但是,爲什麼線的數量會改變?我檢查了原始數據文件,它們都包含相同的內容。我對數據科學領域(舊學校統計學背景)相當陌生,所以如果這是一個簡單的答案,那麼請道歉。

+0

你能分享一個鏈接到GitHub上的這樣的文件嗎? – Mureinik

+0

它可能是行結束,請嘗試'dos2unix'。也嘗試從頭開始再次製作文件。 –

+0

@mureinik 嗨Mureinik,我只能提供我自己的Github鏈接,告訴你我的意思。這是[github鏈接](https://github.com/Louis-York/datasciencecoursera/blob/master/HelloWorld.md)。在這個頁面上你可以看到我的file.md有兩行。這是我在每個人的頁面上看到的,除了2個人,它顯示了一行文件。 –

回答

0

這幾乎肯定與行結尾有關。

大多數人可能會在第一行末尾包含一行。因此該文件包含第二個空白行。一些用戶沒有添加行尾(使用[enter][return]鍵)。因此,他們的文件包含一行。

一般認爲包含一行結束於純文本文件最後一行末尾的行是一種很好的形式。事實上,許多文本編輯器會自動爲您添加一個,這可能是大多數文件包含兩行的原因。也就是說,任何體面的Markdown解析器都應該能夠正確解析缺少最後一行結尾的Markdown文件。

至於文件大小的差異(當沒有拼寫錯誤時),這也可能是由於行尾。在Windows(DOS)上,系統默認使用兩個(隱藏)字符來表示行尾(通常表示爲\r\n)。而所有其他系統(Mac OS,Linux,Unix等)僅使用單個字符(\n)。同樣,任何體面的Markdown解析器都應該能夠處理。但是,每個字符都會給出不同的字符數,因此會有不同的文件大小。

+0

非常感謝Waylan,這很有道理。 –