如何檢測文件是PDF還是TIFF？

請在我不知道所有背景的情況下把我帶入這個項目的中間。如果你有WTF問題，請相信我，我也有。如何檢測文件是PDF還是TIFF？

這裏是場景：我有一堆文件駐留在IIS服務器上。他們沒有文件擴展名。只是裸體文件的名稱，如「asda-2342-sd3rs-asd24-ut57」等。沒有直觀的。

問題是我需要在ASP.NET（2.0）頁面上提供文件並將tiff文件顯示爲tiff，將PDF文件顯示爲PDF。不幸的是，我不知道哪些是我需要能夠以各自的格式適當地顯示它們。

例如，假設我需要顯示2個文件，一個是tiff，另一個是PDF。該頁面應該顯示一個tiff圖像，並且可能會出現一個鏈接，它會在新的選項卡/窗口中打開PDF。

問題：

由於這些文件都是無擴展名的，我不得不強制IIS只提供一切了爲TIFF。但如果我這樣做，PDF文件將不會顯示。我可以更改IIS以強制MIME類型爲未知文件擴展名的PDF，但我會遇到相反的問題。

http://support.microsoft.com/kb/326965

這方面的問題更容易比我想還是因爲討厭，因爲我期待？

來源

2010-04-28 eviljack

OK，足夠多的人收到此錯誤，我要去發佈一些代碼，我有識別TIFF格式：

private const int kTiffTagLength = 12; 
private const int kHeaderSize = 2; 
private const int kMinimumTiffSize = 8; 
private const byte kIntelMark = 0x49; 
private const byte kMotorolaMark = 0x4d; 
private const ushort kTiffMagicNumber = 42; 


private bool IsTiff(Stream stm) 
{ 
    stm.Seek(0); 
    if (stm.Length < kMinimumTiffSize) 
     return false; 
    byte[] header = new byte[kHeaderSize]; 

    stm.Read(header, 0, header.Length); 

    if (header[0] != header[1] || (header[0] != kIntelMark && header[0] != kMotorolaMark)) 
     return false; 
    bool isIntel = header[0] == kIntelMark; 

    ushort magicNumber = ReadShort(stm, isIntel); 
    if (magicNumber != kTiffMagicNumber) 
     return false; 
    return true; 
} 

private ushort ReadShort(Stream stm, bool isIntel) 
{ 
    byte[] b = new byte[2]; 
    _stm.Read(b, 0, b.Length); 
    return ToShort(_isIntel, b[0], b[1]); 
} 

private static ushort ToShort(bool isIntel, byte b0, byte b1) 
{ 
    if (isIntel) 
    { 
     return (ushort)(((int)b1 << 8) | (int)b0); 
    } 
    else 
    { 
     return (ushort)(((int)b0 << 8) | (int)b1); 
    } 
}

我砍死除了一些更加通用的代碼來獲得這個。

對於PDF，我有一些代碼，看起來像這樣：

public bool IsPdf(Stream stm) 
{ 
    stm.Seek(0, SeekOrigin.Begin); 
    PdfToken token; 
    while ((token = GetToken(stm)) != null) 
    { 
     if (token.TokenType == MLPdfTokenType.Comment) 
     { 
      if (token.Text.StartsWith("%PDF-1.")) 
       return true; 
     } 
     if (stm.Position > 1024) 
      break; 
    } 
    return false; 
}

現在，爲gettoken（）是調用成一個標記化流成PDF令牌的掃描儀。這是不平凡的，所以我不會在這裏粘貼它。我使用的分詞器，而不是看着子，以避免這樣的問題：

% the following is a PostScript file, NOT a PDF file 
% you'll note that in our previous version, it started with %PDF-1.3, 
% incorrectly marking it as a PDF 
% 
clippath stroke showpage

這段代碼被標記爲不可通過一個上面的代碼片斷PDF，而代碼更簡單的塊會錯誤地標記它作爲PDF。

我還應該指出，目前的ISO規範沒有包含以前Adobe擁有的規範中的實現註釋。從PDF參考1.6版最重要的是：

Acrobat viewers require only that the header appear somewhere within 
the first 1024 bytes of the file.

來源

2010-04-28 18:20:35 plinth

謝謝！我今晚會檢查一下 – eviljack 2010-04-28 19:59:07

真棒，它的工作原理！ – eviljack 2010-04-28 20:11:19

stm.Seek（0）;我失敗了，沒有編譯。我使用vs 2008，.net 3.5。 – Kiquenet 2010-07-21 20:43:55

如果你去here，你會看到TIFF通常以「幻數」0x49 0x49 0x2A 0x00（也給出其他一些定義）開始，這是文件的前4個字節。

所以只需使用這些前4個字節來確定文件是否是TIFF。

編輯，它可能更好地做到另一種方式，並首先檢測PDF。 PDF的神奇數字更加標準化：正如Plinth指出的那樣，它們在前1024個字節（0x25 0x50 0x44 0x46）的某個地方以「％PDF」開頭。 source

來源

2010-04-28 17:55:03

這個神奇的數字取決於little/big endian。 – Andrey 2010-04-28 17:56:13

這很接近，但錯了。 TIFF以兩個簽名之一開始，即0x49 0x49 0x2a 0x00或0x4d 0x4d 0x00 0x2a。 – plinth 2010-04-28 17:57:07

您的PDF檢查也是錯誤的。％PDF只需要出現在前1024個字節中。 – plinth 2010-04-28 18:29:21

TIFF可以通過在第一字節偷看http://local.wasp.uwa.edu.au/~pbourke/dataformats/tiff/

的前8個字節形成首部被檢測。前兩個字節爲「II」，用於小端字節排序或「MM」用於大端字節排序。

關於PDF：http://www.adobe.com/devnet/livecycle/articles/lc_pdf_overview_format.pdf

頭只包含一個行標識PDF版本。示例：％PDF-1.6

來源

2010-04-28 17:55:42 Andrey

來自Adobe的文檔並不完全確切的說明。％PDF-1.x，其中x是一個數字，可能出現在文件的前1K內的任何位置。 – plinth 2010-04-28 17:59:04

好吧，這裏是最完整的規範http://www.adobe.com/devnet/acrobat/pdfs/pdf_reference_1-7.pdf它是> 30 Mb – Andrey 2010-04-28 18:03:41

在內部，文件頭信息應該有所幫助。如果您打開低級別文件（例如StreamReader（）或FOPEN（）），請查看文件中的前兩個字符......幾乎每種文件類型都有自己的簽名。

PDF always starts with "%P" (but more specifically would have like %PDF) 
TIFF appears to start with "II" 
Bitmap files with "BM" 
Executable files with "MZ"

我已經在過去也處理這......也有助於防止不必要的文件被上傳到指定的網站，它一次檢查中止立即。

編輯 - 發佈示例代碼讀取和測試文件頭類型

String fn = "Example.pdf"; 

StreamReader sr = new StreamReader(fn); 
char[] buf = new char[5]; 
sr.Read(buf, 0, 4); 
sr.Close(); 
String Hdr = buf[0].ToString() 
    + buf[1].ToString() 
    + buf[2].ToString() 
    + buf[3].ToString() 
    + buf[4].ToString(); 

String WhatType; 
if (Hdr.StartsWith("%PDF")) 
    WhatType = "PDF"; 
else if (Hdr.StartsWith("MZ")) 
    WhatType = "EXE or DLL"; 
else if (Hdr.StartsWith("BM")) 
    WhatType = "BMP"; 
else if (Hdr.StartsWith("?_")) 
    WhatType = "HLP (help file)"; 
else if (Hdr.StartsWith("\0\0\1")) 
    WhatType = "Icon (.ico)"; 
else if (Hdr.StartsWith("\0\0\2")) 
    WhatType = "Cursor (.cur)"; 
else 
    WhatType = "Unknown";

來源

2010-04-28 17:58:07 DRapp

mr.DRapp，任何示例代碼?? – Kiquenet 2010-07-22 16:30:20

@alhambraeidos - 我通過C＃發佈了更新後的代碼示例 – DRapp 2010-07-22 17:46:00

不應該在答案的關鍵部分寫作「似乎開始於」！根據規範，TIFF文件以2個字節的ASCII「II」或「MM」開頭，後面跟着（II）英特爾小端或2個字節（MM）摩托羅拉大端字節順序，形成整數42. – Spike0xff 2014-03-21 20:24:57

你將不得不編寫一個ASHX獲得請求的文件。

然後，您的處理程序應該讀取前幾個字節（或左右）以確定文件類型的真實含義--PDF和TIFF在文件的開頭有「magic numers」，您可以使用它來確定該文件的類型，然後相應地設置您的響應標題。

來源

2010-04-28 17:58:46

一個文件簽名又名「幻數」由加里·凱斯勒的非常有用的列表，請http://www.garykessler.net/library/file_sigs.html

來源

2010-04-28 18:05:38 Shaji

A很棒的鏈接 - 謝謝！ – 2011-08-25 00:58:51

閱讀說明書每種文件格式會告訴你如何識別這種格式的文件。

TIFF文件 - 檢查字節1和2的0x4D4D或0x4949 和字節2-3的值爲'42'。

第13頁的規格的讀取：

的TIFF文件的開頭是一個8字節的圖像文件頭，包含以下信息：字節0-1：文件內使用的字節順序。法律的值爲：「II」（4949.H）「MM」（4D4D.H）在「II」格式中，字節的順序總是從最少的有效字節到最有效的字節，對於16位位和 32位整數這稱爲小端字節順序。在「MM」格式中，對於這兩種16位和32位整數，字節順序總是從大多數重要到最不重要。這個被稱爲big-endian字節順序。字節 2-3任意但仔細選擇的數字（42），其進一步將該文件標識爲TIFF文件。字節的順序取決於字節 0-1的值。

PDF文件以PDF版本開頭，接着是幾個二進制字節。（我想你現在必須購買ISO規格爲最新版本。）

第7.5.2節

PDF文件的第一行應頭由5個字符％ PDF格式，後面跟着格式爲1.N的版本，其中N是0到7之間的一個數字。符合的閱讀器應接受具有以下標題中的任何一個的文件：％PDF-1.0, ％PDF- 1.1，％PDF-1.2，％PDF-1.3，％PDF-1.4，％PDF-1.5，％PDF-1.6，％PDF-1.7開頭與PDF 1。4，文檔的目錄字典中的版本條目（位於，通過文件的預告片中的根條目，如7.5.5「文件預告片」中所述）應使用而不是指定的版本在的標題。

如果PDF文件中包含的二進制數據，如大多數人（見7.2節「詞彙約定」），標題行應緊跟含有至少四個二進制評論行的字符 - 即，其代碼爲128或更大的字符。這確保文件傳輸的正確行爲檢查數據附近的數據的應用程序確定是否將文件的內容作爲文本或二進制文件處理。

當然，您可以通過檢查更多的文件特定項目來對每個文件進行「更深入」的檢查。

來源

2010-04-28 18:08:00

任何示例代碼，roygbiv？ – Kiquenet 2010-07-21 21:05:01

可以使用Myrmec識別文件類型，使用這個庫文件字節頭。這個庫可用於nuget「Myrmec」，這是回購，myrmec也支持MIME類型，你可以試試它。該代碼將是這樣的：

// create a sniffer instance. 
Sniffer sniffer = new Sniffer(); 

// populate with mata data. 
sniffer.Populate(FileTypes.CommonFileTypes); 

// get file head byte, may be 20 bytes enough. 
byte[] fileHead = ReadFileHead(); 

// start match. 
List<string> results = sniffer.Match(fileHead);

並獲得mime類型：

List<string> result = sniffer.Match(head);

串mime類型= MimeTypes.GetMimeType（result.First（））;

但支持蒂芙只有「49 49 2A 00」和「4D 4D 00 2A」兩個簽名，如果你有更多的你可以添加你的自我，可能你可以看到myrmec的自述文件尋求幫助。 myrmec github repo

來源

2018-02-14 01:20:23 RocketRobin

如何檢測文件是PDF還是TIFF？

回答

相關問題