2016-04-15 46 views
-6

我已經分配了一個任務以從原始質譜分光光度法數據(file.mzML)處理的文件中檢索信息。 這些文件只有「.data」作爲擴展名,當我打開它們時,我無法識別該語言,因此無法將它們加載到R中並處理它們。這個文件寫的是什麼語言?

用。數據擴展名的文件包含在此文件夾中:

ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2015/11/PXD000299/ 

有人能看一看任何files.data的,告訴我的語言是(例如F010439)?

非常感謝!

編輯:這些就是一些片段

線1〜10

MIME-Version: 1.0 (Generated by Mascot version 1.0) 
Content-Type: multipart/mixed; boundary=gc0p4Jq0M2Yt08jU534c0p 

--gc0p4Jq0M2Yt08jU534c0p 
Content-Type: application/x-Mascot; name="parameters" 

LICENSE=Licensed to: INRA Tours, P-F Proteomique Analytique & Fonction.,Nouzilly (0085-0000003524/1), (2 processors). 
MP= 
NM= 
COM= 

線120至130

NeutralLoss3_master=63.998285 
--gc0p4Jq0M2Yt08jU534c0p 
Content-Type: application/x-Mascot; name="unimod" 

<?xml version="1.0" encoding="UTF-8" ?> 
<umod:unimod xmlns:umod="http://www.unimod.org/xmlns/schema/unimod_2" majorVersion="2" minorVersion="0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.unimod.org/xmlns/schema/unimod_2 unimod_2.xsd"> 
    <umod:elements> 
    <umod:elem avge_mass="1.00794" full_name="Hydrogen" mono_mass="1.007825035" title="H"/> 
    <umod:elem avge_mass="2.014101779" full_name="Deuterium" mono_mass="2.014101779" title="2H"/> 
    <umod:elem avge_mass="6.941" full_name="Lithium" mono_mass="7.016003" title="Li"/> 
    <umod:elem avge_mass="12.0107" full_name="Carbon" mono_mass="12" title="C"/> 
+0

文件可以用任何語言編寫。你不能通過其他任何東西寫出一個由Java程序編寫的文本文件。 ASCII和Unicode字符串是您的解決方案。 – duffymo

+0

招數問題:這些文件是二進制文件嗎? (答案:所有的文件都是二進制文件,客戶使用他們的特定鏡頭從他們那裏提取信息。) – duffymo

回答

1

它看起來像該文件是MIME編碼的「多部分「包含(至少)兩個組件文件的文件。

您可以使用MIME解碼器對多部分進行解碼。

第一組分文件看起來像一個簡單的「名稱=值」屬性文件

第二組件文件是XML。


我不知道這是否是相關的,但對於Mascot file format搜索給了我這個參考頁:

此外,也有一些有趣的點擊,當我搜索parser "x-mascot"parser mascot。如果您可以找到現有的解析器,那麼您可以節省自己的實施工作量。

+1

這也可能是有趣的:http://www.matrixscience.com/msparser.html – corinna