2013-05-02 550 views
2

我試圖比較兩個簡歷。我有一個標準,如果某些領域匹配它是重複的。您可能知道,簡歷樣式不同。我如何理解名稱字段是名稱字段,因此我可以將其存儲在某個地方,並將其與另一個簡歷中的相同字段進行比較?使用自然語言處理解析.Net框架中的解析

截至目前,我已經使用了Interop方法,並且我正在獲取字符串中的所有文檔內容。從字符串我分裂所有的\ t,\ r和空格,並獲得一個數組。從數組,我怎麼能得到我自己的標準的XML格式如下圖所示:

XML格式:

<CANDIDATE_FULL_NAME>CandidateName here</CANDIDATE_FULL_NAME> 
<CANDIDATE_FIRST_NAME>CandidateFirstName here</CANDIDATE_FIRST_NAME> 
<CANDIDATE_LAST_NAME>CandidateLastName here</CANDIDATE_LAST_NAME> 
<PRIMARY_EMAI`enter code here`L_ID>[email protected]</PRIMARY_EMAIL_ID> 
<PHONE_BASIC>+919720018454155</PHONE_`enter code here`BASIC> 
<DOB>8/2/1987</DOB> 
<STREET1></STREET1> 
<STREET2></STREET2> 
<CITY></CITY> 
<REGION></REGION> 
<COUNTRY></COUNTRY> 
<PIN></PIN> 

審查我的問題後,很明顯,我認爲我不知道我在做什麼並且我們將非常感謝一個起點。

回答

0

Ganesh, 我建議建立自己的邏輯。 以下是您可以使用的內容。

  1. 獲取所有簡歷分爲字段。
  2. 然後你可以給每個領域的體重年齡。

     
    Email - 80 
    Phone - 80 
    Name - 20 
    Highest Education - 20 
    Home city - 20 
    Last companies worked - 20 
    DOB - 30 
    and others 
    
  3. 然後添加數字,看他們的總數是80或以上。
  4. 如果不止於此,那麼你可以說它的同一個簡歷。
  5. 但如果沒有,那麼你知道什麼。
  6. 挑戰是多少領域,以及你如何分裂他們。我建議使用一些簡歷解析器並建立邏輯。