2013-02-21 38 views
0

我有一個500 000行(不同俱樂部成員的地址)的TAB格式文本文件(使用空格替代TAB,以便所有列都在)。刪除行(從相同的22個charcaters開始)TAB文本文件

有些行幾乎相同(只有一列不同 - 一個人可以在2個俱樂部成員)。我不關心哪個重複行被刪除,因爲家庭地址是相同的,但我需要刪除其中的一個。

我可以找到重複的EXCEL(TEXT-TO-CELL和刪除它們。但隨後失去與colums文字圖案,因爲格式不TAB OCH CSV格式。

如何編寫和使用在NOTEPAD ++或TEXTPAD正則表達式

回答

0

我的解決辦法:

  1. 打開文本文件在EXCEL,將其轉換成使用「固定寬度」列和加入一些新的列
  2. 使用EXCEL來重複。在一個文件夾並刪除這些行
  3. 將文件導出爲「CSV(逗號分隔不同)」(不是「CSV窗口」,因爲無法在此導出中保存瑞典字符爲「åäö」)。
  4. 下載ULTRA EDIT
  5. 用於「CSV到固定的寬度」的自由測試版本,並給每列其寬度
  6. 除去「;」從每列

完成!