我正在編寫一個程序,該程序讀入大量文件,然後對其中的項進行索引。我能夠將這些文件讀入Python中的二維數組(列表),但是隨後我需要刪除第一列中的重複項,並將索引存儲在新列中,首次出現重複單詞。減少Python列表中的重複項列表
例如:
['when', 1]
['yes', 1]
['', 1]
['greg', 1]
['17', 1]
['when',2]
的第一列是項,第二個是的DocID它從 來到我希望能夠把這裏改爲:
['when', 1, 2]
['yes', 1]
['', 1]
['greg', 1]
['17', 1]
移除重複。
這是我到目前爲止有:
for j in range(0,len(index)):
for r in range(1,len(index)):
if index[j][0] == index[r][0]:
index[j].append(index[r][1])
index.remove(index[r])
我不斷收到一個超出範圍的錯誤在
if index[j][0] == index[r][0]:
,我認爲這是因爲我從索引中移除對象所以它變得越來越小。任何想法將不勝感激 (是的,我知道我不應該修改原來的,但是這僅僅是測試它在小範圍內)