我試圖搜索印地文字包含文件1中的每個文件一行,並在文件2中的行中找到它們。我必須用找到的單詞數量打印行數。 這是代碼:Python unicode搜索沒有給出正確的答案
import codecs
hypernyms = codecs.open("hindi_hypernym.txt", "r", "utf-8").readlines()
words = codecs.open("hypernyms_en2hi.txt", "r", "utf-8").readlines()
count_arr = []
for counter, line in enumerate(hypernyms):
count_arr.append(0)
for word in words:
if line.find(word) >=0:
count_arr[counter] +=1
for iterator, count in enumerate(count_arr):
if count>0:
print iterator, ' ', count
這是找到了一些話,而忽視其他一些 輸入文件是: 文件-1:
पौधा
वनस्पति
文件-2:
वनस्पति, पेड़-पौधा
वस्तु-भाग, वस्तु-अंग, वस्तु_भाग, वस्तु_अंग
पादप_समूह, पेड़-पौधे, वनस्पति_समूह
पेड़-पौधा
這給出了輸出:
0 1
3 1
顯然,它忽略了वनस्पति並僅搜索了पौधा。我也嘗試過其他輸入。它只搜索一個詞。任何想法如何糾正?
感謝。這是問題所在。我對Python非常陌生。 – rarora7777 2012-04-07 12:37:04