語言本身並不重要,但我想我會堅持使用Javascript。Javascript - 最有效的方式來搜索數以千計的單詞的文字?
本質上,我每個月都有成千上萬的「評論」,並且希望通過自動化獲得一份天真的快樂「評估」,並在這些評論中搜索10,000個單詞(每個評論的平均單詞數爲21個單詞,遠)。
公式的工作方式(從Hedonometer借用) - 將文本中每個單詞的「幸福」得分(如果在10k列表中找到)取平均值。
我會測試一些東西,也許編輯回來的結果在這裏,但我甚至不知道從哪裏開始。似乎是非常繁重的數據提取(雖然只需要按照課程評論進行一次) - 也許它更適合於R或SQL(可能不適用),但不確定。
我相信這個問題有時候被稱爲'詞袋'或'詞頻飽和度'。
「最有效的」依賴於一堆因素.... – epascarello
呀做一些閱讀和教訓有很多複雜的快速字符串搜索方法上地獄。嗯。也許我會在維基百科的一些簡單的方法,看看處理時間是否可以接受。 – user45867