我正在尋找一種方式來經過一個句子,看看是否撇號是報價或收縮,所以我可以從字符串中刪除標點,然後規範所有單詞。搞清楚,如果一個單引號是報價或收縮
我的測試一句話是:don't frazzel the horses. 'she said wow'.
在我的努力我已經分裂句成詞的部分tokonizing上字和非詞,像這樣:
contractionEndings = ["d", "l", "ll", "m", "re", "s", "t", "ve"]
sentence = "don't frazzel the horses. 'she said wow'.".split(/(\w+)|(\W+)/i).reject! { |word| word.empty? }
這將返回["don", "'", "t", " ", "frazzel", " ", "the", " ", "horses", ". '", "she", " ", "said", " ", "wow", "'."]
下一頁我希望能夠遍歷句子尋找撇號'
,當找到一個時,比較下一個元素,看它是否包含在contractionEndings
數組中。如果包含我想加入前綴,撇號'
,並將後綴加入一個索引,否則刪除撇號。
在這個例子中,don
,'
,和t
將被連接成don't
作爲一個單一的索引,但. '
和'.
將被移除。
之後,我可以運行一個正則表達式從句子刪除其他標點符號,這樣我可以將它傳遞到我的詞幹正常化輸入。
最終輸出我後don't frazzel the horses she said wow
中,所有的標點將除了撇號宮縮被刪除。
如果任何人有任何建議,使這項工作或者有關於如何解決這個問題,我想知道一個更好的主意。
總的來說,我想從句子中刪除所有的標點,除了收縮。
謝謝
什麼導致你想到最後? – Ilya
@Ilya'不frazzel她說wow' –
爲什麼要急於選擇一個答案?爲什麼不等待至少UNT馬那些處理答案的人有機會發布? –