text-normalization

0熱度

1回答

有什麼辦法在Javascript中將字符串轉換爲normal form C？我知道node.js中的unorm，但我對瀏覽器中的JS感興趣，所以合理的標準瀏覽器API都可以。

45熱度

2回答

我需要比較2個字符串作爲等於諸如這些：呂貝克==呂貝克在JavaScript。爲什麼？好吧，我有一個使用Lucene的，其中地名自然存儲（如呂貝克）走出去Java服務自動完成場，而且還建立索引標準化文本， import sun.text.Normalizer; oDoc.setNameLC = Normalizer.normalize(oLocName, Normalizer.DECOMP

0熱度

1回答

字符集比較

我需要緊急幫助。我無法比較charset字符串。寫入數據庫table1的字符串是utf-8 charset，但看起來仍然很奇怪：SADI 但是，寫入到同一個數據庫中的table2的字符串是SADI，這是正常的。每當我比較兩者時，它會給出錯誤。任何想法如何進行比較？（實際上比較應該會給出真實結果）任何想法如何將SADI作爲SADI插入數據庫。要麼希望是一個解決方案。

1熱度

2回答

正常化來自異常換行符的文本文件？

我有幾個文本文件，有很多文本之間的換行，我想正常化，但沒有模式例如達到文本之間的新行： Text Some text More text More more 所以我想改變其中換行的數量大於X到Y，所以我們可以說，當有5個連續的換行符時，它變成了2，10它變成了3. 我目前的問題是我不知道應該如何去確定哪條線將不得不正常化。我知道我可以指望採用分體式的

3熱度

2回答

如何從StringScanner捕獲項目？

我正在使用Ruby的StringScanner來標準化一些英文文本。 def normalize text s = '' ss = StringScanner.new text while ! ss.eos? do s += ' ' if ss.scan(/\s+/) # mutiple whitespace => single space

1熱度

1回答

Neo4j Cypher中的字符串規範化 - 如何？

問題背景：漢字是由單詞本身組成的字。我有一個代表中國字3個節點每一個與屬性字具有字符串值：節點（1）：「一」節點（2）：「b」的節點（3）：「AB」問題1：從節點（3）開始使用Cypher，如何找到構成節點（3）的字符串的節點（1）和（2）？如果會有另一個節點（4）：「dabc」，我將如何查找長度不是圖的一部分的所有單詞（「d」和「c」沒有節點）？我知道我可以明確地建立這些節點之