text-normalization

    0熱度

    1回答

    有什麼辦法在Javascript中將字符串轉換爲normal form C?我知道node.js中的unorm,但我對瀏覽器中的JS感興趣,所以合理的標準瀏覽器API都可以。

    45熱度

    2回答

    我需要比較2個字符串作爲等於諸如這些: 呂貝克==呂貝克 在JavaScript。 爲什麼?好吧,我有一個使用Lucene的,其中地名自然存儲(如呂貝克)走出去Java服務自動完成場,而且還建立索引標準化文本, import sun.text.Normalizer; oDoc.setNameLC = Normalizer.normalize(oLocName, Normalizer.DECOMP

    0熱度

    1回答

    我需要緊急幫助。我無法比較charset字符串。寫入數據庫table1的字符串是utf-8 charset,但看起來仍然很奇怪:SADI 但是,寫入到同一個數據庫中的table2的字符串是SADI,這是正常的。每當我比較兩者時,它會給出錯誤。 任何想法如何進行比較? (實際上比較應該會給出真實結果) 任何想法如何將SADI作爲SADI插入數據庫。 要麼希望是一個解決方案。

    1熱度

    2回答

    我有幾個文本文件,有很多文本之間的換行,我想正常化,但沒有模式例如達到文本之間的新行: Text Some text More text More more 所以我想改變其中換行的數量大於X到Y,所以我們可以說,當有5個連續的換行符時,它變成了2,10它變成了3. 我目前的問題是我不知道應該如何去確定哪條線將不得不正常化。 我知道我可以指望採用分體式的

    3熱度

    2回答

    我正在使用Ruby的StringScanner來標準化一些英文文本。 def normalize text s = '' ss = StringScanner.new text while ! ss.eos? do s += ' ' if ss.scan(/\s+/) # mutiple whitespace => single space

    1熱度

    1回答

    問題背景:漢字是由單詞本身組成的字。我有一個代表中國字3個節點每一個與屬性字具有字符串值: 節點(1): 「一」 節點(2): 「b」 的 節點(3): 「AB」 問題1:從節點(3)開始使用Cypher,如何找到構成節點(3)的字符串的節點(1)和(2)?如果會有另一個節點(4):「dabc」,我將如何查找長度不是圖的一部分的所有單詞(「d」和「c」沒有節點)? 我知道我可以明確地建立這些節點之