2017-06-27 61 views
-1

我有一個獨特的問題,我不知道任何算法可以幫助我。也許有人在這裏。用文本數據確定規範類

我有一個從許多不同來源(團隊)編譯的數據集。一個領域特別被稱爲「類型」。下面是一些類型示例值:

APLE,蘋果,APPLS,ornge,水果,橘,橙Z,梨, 菜花,colifower,brocli,西蘭花,韭菜,蔬菜,蔬菜。

我希望能夠做的是將它們組合成例如水果,蔬菜等

換句話說,我有一個父級變量(水果或蔬菜在這個例子中)各種排列的多個拼寫,我需要能夠盡我所能地將它們分組。

數據的唯一其他潛在相關特徵是進入它的團隊,假設每個團隊輸入數據的方式保持一致。

所以,我有幾百萬記錄的多個拼寫和短拼寫(例如蘋果,蘋果),我想以某種方式將它們組合在一起。在這個例子中,水果和蔬菜。

聚類會很具挑戰性,因爲每個條目通常是1或2個單詞,這使計算術語之間的距離變得非常棘手。

創建一個由人類創建的大量查找表(不太可能具有數百萬行),有什麼辦法可以解決這個問題嗎?

+5

這還不是一個統計任務。你必須爲每個單詞詞彙化(恢復詞彙表)。但是,如果許多單詞是一些不規則的,雜亂的縮寫,那麼即使是詞彙化/干擾軟件也無濟於事。我相信實際上最簡單的方法是查看數百萬字的列表,並首先將其轉換爲完整格式。一些可以預先自動執行的重新編碼,通過預測最典型的拼寫錯誤,例如ornge - > orange。像MS Word和一些互聯網網站這樣的程序有助於在檢查拼寫時快速修復拼寫錯誤。 – ttnphns

+0

Hi @ttnphns,假設我這樣做了,並且完全拼寫了數據(希望有一個魔術庫在那裏),那麼我該怎麼做? 「引理」對我來說是一個新詞。我的目標是將這些詞彙推理出來嗎?你知道有任何r軟件包嗎?感謝迄今的信息 –

+0

你有什麼信息可以讓你把它們聚集在一起?每個條目是否都有關於對象的綠色或飄渺的額外信息? 「韭菜」或「蘋果」對計算機來說僅僅是一個沒有意義的字符串 - 沒有額外的信息,無論是從數據集還是外部來源,計算機都不能使用它來將它們分類爲「水果」或「蔬菜」 - 即使人類無法做到這一點,我們也會使用外部信息(「韭蔥」和「蘋果」所代表的字符串以及代表對象的屬性,如綠色或味道)。 – Chill2Macht

回答

1

您需要首先解決拼寫問題,除非您有Google縮放數據,可以讓您學習使用Google縮放統計信息修復拼寫。

然後你仍然會遇到「Apple」可能是水果或電腦的問題。蘋果和「奶奶史密斯」將完全不同。你最好猜測在這個第二階段是像word2vec 海量數據訓練。然後你可以得到高維度的單詞向量,並且最終可以嘗試解決聚類挑戰,如果你能得到滿意的結果,那麼你就可以得到這麼好的結果。祝你好運。