2017-05-31 72 views
4

在傳統的「單熱」表示的單詞作爲載體,你有一個與你的詞彙的基數相同的維度向量。爲了降低維度,通常停用詞將被刪除,以及應用詞幹,引理等來標準化你想要執行一些NLP任務的功能。如何預處理嵌入文本?

我無法理解是否/如何預處理要嵌入的文本(例如word2vec)。我的目標是將這些詞嵌入用作NN的特徵,以將文本分類爲主題A而不是主題A,然後在主題A的文檔(使用第二個NN)上對它們執行事件提取。

我的第一本能是預處理,刪除停用詞,詞彙化詞幹等。但是當我學習NN時,我意識到應用於自然語言,CBOW和skip-gram模型實際上需要整套詞要存在 - 爲了能夠預測來自上下文的單詞,需要知道實際的上下文,而不是歸一化之後的上下文的簡化形式......對嗎?)。實際的POS標籤序列似乎是人類預測單詞的關鍵。

我發現some guidance online但我仍然很想知道社區在這裏認爲:

  1. 關於是否有任何近期普遍接受的最佳實踐標點符號,詞幹,lemmatizing,停用詞,數字,小寫等?
  2. 如果是這樣,它們是什麼?一般來說,處理越少越好,或者更重要的是要規範文本?是否有權衡?

我的想法:

這是更好地去除標點符號(如,但西班牙不刪除口音,因爲做傳達相關信息),更改的書面號碼數字,不要小寫的一切(有用爲實體提取),沒有詞幹,沒有引文。

聽起來不錯?

回答

2

這麼多問題。所有這些答案都可能是「依賴」。它需要被視爲您正在嘗試預測的課程以及您擁有的文檔種類。嘗試預測作者身份(那麼你肯定需要保留所有類型的標點符號和情況,以便測試可行),而不是情感分析(你可以擺脫幾乎所有東西,但必須特別注意否定等事情) 。

1

我會說應用相同的預處理兩端。表面形式是你的鏈接,所以你不能以不同的方式進行標準化。我同意Joseph Valls的觀點,但我的印象是大多數嵌入都是以通用而非特定的方式進行訓練的。我的意思是,Google新聞嵌入在各種不同的任務中表現相當好,我不認爲他們有一些奇特的預處理。獲取足夠的數據往往更重要。所有說的 - 它仍然取決於:-)

2

我一直在這個問題上自己一段時間的工作。我完全同意其他答案,它確實取決於你的問題,你必須將你的輸入與你期望的輸出相匹配。 我發現,對於某些特定的任務,如情感分析,可以通過預處理去除很多細微差別,但例如,對於文本生成來說,保持一切是非常重要的。

我目前正在生成拉丁文本,因此我需要在數據中保留相當多的結構。

我發現了一篇非常有趣的論文,對該主題進行了一些分析,但它只涵蓋了一個小區域。但是,它可能給你一些提示:

在文本預處理的神經網絡結構中的作用:評價研究由何塞·卡馬喬,Collados和穆罕默德·塔希爾Pilehvar

https://arxiv.org/pdf/1707.01780.pdf

的文本分類和情感分析

下面是他們的結論報價:

「我們的評估凸顯的是跨訓練和評估數據所採用的預處理戰略相一致的重要性,一般簡單的切分語料庫作品等同於或比更復雜的預處理技術(如詞形化或多字分組)更好,除了對應於專業領域的數據集(如健康),其中唯一的標記化效果不佳。另外,當應用於簡單的標記化數據集時,在多詞分組語料上訓練的詞嵌入表現出人意外。「