2017-05-07 61 views
0

我正在努力實現一個要求,使用apache spark和mongodb爲文檔創建單詞詞典。使用Spark SQL對文本內容進行標記化?

在我的場景中,我有一個mongo集合,其中每個文檔都有一些文本類型字段以及文檔所有者的字段。

我想解析集合文檔中的文本內容並創建一個將單詞映射到文檔和所有者字段的字典。基本上,將是一個字和_id所有者字段。

這個想法是當用戶在基於用戶文檔的UI中的文本框中輸入時提供特定於用戶的自動建議。 用戶可以創建多個文檔,一個單詞可以在多個文檔中,但只有一個用戶可以創建文檔。

我用mongo spark連接器,我可以使用spark sql將集合文檔加載到數據框中。

我不確定如何處理現在位於其中一個數據框列中的文本數據以提取單詞。

有沒有使用SQL星火處理數據幀列中的文本內容提取/標記化詞並將其映射到_id所有者領域並將結果寫入到另一個集合的方式。

如果沒有,有人可以讓我知道正確的方法/步驟,我可以如何實現它。

回答