2011-05-04 792 views
0

關於數據挖掘,結構化文本和非結構化文本有什麼區別?在選擇/開發用於分析這些不同文本的數據挖掘方法時,主要考慮什麼?結構化文本和非結構化文本

+3

這個Q是最近這次Q的精確副本:HTTP: //stackoverflow.com/questions/5353124/how-are-structured-and-unstructured-data-distinguished/5354909#5354909 – doug 2011-05-09 19:30:59

回答

2

我會在接受這些類型的問題時說,你所處理的具體領域很重要。在你的問題中添加一些上下文將允許更多有用的迴應。

在一般情況下,結構化文本和非結構化文本之間的中心區別在於結構化文本具有容易消化的形式而非結構化文本沒有的簡單事實。對於某些文本挖掘來說,這可能就像一個詞袋模型一樣簡單(每個單詞出現多少次?),一直到非常複雜的NLP方法,試圖抽出更深層次的語言結構,如詞類或實體檢測/解析。結構化數據的每日示例可以是Twitter上的帖子的元數據(用戶名/時間戳/轉推信息/等),其中相關的非結構化數據將是帖子本身的文本。

不知道你感興趣的是什麼,一個很大的考慮是一個簡單的事實,即結構化文本對於簡單的機器學習模型通常是一個方便的形式,而非結構化文本很少,因爲它不能被簡單地理解爲一堆的二進制/實值功能並拋入您最喜愛的統計模型。

希望這有助於在高級別 - 隨時更新原來的職位有,如果我是用我的反應過於寬泛細節=)