-1

根據元素風格(fontSize,fontWeight,...)從HTML文件中提取標題和段落的最佳數據挖掘策略是什麼。我已經提取了文本和fontSize屬性並將它們放在一個csv文件中,現在我需要知道如何對這些數據進行分類(或分類?),以便它可以給我例如所有fontSize爲20px的元素,公差爲+ - 5px。這些元素將被轉換成h1標籤,等等..根據元素風格從html中提取標題和段落

編輯:我能夠將fontSizes集羣化爲儘可能多的集羣,因爲我想要使用集羣算法在Weka中使用曼哈頓距離函數的簡單KMeans。但是,對於每個羣集,我都會得到一個精確的值,例如:font-size 10px被捕獲100次,20px 200次等等。我需要一個範圍而不是特定值來覆蓋所有值。

+0

你爲什麼要依賴這種聚類?這不夠可靠。 –

+0

我正在尋找你們的建議。你有什麼建議? –

+0

使用閾值。 –

回答

0

首先這將是一個評論,但我是新的,不能寫評論現在。

我能夠將fontSizes集羣到儘可能多的集羣,因爲我想使用集羣算法在Weka中使用曼哈頓距離函數的簡單KMeans。但是,對於每個羣集,我都會得到一個精確的值,例如:font-size 10px被捕獲100次,20px 200次等等。我需要一個範圍而不是特定值來覆蓋所有值。

您可以使用名爲somthing的選項指定羣集的數量,如「numClusters」。因此,您可以強制weka按照您的要求構建儘可能多的集羣,這意味着如果您具有比集羣更多的不同值,則必須使用範圍而不是特定數字。

但這裏是我的問題爲什麼不使用簡單的循環遍歷數據並指定您想要的數據。 喜歡的東西

if(fontSize < 10) { 
/*Do s.th*/ 
}else if(fontSize < 20){ 
/*Do s.th. 
} 

因爲這似乎是一個方式更可靠,更容易。 即使您擁有更多屬性,也只需手動爲每個羣集定義屬性範圍,並檢查任何數據集是否適合其中一個羣集。

如果您擁有絕大多數的屬性或羣集,或者對數據不甚瞭解,我只會推薦像weka這樣的任務。但你的任務看起來並不那樣。

0

嘗試基於機器學習的boilerpipe java API。你可以測試不同的型號on-line