根據元素風格(fontSize,fontWeight,...)從HTML文件中提取標題和段落的最佳數據挖掘策略是什麼。我已經提取了文本和fontSize屬性並將它們放在一個csv文件中,現在我需要知道如何對這些數據進行分類(或分類?),以便它可以給我例如所有fontSize爲20px的元素,公差爲+ - 5px。這些元素將被轉換成h1標籤,等等..根據元素風格從html中提取標題和段落
編輯:我能夠將fontSizes集羣化爲儘可能多的集羣,因爲我想要使用集羣算法在Weka中使用曼哈頓距離函數的簡單KMeans。但是,對於每個羣集,我都會得到一個精確的值,例如:font-size 10px被捕獲100次,20px 200次等等。我需要一個範圍而不是特定值來覆蓋所有值。
你爲什麼要依賴這種聚類?這不夠可靠。 –
我正在尋找你們的建議。你有什麼建議? –
使用閾值。 –