2010-07-06 77 views
0

我正在嘗試使用OpenAmplifyAPI來評估URI的內容。關鍵是要提出與文章真正相關的主題。不幸的是,專題分析,我又回到是:評估「值」屬性

  1. 巨大,
  2. 多樣化

無論質量是什麼,我試圖做的非常有用的,因爲信噪比正在嚴重傾向於噪音。我正在分析網頁內容,因此涉及一定量(可能是大量)不相關的內容(廣告等)。我明白了。儘管如此,許多正在返回的主題要麼是無用的(完全不是非感性的,甚至不是單詞),不相關的(例如,從哪裏來的?),要麼太細緻,不能提供任何意義或洞察力。我大概可以使用,um,爲每個域,子域,主題等返回的值過濾掉大部分噪聲,但我並不知道它的含義。

當然我明白,它是衡量「文字中突出顯示的單詞」的數字,但數字本身完全是任意的,這樣我就可以阻止我說「忽略任何與價值低於50「,並具有真正的意義。

是否有任何範圍標準可以幫助我理解如何使用主題的值分數作爲過濾閾值?或者,我還有另一個領域應該用於這種過濾嗎?

感謝您的幫助。

回答

0

從其他渠道,我知道value屬性不能按我希望的方式進行評估。對於不同的信號,它意味着不同的事物,並且沒有一個以這種對於這種需求有意義的方式來定義。