鑑於2個html源代碼,我想先使用類似this的東西來提取主要內容。有沒有other better libraries - 我正在尋找Python/Javascript的?如何判斷兩個網頁內容是否相似?
一旦我有了兩個提取的內容,我想返回0到1之間的分數,表示它們有多相似。來自CNN和BBC的同一主題的新聞文章將具有更高的相似度分數,因爲它們與Amazon.com上的同一產品相關的主題或網頁相關,而Walmart.com也會有相同的分數。我怎樣才能做到這一點?現有的庫已經這樣做了嗎?我可以使用哪些好的圖書館?基本上我正在尋找automatic summarization,keyword extraction,named-entity recognition和sentiment-analysis的組合。