tf-idf

0熱度

1回答

Spark MLlib中的HashingTF中的numFeatures和文檔中的實際條目數之間的關係是什麼？

有numFeatures之間HashingTF在星火MLlib和術語在文檔（句子）的實際數量的任何關係？ List<Row> data = Arrays.asList( RowFactory.create(0.0, "Hi I heard about Spark"), RowFactory.create(0.0, "I wish Java could use case class

0熱度

1回答

Tfidf向量不工作

我有一個語料庫（酒店點評），我想要做一些NLP過程，包括Tfidf。我的問題是，當我應用Tfidf並打印100個功能時，它不會顯示爲一個單詞，而是整個句子。這裏是我的代碼：注：clean_doc是一個函數返回我的陰莖從停用詞清理，制止和等 vectorizer = TfidfVectorizer(analyzer='word',tokenizer=clean_doc, max_feature

0熱度

1回答

Scala將[Seq [string]轉換爲[String]？（在詞形化後的TF-IDF）

我嘗試學習scala和特定文本minning（詞形化，TF-IDF矩陣和LSA）。我有一些文本我想要lemmatize並作出分類（LSA）。我在cloudera上使用spark。所以我用了stanfordCore NLP fonction： def plainTextToLemmas(text: String, stopWords: Set[String]): Seq[String] = {

-1熱度

1回答

如何使用scikit查找關於文檔的術語TF-IDF

我正在嘗試將scikit應用於自然語言處理，並且先閱讀一些教程。我找到了這一個http://www.markhneedham.com/blog/2015/02/15/pythonscikit-learn-calculating-tfidf-on-how-i-met-your-mother-transcripts/，它解釋瞭如何從一組文檔中獲得tfidf分數。但是我有一個問題，TF-IDF應該依賴

1熱度

1回答

是否可以在Lucene中獲取，更改和替換tfidf文檔表示？

Hej guys，我正在進行一些排名相關的研究。我想用Lucene索引一系列文檔，獲取它生成的tfidf表示（每個文檔），修改它們，將它們放回原處並觀察固定查詢集上的排名如何相應變化。有沒有非hacky的方式來做到這一點？

0熱度

1回答

Solr - 在文檔子集上查找「重要條款」

我正在嘗試爲Solr中的文檔子集獲取「重要條款」。這可能是也可能不是最好的方式，但是我目前正試圖使用Solr的TF-IDF功能，因爲我們已經將數據存儲在Solr中，並且閃電般快速。我想通過搜索或過濾器將「DF」計數限制爲我的文檔的一個子集。我想這一點，在那裏我在尋找在名稱字段「蘋果」： http://localhost:8983/solr/techproducts/tvrh?q=name:ap

0熱度

1回答

爲什麼TF-IDF詞彙單詞表示爲座標軸/維度？

我想要一個直觀的方式來理解爲什麼TF-IDF詞彙表中的每個單詞都表示爲單獨的維度。爲什麼我不能將所有單詞的TF-IDF值加在一起並將其用作文檔的表示形式？我對我們爲什麼這樣做有基本的瞭解。蘋果=/=橘子。但顯然我不太清楚它說服別人！

0熱度

1回答

正確使用機器學習算法根據內容而不是用戶歷史找到類似產品的方法

我有大約2-3百萬個產品。每個產品遵循這種結構 { "sku": "Unique ID of Product (String of 20 chars)" "title":"Title of product eg Oneplus 5 - 6GB + 64GB ", "brand":"Brand of product eg OnePlus", "cat1":"F

0熱度

1回答

Spark MLlib IDF洗牌數據？

在下面的代碼中，spark是否必須在計算IDF和TF-IDF向量時洗牌數據？ val hashingTF = new HashingTF() val tf: RDD[Vector] = hashingTF.transform(documents) tf.cache() val idf = new IDF().fit(tf) val tfidf: RDD[Vector] = idf.tran

1熱度

1回答

Python中的文本聚類後的完全相同的羣集

我正在Python中對一組文本數據執行文本聚類。基本上，我使用TF IDF得分，然後應用結果矩陣爲k均值算法就是這樣： vect = TfidfVectorizer(min_df=100,stop_words=sw) dtm = vect.fit_transform(df) l=vect.get_feature_names() k = 15 model = MiniBatchKMean