tf-idf

    0熱度

    1回答

    有numFeatures之間HashingTF在星火MLlib和術語在文檔(句子)的實際數量的任何關係? List<Row> data = Arrays.asList( RowFactory.create(0.0, "Hi I heard about Spark"), RowFactory.create(0.0, "I wish Java could use case class

    0熱度

    1回答

    我有一個語料庫(酒店點評),我想要做一些NLP過程,包括Tfidf。我的問題是,當我應用Tfidf並打印100個功能時,它不會顯示爲一個單詞,而是整個句子。 這裏是我的代碼: 注:clean_doc是一個函數返回我的陰莖從停用詞清理,制止和等 vectorizer = TfidfVectorizer(analyzer='word',tokenizer=clean_doc, max_feature

    0熱度

    1回答

    我嘗試學習scala和特定文本minning(詞形化,TF-IDF矩陣和LSA)。 我有一些文本我想要lemmatize並作出分類(LSA)。我在cloudera上使用spark。 所以我用了stanfordCore NLP fonction: def plainTextToLemmas(text: String, stopWords: Set[String]): Seq[String] = {

    -1熱度

    1回答

    我正在嘗試將scikit應用於自然語言處理,並且先閱讀一些教程。我找到了這一個http://www.markhneedham.com/blog/2015/02/15/pythonscikit-learn-calculating-tfidf-on-how-i-met-your-mother-transcripts/,它解釋瞭如何從一組文檔中獲得tfidf分數。 但是我有一個問題,TF-IDF應該依賴

    1熱度

    1回答

    Hej guys, 我正在進行一些排名相關的研究。我想用Lucene索引一系列文檔,獲取它生成的tfidf表示(每個文檔),修改它們,將它們放回原處並觀察固定查詢集上的排名如何相應變化。 有沒有非hacky的方式來做到這一點?

    0熱度

    1回答

    我正在嘗試爲Solr中的文檔子集獲取「重要條款」。這可能是也可能不是最好的方式,但是我目前正試圖使用​​Solr的TF-IDF功能,因爲我們已經將數據存儲在Solr中,並且閃電般快速。我想通過搜索或過濾器將「DF」計數限制爲我的文檔的一個子集。我想這一點,在那裏我在尋找在名稱字段「蘋果」: http://localhost:8983/solr/techproducts/tvrh?q=name:ap

    0熱度

    1回答

    我想要一個直觀的方式來理解爲什麼TF-IDF詞彙表中的每個單詞都表示爲單獨的維度。 爲什麼我不能將所有單詞的TF-IDF值加在一起並將其用作文檔的表示形式? 我對我們爲什麼這樣做有基本的瞭解。 蘋果=/=橘子。 但顯然我不太清楚它說服別人!

    0熱度

    1回答

    我有大約2-3百萬個產品。每個產品遵循這種結構 { "sku": "Unique ID of Product (String of 20 chars)" "title":"Title of product eg Oneplus 5 - 6GB + 64GB ", "brand":"Brand of product eg OnePlus", "cat1":"F

    0熱度

    1回答

    在下面的代碼中,spark是否必須在計算IDF和TF-IDF向量時洗牌數據? val hashingTF = new HashingTF() val tf: RDD[Vector] = hashingTF.transform(documents) tf.cache() val idf = new IDF().fit(tf) val tfidf: RDD[Vector] = idf.tran

    1熱度

    1回答

    我正在Python中對一組文本數據執行文本聚類。基本上,我使用TF IDF得分,然後應用結果矩陣爲k均值算法就是這樣: vect = TfidfVectorizer(min_df=100,stop_words=sw) dtm = vect.fit_transform(df) l=vect.get_feature_names() k = 15 model = MiniBatchKMean