information-retrieval

    3熱度

    1回答

    在信息檢索評估中,如果檢索到少於k個文檔,精度是多少?假設只有5個文件被檢索到,其中3個是相關的。精度@ 10是3/10還是3/5?

    1熱度

    1回答

    我想從圖像收據中提取總帳單。我可以提取圖像中存在的全部數據,但現在我只能提取我需要的信息。 這是我有的圖像。 我從圖像 m cm lnnk 3mm: :33; no 1 z m x Visut all! ms「; (or nulnunn mfn an an: nan. Sub Iota] 19.56 TOTAL 19.56 VISA 1956 Fun 19.56 D!!! You

    0熱度

    1回答

    我想確保繪製了精確召回曲線。我有以下數據:回憶值= [0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0] 精度= [1,1,0.8,0.7,0.80,0.65,0.60,0.72 ,0.60,0.73,如下面 precision-recall curve 0.75] interpolated_precision = [1,1,0.80,0.80,0.80,0.

    0熱度

    1回答

    我有一個名爲BBC_news_home.html的文件,我需要刪除所有標記標記,所以我留下的只是一些文本。到目前爲止,我有: def clean_html(html): cleaned = '' line = html pattern = r'(<.*?>)' result = re.findall(pattern, line, re.S) if result:

    0熱度

    1回答

    如何獲取維基百科文章中指定詞的頻率而不存儲整篇文章然後處理它?對於例如,怎麼可能會時代的「印」字這篇文章https://simple.wikipedia.org/wiki/India

    0熱度

    1回答

    如果我有一個字符串「你好,我是XYZ」它可以被標記爲標記: - 「你好」,「我」,「上午」,「XYZ」。但是,我將如何標記一個非空格分隔的字符串。 例如:「你好,IamXYZ」?

    0熱度

    1回答

    我正在使用Firebase數據庫和存儲來保存圖像及其說明。目前我已經編碼了8個圖像和8個描述。我正在努力研究如何獲得它,以便如果用戶只選擇4張圖片並放入4個描述中,它允許回調。它與8正常工作,但是當我只添加4,並選擇該表被稱爲它崩潰的錯誤,第5張照片變種不承載任何東西。 下面是我用來調用表的數據和它崩潰的代碼。 func configureCell(post: Post) { self.

    0熱度

    1回答

    我有一個Elasticsearch索引,其中包含大約25億個文檔,分析字段中包含大約1800萬個不同的術語。是否有可能快速獲得包含詞彙的文檔數量而不搜索索引? 似乎ES會在分析字段時存儲該信息,或者可能能夠計算倒排索引的長度。如果有一種方法可以搜索多個術語並獲取每個術語的文檔頻率,那會更好。我想定期進行數千次這樣的嘗試,而且我不知道是否有一種有效的方法來做到這一點。

    1熱度

    1回答

    我無法使用Indri查詢語言編寫以下布爾查詢。我需要寫的查詢如下: (Stana or Katic) AND (Jon or Huertas) AND (co-stars or colleagues) 我需要包含上述所有文檔的列表。我怎麼能這樣做呢?

    3熱度

    3回答

    我完全知道詞嵌入(skip-gram,CBOW)的含義和方法。我知道,谷歌有一個word2vector API,通過讓這個詞可以產生矢量。 但我的問題是這樣的:我們有一個子句,包括主題,對象,動詞......每個單詞先前由Google API嵌入,現在「我們如何將這些向量組合在一起創建一個等於該條款?「 例子: 子句:V =「狗咬人」 由谷歌詞嵌入後,我們有V1,V2,V3,他們每個人都映射到狗,